WO2023014007A1 - 화합물 정보 추출을 위한 장치 및 방법 - Google Patents

화합물 정보 추출을 위한 장치 및 방법 Download PDF

Info

Publication number
WO2023014007A1
WO2023014007A1 PCT/KR2022/011269 KR2022011269W WO2023014007A1 WO 2023014007 A1 WO2023014007 A1 WO 2023014007A1 KR 2022011269 W KR2022011269 W KR 2022011269W WO 2023014007 A1 WO2023014007 A1 WO 2023014007A1
Authority
WO
WIPO (PCT)
Prior art keywords
compound
layer
compound data
input
encoder
Prior art date
Application number
PCT/KR2022/011269
Other languages
English (en)
French (fr)
Inventor
김동민
이명재
강신욱
황현준
김평은
Original Assignee
주식회사 제이엘케이바이오
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 제이엘케이바이오 filed Critical 주식회사 제이엘케이바이오
Publication of WO2023014007A1 publication Critical patent/WO2023014007A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/10Analysis or design of chemical reactions, syntheses or processes
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/40Searching chemical structures or physicochemical data
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/60In silico combinatorial chemistry
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics

Definitions

  • the present disclosure relates to a compound information extraction model, and more particularly to a computing device and method for compound information extraction.
  • an object of the present disclosure is to provide a computing device and method for extracting compound information that can be commonly used in various compound prediction models.
  • a compound information extraction method that can be performed by a computing device.
  • the method includes processing input compound data with dimensions set for input to an encoder layer and a decoding layer; learning the input compound data by an attention method in the encoder layer; obtaining a mean vector and a variance vector having a latent dimension based on the learned compound data in an information bottleneck layer; extracting a rate vector from a normal distribution according to the mean vector and the variance vector through reparameterization; predicting physical-chemical properties of a compound based on the mean vector in a compound property prediction layer; predicting the length of a compound sequence based on the mean vector in a length prediction layer; converting the rate vector into encoder-output compound data having dimensions set for input to the decoding layer in an information extension layer; learning the input compound data using the encoder-output compound data in an attention manner in the decoder layer; and reconstructing compound data from compound data learned in the decoder layer in a generation layer.
  • the processing of the input compound data may include tokenizing the input compound data into a minimum unit constituting a compound sequence; Embedding N ⁇ T-dimensional tokenized compound data into a matrix of N ⁇ d_model dimensions - N is the number of tokens of the compound, T is the number of tokens, and d_model is the set dimension of the encoding layer and decoding layer -; It may include adding a positional encoding value to the embedded matrix.
  • the step of learning the input compound data in the encoder layer may include learning the compound data input to the encoder layer through a multi-head self-attention sublayer; connecting and normalizing residuals between input compound data and output compound data of the multihead self-attention sublayer; receiving the residual connection and normalized compound data and learning them through a feed forward sublayer; and connecting and normalizing residuals between input compound data and output compound data of the feed forward sublayer.
  • the encoder layer may be composed of a plurality of consecutive encoder layers.
  • the step of learning the input compound data in the encoder layer the compound data learned in the previous encoder layer is input to the next encoder layer, and the input compound data is received in the first encoder layer and the compound finally learned in the last encoder layer. It may include outputting data.
  • the step of predicting the physical-chemical properties of the compound based on the average vector in the compound property prediction layer may include inputting a first linearly transformed output value in the 1 ⁇ dzo dimension using the average vector as an input value to the ReLU function. to obtain a first output vector, where dzo is a set dimension size of the first linear transformation; obtaining a second output vector by inputting a second linear transformation output value of 1 ⁇ dz1 dimension, which takes the first output vector as an input value, to the ReLU function, where dz1 is a set dimension size of the second linear transformation; And obtaining a physical-chemical characteristic prediction vector (Y ⁇ ) through a third linear transformation to a 1 ⁇ y dimension using the second output vector as an input value, where y is the number of physical-chemical characteristics.
  • a first output vector is obtained through a first linear transformation to a 1 ⁇ d l0 dimension using the average vector as an input value
  • Step of doing - d 10 is the set dimension size of the first linear transformation -; obtaining a second output vector through a second linear transformation to a 1 ⁇ L dimension taking the first output vector as an input value, where L is the maximum length of a set compound sequence; and obtaining a sequence length prediction vector (S) by inputting the second output vector to a Softmax function.
  • the step of converting the rate vector into the encoder-output compound data in the information extension layer may include converting the rate vector of 1 ⁇ d latent dimension into a matrix of N ⁇ d_model dimension through an Expand function— d latent is the latent dimension -; learning compound data represented by the transformed matrix through a multi-head self-attention sublayer; and generating the encoder-output compound data by connecting and normalizing residuals of input compound data and output compound data of the multihead self-attention layer.
  • the step of learning the input compound data using the encoder-output compound data in the decoder layer may include learning the input compound data input to the decoder layer through a multihead self-attention sublayer to which a masking matrix is applied step; connecting and normalizing residuals of input compound data and output compound data of a multihead self-attention sublayer to which the masking matrix is applied; learning the input compound data after connecting and normalizing the residuals using the encoder-output compound data through a multi-head encoder-decoder attention sublayer; connecting and normalizing residuals between input compound data and output compound data of the multihead encoder-decoder attention sublayer; learning the input compound data after connecting and normalizing the residuals through a feed forward sublayer; and connecting and normalizing residuals between input compound data and output compound data of the feed forward sublayer.
  • the decoder layer may be composed of a plurality of consecutive decoder layers.
  • the step of learning the input compound data in the decoder layer the compound data learned in the previous decoder layer is input to the next decoder layer, and the input compound data is received in the first decoder layer and the compound finally learned in the last decoder layer. It may include outputting data.
  • the encoder-output compound data from the information extension layer may be input to the multihead encoder-decoder attention sublayer of each decoder layer.
  • the step of reconstructing compound data from the compound data learned in the decoder layer is to obtain an N ⁇ T-dimensional matrix through linear transformation taking the compound data output from the decoding layer of N ⁇ d_model dimension as an input value step; obtaining a compound data reconstruction matrix by inputting the obtained matrix to a Softmax function; and reconstructing compound data from the reconstruction matrix.
  • the compound information extraction method further comprises calculating a loss function for the compound information extraction method based on reconstruction loss, length prediction loss, physical-chemical property prediction loss, and Kullback-Leibler Divergence (KLD) loss. can do.
  • the compound information extraction method may include providing extracted compound information including the reconstructed compound data, the average vector, the predicted compound physical-chemical properties, and the length of the predicted compound sequence to an output device. can include more.
  • a computing device for compound information extraction includes: a data processing unit configured to process input compound data with dimensions set for input to an encoder layer and a decoding layer; an encoder layer unit configured to learn the input compound data in an attention manner; an information bottleneck layer unit configured to obtain a mean vector and a variance vector having a rate dimension based on the learned compound data; a re-parameterization unit configured to extract a rate vector from a normal distribution according to the mean vector and the variance vector through re-parameterization; a physio-chemical property prediction unit configured to predict physio-chemical properties of a compound based on the average vector; a sequence length prediction unit configured to predict a length of a compound sequence based on the average vector; an information extension layer unit configured to convert the rate vector into encoder-output compound data having dimensions set for input to the decoding layer; a decoder layer unit configured to learn the input compound data using the encoder-output compound data in an attention manner; and a generation layer unit
  • a computer program stored in a computer readable medium including computer-executable instructions for executing a method for extracting compound information is provided.
  • a new compound can be generated through a decoder by selecting an arbitrary point in the chemical space created through the compound information extraction model of the present disclosure, it is useful for developing new drugs that require compounds with various structures. can be used
  • FIG. 1 is an exemplary diagram illustrating a system for extracting compound information according to an embodiment of the present disclosure.
  • FIG. 2 is an exemplary block diagram illustrating a computing device according to one embodiment of the present disclosure.
  • FIG. 3 is an exemplary diagram illustrating a compound information extraction model performed by a computing device according to an embodiment of the present disclosure.
  • FIG. 4 is an exemplary diagram showing a chemical space for a compound extracted by a compound information extraction model according to an embodiment of the present disclosure.
  • FIG. 5 is an exemplary flowchart illustrating a chemical information extraction method according to an embodiment of the present disclosure.
  • the present disclosure may be described using functions, formulas, variables, etc. defined in models such as Transformer for Deep Learning and Variational Auto Encoder (VAE), but is not limited thereto, and CNN ( Other artificial neural network concepts such as Convolutional Neural Network), Recurrent Neural Network (RNN), etc. may also be referenced to understand the present disclosure.
  • models such as Transformer for Deep Learning and Variational Auto Encoder (VAE), but is not limited thereto, and CNN ( Other artificial neural network concepts such as Convolutional Neural Network), Recurrent Neural Network (RNN), etc. may also be referenced to understand the present disclosure.
  • FIG. 1 is an exemplary diagram illustrating a system for extracting compound information according to an embodiment of the present disclosure.
  • such a system may include a compound database (DB) 100 , a computing device 200 and an output device 300 .
  • the computing device 200 may be configured to execute a compound information extraction model according to the present disclosure based on compound data provided from the compound DB 100 .
  • the output device 300 may be configured to output or use an execution result of the computing device 200 .
  • the compound DB 100 may provide source compound data so that a data set can be configured in the computing device 200 .
  • these source compound data may be open source data such as ZINC15, PubChem, ChEMBL, and the like.
  • Such source compound data may be provided in a form processable by a computer system, and may be, for example, compound data in the form of SMILES (Simplified Molecular-Input Line-Entry System), InChl (International Chemical Identifier), MACCSKeys, and the like.
  • SMILES Simple Molecular-Input Line-Entry System
  • InChl International Chemical Identifier
  • MACCSKeys and the like.
  • the computing device 200 may determine a data set to be used in the compound information extraction model of the present disclosure from a compound data source provided from the compound DB 100 .
  • the computer device 200 may determine a data set to be applied to the model by reducing the amount of sample data to the extent that hardware processing is possible and sampling so that the data imbalance problem does not occur during the training process of the model in the following manner.
  • the computing device 200 filters redundant data and labels compounds by a predetermined number of physico-chemical characteristics. and about 500 million compounds can be determined by normalization.
  • the computing device 200 divides these compounds into 8 sections each according to two physico-chemical properties (eg, solubility (LogP: Partition Coefficient), molecular weight (MW: Molecular Weight)) to obtain a total of 64 groups. can be classified as Each group may have a different number of compound data, and when the smallest number of these numbers is n, a minimum of n to a maximum of 3n compounds may be sampled for all groups.
  • solubility solubility
  • MW molecular weight
  • the computing device 200 may sample about 5 million compound data, which is about 1/100 of about 500 million compound data, and determine it as a data set for learning in the model.
  • the present disclosure is not limited to these sampling schemes, and modified or additional sampling schemes may be applied to build a data set suitable for application to the model.
  • the output device 300 may be a display device for displaying the processing result of the computing device 200, or a database device for storing and managing the processing result of the computing device 200, or It may be another computing device for executing another AI-based compound prediction model using the compound information extracted from the computing device 200 .
  • FIG. 2 is an exemplary block diagram illustrating a computing device according to one embodiment of the present disclosure.
  • the computing device 200 may include a processor 210, a storage medium 220, a memory 230, and a network interface 240, which communicate with each other through a system bus 250. can be connected
  • An operating system 222 and a computer program 224 may be mounted on the storage medium 220 .
  • the storage medium 220 may be a data storage device such as a hard disk or a solid state drive (SSD) capable of storing computer programs and related data.
  • the operating system 222 may be an operating system software such as Windows, IOS, or Linux for operating the computing device 200 .
  • Computer program 224 may include computer-executable instructions for executing the compound information extraction model of the present disclosure.
  • the computer-executable instructions of computer program 224 when executed by processor 210, may cause processor 210 to perform the compound information extraction method of the present disclosure.
  • Processor 210 may be configured to provide computing and control capabilities to support the execution of overall computing device 200 .
  • the processor 210 may be a data processing device such as a central processing unit (CPU), a microprocessor unit (MPU), an application processor (AP), or the like, and may include one processor or a plurality of processors. When configured with a plurality of processors, the processors 210 may operate as parallel processing processors.
  • the network interface 240 may provide an interface capable of communicating data by being connected to an external device (eg, the compound DB 100, the output device 300, or a wired/wireless communication device connectable through a network). .
  • FIG. 3 is an exemplary diagram illustrating a compound information extraction model performed by a computing device according to an embodiment of the present disclosure.
  • the compound information extraction model according to the present disclosure includes a data processing unit 310, an encoder layer unit 320, an information bottleneck layer unit 330, and reparameterization. ) unit 340, physical-chemical property prediction unit 350, sequence length prediction unit 360, information expansion layer unit 370, decoder layer unit 380, generation layer unit 390 can include
  • Figure 3 shows the numbers 1 to 10 to help understand the data processing process through the compound information extraction model, but this is an example, and the compound information extraction model of the present disclosure is not limited to the execution order according to the indicated numbers.
  • the compound information extraction model of the present disclosure may be executed in the order of 5 times, 6 times, 7a times, 7b times, and 8 times, or may be executed in the order of 5 times, 6 times, 8 times, 7b times, and 7c times. may or may be executed in a different order.
  • Compound data input to the compound information extraction model of the present disclosure may be sequence data in the form of SMILES, and the same SMILES data is input to the encoder layer unit 320 and the decoder layer unit 380, but not to the decoding layer unit 380.
  • An additional token such as a start token may be added and input.
  • the data processor 310 embeds the N ⁇ T-dimensional tokenized compound data (X smiles ) into a matrix of N ⁇ d_model dimensions through linear transformation (or linear projection), Embedded compound data ( ) can be created. This process can be expressed through the following equation:
  • , , , , and d_model is a set dimension of the encoding layer and the decoding layer.
  • trainable weight learned in the training process may be updated through a method such as a back propagation algorithm in a direction of reducing loss in model learning results.
  • the data processing unit 310 includes an embedded matrix ( Input compound data processed to be input to the encoding layer and the decoding layer by adding the positional encoding value (PE) to ) ( , ) can be created.
  • the positional encoding value (PE) is A value indicating the relative position of each token in . This process can be expressed through the following equation:
  • pos indicates the index position of the corresponding token.
  • the encoder layer unit 320 is input compound data ( ) may be configured to learn in an attention manner.
  • the encoder layer unit 320 includes a multi-head self-attention sublayer unit, a first residual connection and normalization unit (Add & Norm), a feed forward sublayer unit, and a second Residual concatenation and normalization may be included.
  • the multi-head self-attention sublayer is a compound data input by the multi-head self-attention method so that the model can learn by itself which part of the input values should be focused on learning ( ), and the first residual connection and normalization unit input compound data of the multihead self-attention sublayer ( ) and output compound data ( ) as a result of residual concatenation and normalization ( ) can be output.
  • This process can be expressed by the following formula.
  • Q, K, and V mean Query, Key, and Value of attention, respectively.
  • h is the number of heads.
  • W G , W Q , W K , and W V are trainable weights, and may be set differently for each attention head (head i ).
  • Concat in Equation 3 is a function that concatenates attention heads.
  • Residual in Equation 3 is a function representing the residual connection and normalization that adds the input value and the output value to create a connection point between the output value and the input value and normalizes it, and can be expressed by the following formula:
  • is a value that prevents the denominator from becoming 0 and can be set to a sufficiently small value such as 10 -4 .
  • the multi-head self-attention learned compound data (feed forward sublayer unit) input from the first residual concatenation and normalization unit ( , below for convenience of explanation ) is trained through a feed-forward neural network to obtain additional information, and the second residual connection and normalization unit feed-forward sublayer input compound data ( ) and output compound data ( ) as a result of residual concatenation and normalization ( ) can be output.
  • This process can be expressed by the following formula.
  • ego , , and is the trainable weight. is the size of the hidden layer of the feed forward neural network.
  • the encoder layer unit 320 may include a plurality (eg, four) consecutive encoder layers to enhance the learning performance of the encoder layer.
  • the encoder layer unit 320 uses the compound data learned in the previous encoder layer ( ) as the next encoder layer ( ), which can be expressed in the following equation:
  • the encoder layer unit 320 is input compound data from the data processing unit 310 in the first encoder layer ( ) and output the final learned compound data in the last encoder layer to the information bottleneck layer unit 330.
  • the information bottleneck layer unit 330 is input compound data learned from the encoder layer unit 320 ( , for convenience of description below It may be configured to obtain a mean vector ( ⁇ ) and a variance vector ( ⁇ ) having a rate dimension based on (denoted by ).
  • the information bottleneck layer unit 330 outputs data of the encoding layer unit 320 having a dimension of N ⁇ d_model ( ), a mean vector ( ⁇ ) and a variance vector ( ⁇ ) having a 1 ⁇ d latent dimension can be obtained, and d latent represents the latent dimension. This process can be expressed through the following equation:
  • the input compound data ( ) can be separated into N vectors having dimensions of 1 ⁇ d_model and input to the Avg function. , ego, and is the trainable weight.
  • the obtained mean vector ( ⁇ ) and variance vector ( ⁇ ) are , has a dimension of
  • the re-parameterization unit 340 extracts the latent vector (z) of 1 ⁇ d latent dimension from the normal distribution (N( ⁇ , ⁇ )) according to the mean vector ( ⁇ ) and the variance vector ( ⁇ ) through re-parameterization.
  • the re-parameterization unit 340 samples the rate vector (z) by adding a value of ⁇ having a normal distribution with a mean of 0 and a standard deviation of 1 to N( ⁇ , ⁇ ) through the re-parameterization method. can do. This can be expressed by the following equation.
  • Such a latent vector (z) may represent a latent space, which is a low-dimensional (1 ⁇ d latent ) hidden dimensional space containing meaningful information about compound data of a high-dimensional N ⁇ d_model dimension.
  • the physical-chemical property prediction unit 350 may be configured to predict the physical-chemical properties of the compound based on the extracted average vector ( ⁇ ).
  • the physical-chemical properties of a compound may include solubility (LogP: Partition Coefficient), molecular weight (MW: Molecular Weight), binding affinity, toxicity (Toxicity), and the like.
  • the physical-chemical property prediction unit 350 may obtain a physical-chemical property prediction vector (Y ⁇ ) so that the rate vector (z) contains the physical-chemical properties of the compound, which is expressed by the following equation. can be:
  • the physio-chemical property prediction vector (Y ⁇ ) is It may have a dimension of , and y is the number of physical-chemical properties.
  • the physio-chemical property predictor 350 inputs the first linearly converted output value to the 1 ⁇ dzo dimension having the mean vector ( ⁇ ) as an input value to the ReLU function to obtain the first output vector ( ) can be obtained, and dzo is the set dimension size of the first linear transformation.
  • the physical-chemical property predictor 350 inputs the second linearly transformed output value to the 1 ⁇ dz1 dimension, which takes the first output vector as an input value, to the ReLU function to obtain a second output vector ( ) can be obtained, and dz1 is the set dimension size of the second linear transformation.
  • the physical-chemical property prediction unit 350 is a physical-chemical property prediction vector (through a third linear transformation to the 1 ⁇ y dimension taking the second output vector as an input value) ) can be obtained.
  • the sequence length prediction unit 360 may be configured to predict the length of a compound sequence (ie, the length (N) of a SMILES sequence of a compound to be predicted) based on the extracted average vector ( ⁇ ).
  • the length of the predicted compound sequence can be obtained as a sequence length prediction vector (S). This process can be expressed by the following equation:
  • the sequence length prediction vector (S) is It may have a dimension of, L is the maximum length of the set compound sequence.
  • the sequence length predictor 360 obtains a first output vector ( through a first linear transformation to a 1 ⁇ d 10 dimension taking the mean vector ⁇ as an input value). ) can be obtained, and d l0 is the set dimension size of the first linear transformation.
  • the sequence length predictor 360 obtains a second output vector (through a second linear transformation to a 1 ⁇ L dimension taking the first output vector as an input value). ) is obtained, and the second output vector is input to the Softmax function to predict the sequence length vector ( ) can be obtained.
  • the information extension layer unit 370 outputs the rate vector (z) having dimensions set for input to the decoding layer so that information inherent in the rate vector (z) can be used for learning in the decoding layer.
  • compound data ( ) can be configured to convert to.
  • the information extension layer unit 370 may include an extension unit, a multihead self-attention sublayer unit, and a residual concatenation and normalization unit. This process can be expressed by the following equation:
  • the expansion unit may convert the latent vector (z) of 1 ⁇ d latent dimension into a matrix (Z) of N ⁇ d_model dimension through the Expand function.
  • the Expand function creates an N ⁇ d latent- dimensional matrix by concatenating N latent vectors (z) by the Concat function, by dotting with A matrix (Z) of dimensions can be created.
  • the multihead self-attention sublayer learns the compound data (Z) input by the multihead self-attention method, and the residual connection and normalization unit learns the input compound data (Z) and the output compound data (Z) of the multihead self-attention sublayer. ) with residual concatenation and normalized encoder-output compound data ( ) can be created.
  • the decoder layer unit 380 uses the attention method to encoder-output compound data ( ) using the input compound data ( ) can be configured to learn.
  • the decoder layer unit 380 includes a masked multi-head self-attention sub-layer unit, a first residual concatenation and normalization unit, and a multi-head encoder-decoder attention It may include a sub-layer unit, a second residual concatenation and normalization unit, a feed forward sub-layer unit, and a third residual concatenation and normalization unit.
  • the masking multi-head self-attention sublayer unit is compound data (input by the multi-head self-attention method to which the masking matrix M is applied) ), and the first residual connection and normalization unit input compound data of the masking multihead self-attention sublayer ( ) and output compound data ( ) as a result of residual concatenation and normalization ( ) can be output.
  • the masking matrix M may be a lower triangular matrix in which all of the lower terms, including the NxN-dimensional main diagonal term, have a value of 1 and the remaining terms have a value of 0.
  • the masking multihead self-attention sublayer unit predicts the n-th token of the compound, information received from the encoder side ( ) and the information of already predicted tokens from 0th to n-1th, and through this, token information (ie, n+1th) that is in the future than the current time in prediction at the current time (i.e., n-th). , n+2 th .7) can be performed to prevent reference.
  • This process can be expressed by the following formula.
  • Q, K, and V mean Query, Key, and Value of attention, respectively
  • M is a masking matrix
  • h is the number of heads.
  • W G , W Q , W K , and W V are trainable weights, and may be set differently for each attention head (head i ).
  • the multihead encoder-decoder sublayer uses the multihead encoder-decoder attention method to encoder-output compound data ( ) Using masking multi-head self-attention learned compound data input from the first residual concatenation and normalization unit ( , below for convenience of explanation ) is learned, and the second residual connection and normalization unit input compound data of the multihead encoder-decoder sublayer ( ) and output compound data ( ) as a result of residual concatenation and normalization ( ) can be output.
  • Q is the input compound data learned on the decoder side ( )
  • K and V are encoder-output compound data ( ) can be determined based on This process can be expressed as:
  • Q, K, and V mean Query, Key, and Value of attention, respectively.
  • h is the number of heads.
  • W G , W Q , W K , and W V are trainable weights, and may be set differently for each attention head (head i ).
  • the feed forward sublayer unit multi-head encoder-decoder attention learned compound data input from the second residual concatenation and normalization unit ( , below for convenience of explanation ) is trained through a feed-forward neural network to obtain additional information, and the third residual connection and normalization unit feed-forward sublayer input compound data ( ) and output compound data ( ) as a result of residual concatenation and normalization ( ) can be output.
  • This process can be expressed by the following formula.
  • ego , , and is the trainable weight. is the size of the hidden layer of the feed forward neural network.
  • the decoder layer unit 380 may include a plurality (eg, three) consecutive decoder layers to enhance the learning performance of the decoder layer.
  • the decoder layer unit 380 may operate in a manner of inputting compound data learned in the previous decoder layer to the next decoder layer, and the input compound data in the first decoder layer ( ) may be received, and compound data finally learned in the last decoder layer may be output to the generation layer unit 390.
  • the encoder-output compound data from the information extension layer 370 ( ) can be entered.
  • the generation layer unit 390 is compound data learned from the decoder layer 380 ( , for convenience of description below It can be configured to reconstruct compound data from). This process can be expressed by the following equation:
  • the generation layer unit 390 is the compound data output from the decoding layer 380 of N ⁇ d_model dimension ( ) as an input value to obtain an N ⁇ T-dimensional matrix through linear transformation, and enter the obtained matrix into the Softmax function to obtain a compound data reconstruction matrix ( ) can be obtained.
  • the generation layer unit 390 may reconstruct compound data from the compound data reconstruction matrix.
  • the generation layer unit 390 is a compound data reconstruction matrix ( ), N ⁇ T-dimensional tokenized SMILES data can be probabilistically predicted, and compound data in SMILES format can be reconstructed by tokenizing-de-tokenizing the predicted tokenized SMILES data.
  • the computing device 200 transmits the information calculated through the compound information extraction model of the present disclosure described with respect to FIG. 3 to the output device 300 so that it can be used in a specific purpose artificial intelligence model. It may include a configured extraction information providing unit (not shown).
  • This calculated information is the compound data reconstructed through the decoder layer (eg, reconstructed compound SMILES), the obtained feature vector ( ⁇ ), the predicted compound physical-chemical property (Y ⁇ ), the length of the reconstructed compound sequence ( S) (eg, the length of reconstituted compound SMILES).
  • the computing device 200 may include a performance evaluation unit (not shown) configured to define a loss function (Loss) such as the following equation to verify the performance of the compound information extraction model of the present disclosure.
  • a performance evaluation unit (not shown) configured to define a loss function (Loss) such as the following equation to verify the performance of the compound information extraction model of the present disclosure.
  • Equation 16 The reconstruction loss (ReconLoss) of Equation 16 can be expressed as the following equation using a cross-entropy loss function.
  • p is an NxT-dimensional matrix, and has 1 at the token index of the actual output value (True label) and 0 at the other indexes. For example, if the index of the token is from 0 to T-1, the 9th actual output value is the token “[nH]” and the index of the token is 3, p 9 is [0,0,0,1, 0, across,0].
  • N is the number of tokens in the tokenized compound (i.e., the length of the compound sequence)
  • T is the number of branches of the token.
  • the sequence length prediction loss (LengthPredictionLoss) of Equation 16 can be expressed as the following equation using a cross-entropy loss function.
  • Equation 16 The physical-chemical property prediction loss (PropertyPredictionLoss) of Equation 16 can be expressed as a mean square error (MSE) as in the following equation.
  • MSE mean square error
  • the actual value for y physico-chemical properties ( ) and the predicted value output from the physical-chemical property prediction unit 350 ( ) can be calculated.
  • KLD Kullback-Leibler Divergence
  • ⁇ and ⁇ are the average vector ( ⁇ ) and the variance vector ( ⁇ ) obtained from the information bottleneck layer unit 330 .
  • the KLD loss may serve as a regularization of the compound information extraction model of the present disclosure, and the feature vector (ie, the average vector) ⁇ of the compound predicted by this model will have an ordered size without divergence. can This can make the characteristics of the compounds extracted by this model follow the Gaussian distribution to have an ordered distribution.
  • the computing device 200 may calculate the loss function defined according to Equation 16 and determine that the performance of the compound information extraction model is good as the calculated loss is small. In addition, the computing device 200 may adjust trainable weights applied to the model through an update scheme such as a backpropagation algorithm in a direction of reducing loss (ie, in a direction of improving model performance).
  • an update scheme such as a backpropagation algorithm in a direction of reducing loss (ie, in a direction of improving model performance).
  • the performance evaluation unit of the computing device 200 may evaluate the information extraction performance of the compound information extraction model through reconstruction accuracy, physical-chemical property prediction accuracy, and distribution of the extracted property vector ⁇ .
  • the reconstruction loss showed a sufficiently small value of 4.32*10 -4 .
  • the mean square error which is the physico-chemical property prediction loss, showed a sufficiently small value of 2.12*10 -3 .
  • FIG. 4 is an exemplary diagram showing a chemical space for a compound extracted by a compound information extraction model according to an embodiment of the present disclosure.
  • the chemical space can show the distribution of feature vectors ( ⁇ ) extracted from this model using a nonlinear dimensionality reduction technique such as tSNE (t-Stochastic Neighbor Embedding).
  • the chemical space of FIG. 4 is obtained by projecting the feature vector ( ⁇ ) extracted from this model into two principal components represented by the X axis and the Y axis, respectively, through tSNE dimension reduction.
  • tSNE t-Stochastic Neighbor Embedding
  • the compound information extraction model of the present disclosure showed sufficiently good reconstruction accuracy, physico-chemical prediction accuracy, and chemical space distribution as a result of evaluation, thereby verifying that it has sufficiently good compound information extraction performance.
  • FIG. 5 is an exemplary flowchart illustrating a chemical information extraction method according to an embodiment of the present disclosure.
  • the computing device 200 may process input compound data into a form that can be input to an encoder layer and a decoding layer (510).
  • the computing device 200 may learn input compound data in an attention method in an encoder layer (520).
  • the computing device 200 may obtain a mean vector and a variance vector having a rate dimension from the information bottleneck layer (530).
  • the computing device 200 may extract a rate vector from the average vector and the variance vector through re-parameterization (540).
  • the computing device 200 may predict the physical-chemical properties of the compound based on the obtained mean vector (550).
  • the computing device 200 may predict the length of the compound sequence based on the obtained mean vector (560).
  • the computing device 200 may convert the rate vector in the information extension layer into encoder-output compound data input to the decoding layer (570).
  • the computing device 200 may learn the input compound data by using the encoder-output compound data in an attention method in the decoder layer (580).
  • the computing device 200 may reconstruct compound data from the compound data learned in the decoding layer (590).
  • a component may be, but is not limited to, a process running on a processor, a processor, an object, a thread of execution, a program, and/or a computer.
  • an application running on a computing device and a computing device may be components.
  • One or more components can reside within a processor and/or thread of execution and a component can be localized on one computer or distributed between two or more computers. Also, these components can execute from various computer readable media having various data structures stored thereon.

Landscapes

  • Chemical & Material Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Computing Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Analytical Chemistry (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Medicinal Chemistry (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

본 개시 내용은 화합물 정보 추출을 위한 장치 및 방법을 제공한다. 상기 방법은, 인코더 계층 및 디코딩 계층으로의 입력을 위해 설정된 차원으로 입력 화합물 데이터를 처리하는 단계; 상기 인코더 계층에서 어텐션 방식으로 상기 입력 화합물 데이터를 학습시키는 단계; 정보 보틀넥 계층에서 상기 학습된 화합물 데이터에 기초하여 레이턴트 차원을 가지는 평균 벡터 및 분산 벡터를 획득하는 단계; 재파라미터화를 통해 상기 평균 벡터 및 상기 분산 벡터에 따른 정규분포로부터 레이턴트 벡터를 추출하는 단계; 화합물 특성 예측 계층에서 상기 평균 벡터에 기초하여 화합물의 물리-화학적 특성을 예측하는 단계; 길이 예측 계층에서 상기 평균 벡터에 기초하여 화합물 시퀀스의 길이를 예측하는 단계; 정보 확장 계층에서 상기 레이턴트 벡터를 상기 디코딩 계층으로의 입력을 위해 설정된 차원을 갖는 인코더-출력 화합물 데이터로 변환하는 단계; 상기 디코더 계층에서 어텐션 방식으로 상기 인코더-출력 화합물 데이터를 이용하여 상기 입력 화합물 데이터를 학습시키는 단계; 및 생성 계층에서 상기 디코더 계층에서 학습된 화합물 데이터로부터 화합물 데이터를 재구성하는 단계를 포함할 수 있다. 본 개시 내용에 따르면, 여러가지 목적의 화합물 예측 모델들에서 공통적으로 사용될 수 있는 화합물 정보들을 추출할 수 있는 화합물 정보 추출 모델을 제공할 수 있다.

Description

화합물 정보 추출을 위한 장치 및 방법
본 개시 내용은 화합물 정보 추출 모델에 관한 것이며, 보다 상세하게는 화합물 정보 추출을 위한 컴퓨팅 장치 및 방법에 관한 것이다.
신약 개발 등의 목적으로 화합물 정보를 분석 및 예측하기 위해 인공지능 알고리즘을 적용하려는 시도들이 이루어지고 있다. 이러한 접근법을 위해서는 목적에 맞는 인공지능 모델을 설계할 필요가 있으며, 모델의 복잡도가 높아질수록 모델 훈련에 고려할 사항들이 많아지면서 모델 하나를 설계, 훈련 및 검증하기까지 많은 시간 및 인력이 소비되어야 한다.
화합물의 특성을 예측하는 모델, 표적 단백질과의 결합력을 예측하는 모델, 화합물의 안정성을 예측하는 모델 등과 같은 여러 예측 모델들의 성능은 해당 모델에서 얼마나 적합한 화학/물리적 특성을 추출할 수 있느냐에 좌우될 수 있다.
따라서, 여러가지 목적의 모델들에서 공통적으로 사용될 수 있는 화합물 정보들을 추출하여 제공할 수 있는 화합물 정보 추출 모델을 개발할 필요성이 요구되고 있다.
이러한 문제점을 해결하기 위해 본 개시 내용은 다양한 화합물 예측 모델에서 공통적으로 사용될 수 있는 화합물 정보 추출을 위한 컴퓨팅 장치 및 방법을 제공하는 것을 목적으로 한다.
본 개시 내용의 일 실시예에 따르면, 컴퓨팅 장치에 의해 수행가능한 화합물 정보 추출 방법이 제시된다. 상기 방법은, 인코더 계층 및 디코딩 계층으로의 입력을 위해 설정된 차원으로 입력 화합물 데이터를 처리하는 단계; 상기 인코더 계층에서 어텐션(Attention) 방식으로 상기 입력 화합물 데이터를 학습시키는 단계; 정보 보틀넥 계층에서 상기 학습된 화합물 데이터에 기초하여 레이턴트(latent) 차원을 가지는 평균 벡터 및 분산 벡터를 획득하는 단계; 재파라미터화(Reparameterization)를 통해 상기 평균 벡터 및 상기 분산 벡터에 따른 정규분포로부터 레이턴트 벡터를 추출하는 단계; 화합물 특성 예측 계층에서 상기 평균 벡터에 기초하여 화합물의 물리-화학적 특성을 예측하는 단계; 길이 예측 계층에서 상기 평균 벡터에 기초하여 화합물 시퀀스의 길이를 예측하는 단계; 정보 확장 계층에서 상기 레이턴트 벡터를 상기 디코딩 계층으로의 입력을 위해 설정된 차원을 갖는 인코더-출력 화합물 데이터로 변환하는 단계; 상기 디코더 계층에서 어텐션 방식으로 상기 인코더-출력 화합물 데이터를 이용하여 상기 입력 화합물 데이터를 학습시키는 단계; 및 생성 계층에서 상기 디코더 계층에서 학습된 화합물 데이터로부터 화합물 데이터를 재구성하는 단계를 포함할 수 있다.
또한, 상기 입력 화합물 데이터를 처리하는 단계는, 상기 입력 화합물 데이터를 화합물 시퀀스를 구성하는 최소단위로 토큰화(tokenization)하는 단계; N×T 차원의 토큰화된 화합물 데이터를 N×d_model 차원의 행렬로 임베딩하는 단계 - N은 화합물의 토큰 개수이고, T는 토큰의 가지 수이고, d_model은 상기 인코딩 계층 및 디코딩 계층의 설정된 차원임 -; 임베딩된 행렬에 포지셔널 인코딩 값을 더하는 단계를 포함할 수 있다.
또한, 상기 인코더 계층에서 상기 입력 화합물 데이터를 학습시키는 단계는, 멀티헤드 셀프 어텐션(Multi-Head Self Attention) 부계층을 통해 상기 인코더 계층에 입력된 화합물 데이터를 학습시키는 단계; 상기 멀티헤드 셀프 어텐션 부계층의 입력 화합물 데이터 및 출력 화합물 데이터를 잔차 연결 및 정규화시키는 단계; 상기 잔차 연결 및 정규화된 화합물 데이터를 입력받아 피드 포워드(Feed Forward) 부계층을 통해 학습시키는 단계; 및 상기 피드 포워드 부계층의 입력 화합물 데이터 및 출력 화합물 데이터를 잔차 연결 및 정규화시키는 단계를 포함할 수 있다.
또한, 상기 인코더 계층은 복수개의 연속된 인코더 계층들로 구성될 수 있다. 상기 인코더 계층에서 상기 입력 화합물 데이터를 학습시키는 단계는, 이전 인코더 계층에서 학습된 화합물 데이터를 다음 인코더 계층으로 입력하는 방식으로 첫번째 인코더 계층에서 상기 입력 화합물 데이터를 입력받고 마지막 인코더 계층에서 최종 학습된 화합물 데이터를 출력하는 단계를 포함할 수 있다.
또한, 상기 화합물 특성 예측 계층에서 상기 평균 벡터에 기초하여 화합물의 물리-화학적 특성을 예측하는 단계는, 상기 평균 벡터를 입력값으로 하는 1×dzo 차원으로의 제 1 선형 변환 출력값을 ReLU 함수에 입력하여 제 1 출력 벡터를 획득하는 단계 - dzo은 상기 제 1 선형 변환의 설정된 차원 크기임 -; 상기 제 1 출력 벡터를 입력값으로 하는 1×dz1 차원으로의 제 2 선형 변환 출력값을 ReLU 함수에 입력하여 제 2 출력 벡터를 획득하는 단계 - dz1은 상기 제 2 선형 변환의 설정된 차원 크기임 -; 및 상기 제 2 출력 벡터를 입력값으로 하는 1×y 차원으로의 제 3 선형 변환을 통해 물리-화학적 특성 예측 벡터(Yμ)를 획득하는 단계 - y는 물리-화학적 특성의 개수임 - 를 포함할 수 있다.
또한, 상기 길이 예측 계층에서 상기 평균 벡터에 기초하여 화합물 시퀀스의 길이를 예측하는 단계는, 상기 평균 벡터를 입력값으로 하는 1×dl0 차원으로의 제 1 선형 변환을 통해 제 1 출력 벡터를 획득하는 단계 - dl0은 상기 제 1 선형 변환의 설정된 차원 크기임 -; 상기 제 1 출력 벡터를 입력값으로 하는 1×L 차원으로의 제 2 선형 변환을 통해 제 2 출력 벡터를 획득하는 단계 - L은 설정된 화합물 시퀀스의 최대 길이임 -; 및 상기 제 2 출력 벡터를 Softmax 함수에 입력하여 시퀀스 길이 예측 벡터(S)를 획득하는 단계를 포함할 수 있다.
또한, 상기 정보 확장 계층에서 상기 레이턴트 벡터를 상기 인코더-출력 화합물 데이터로 변환하는 단계는, 1×dlatent 차원의 상기 레이턴트 벡터를 Expand 함수를 통해 N×d_model 차원의 행렬로 변환시키는 단계 ― dlatent는 레이턴트 차원임 ―; 멀티헤드 셀프 어텐션 부계층을 통해 상기 변환된 행렬로 표현된 화합물 데이터를 학습시키는 단계; 및 상기 멀티헤드 셀프 어텐션 계층의 입력 화합물 데이터 및 출력 화합물 데이터를 잔차 연결 및 정규화하여 상기 인코더-출력 화합물 데이터를 생성하는 단계를 포함할 수 있다.
또한, 상기 디코더 계층에서 상기 인코더-출력 화합물 데이터를 이용하여 상기 입력 화합물 데이터를 학습시키는 단계는, 마스킹 행렬이 적용된 멀티헤드 셀프 어텐션 부계층을 통해 상기 디코더 계층에 입력된 상기 입력 화합물 데이터를 학습시키는 단계; 상기 마스킹 행렬이 적용된 멀티헤드 셀프 어텐션 부계층의 입력 화합물 데이터 및 출력 화합물 데이터를 잔차 연결 및 정규화시키는 단계; 멀티헤드 인코더-디코더 어텐션 부계층을 통해 상기 인코더-출력 화합물 데이터를 이용하여 상기 잔차 연결 및 정규화되어 입력된 화합물 데이터를 학습시키는 단계; 상기 멀티헤드 인코더-디코더 어텐션 부계층의 입력 화합물 데이터 및 출력 화합물 데이터를 잔차 연결 및 정규화시키는 단계; 피드 포워드 부계층을 통해 상기 잔차 연결 및 정규화되어 입력된 화합물 데이터를 학습시키는 단계; 및 상기 피드 포워드 부계층의 입력 화합물 데이터 및 출력 화합물 데이터를 잔차 연결 및 정규화시키는 단계를 포함할 수 있다.
또한, 상기 디코더 계층은 복수개의 연속된 디코더 계층들로 구성될 수 있다. 상기 디코더 계층에서 상기 입력 화합물 데이터를 학습시키는 단계는, 이전 디코더 계층에서 학습된 화합물 데이터를 다음 디코더 계층으로 입력하는 방식으로 첫번째 디코더 계층에서 상기 입력 화합물 데이터를 입력받고 마지막 디코더 계층에서 최종 학습된 화합물 데이터를 출력하는 단계를 포함할 수 있다. 각각의 디코더 계층의 멀티헤드 인코더-디코더 어텐션 부계층에는 상기 정보 확장 계층으로부터의 상기 인코더-출력 화합물 데이터가 입력될 수 있다.
또한, 상기 디코더 계층에서 학습된 화합물 데이터로부터 화합물 데이터를 재구성하는 단계는, N×d_model 차원의 상기 디코딩 계층에서 출력된 화합물 데이터를 입력값으로 하는 선형 변환을 통해 N×T 차원의 행렬을 획득하는 단계; 상기 획득된 행렬을 Softmax 함수에 입력하여 화합물 데이터 재구성 행렬을 획득하는 단계; 및 상기 재구성 행렬로부터 화합물 데이터를 재구성하는 단계를 포함할 수 있다.
또한, 상기 화합물 정보 추출 방법은, 재구성 손실, 길이 예측 손실, 물리-화학적 특성 예측 손실 및 KLD(Kullback-Leibler Divergence) 손실에 기초하여 상기 화합물 정보 추출 방법에 대한 손실함수를 계산하는 단계를 더 포함할 수 있다.
또한, 상기 화합물 정보 추출 방법은, 상기 재구성된 화합물 데이터, 상기 평균 벡터, 상기 예측된 화합물 물리-화학적 특성, 상기 예측된 화합물 시퀀스의 길이를 포함하는 추출된 화합물 정보를 출력 장치로 제공하는 단계를 더 포함할 수 있다.
본 개시 내용의 일 실시예에 따르면, 화합물 정보 추출을 위한 컴퓨팅 장치가 제시된다. 상기 컴퓨팅 장치는, 인코더 계층 및 디코딩 계층으로의 입력을 위해 설정된 차원으로 입력 화합물 데이터를 처리하도록 구성되는 데이터 처리부; 어텐션 방식으로 상기 입력 화합물 데이터를 학습시키도록 구성되는 인코더 계층부; 상기 학습된 화합물 데이터에 기초하여 레이턴트 차원을 가지는 평균 벡터 및 분산 벡터를 획득하도록 구성되는 정보 보틀넥 계층부; 재파라미터화를 통해 상기 평균 벡터 및 상기 분산 벡터에 따른 정규분포로부터 레이턴트 벡터를 추출하도록 구성되는 재파라미터화부; 상기 평균 벡터에 기초하여 화합물의 물리-화학적 특성을 예측하도록 구성되는 물리-화학적 특성 예측부; 상기 평균 벡터에 기초하여 화합물 시퀀스의 길이를 예측하도록 구성되는 시퀀스 길이 예측부; 상기 레이턴트 벡터를 상기 디코딩 계층으로의 입력을 위해 설정된 차원을 갖는 인코더-출력 화합물 데이터로 변환하도록 구성되는 정보 확장 계층부; 어텐션 방식으로 상기 인코더-출력 화합물 데이터를 이용하여 상기 입력 화합물 데이터를 학습시키도록 구성되는 디코더 계층부; 및 상기 디코더 계층에서 학습된 화합물 데이터로부터 화합물 데이터를 재구성하도록 구성되는 생성 계층부를 포함할 수 있다.
본 개시 내용의 일 실시예에 따르면, 화합물 정보 추출 방법을 실행하기 위한 컴퓨터-실행가능 명령들을 포함하는, 컴퓨터 판독가능 매체에 저장된 컴퓨터 프로그램이 제시된다.
본 개시 내용에 따르면, 여러가지 목적의 화합물 예측 모델들에서 공통적으로 사용될 수 있는 화합물 정보들을 추출할 수 있는 화합물 정보 추출 모델을 구현할 수 있다.
또한, 본 개시 내용에 따르면, 각 목적별 인코더 설계를 개별적으로 하지 않고 본 개시 내용의 화합물 정보 추출 모델을 통해 일관되고 보편적인 물리-화학적 특성을 추출하여 제공함으로써 신약 개발 등의 목적을 위한 인공지능 모델을 시간 및 비용을 절약하여 빠르게 구축할 수 있다.
또한, 본 개시 내용에 따르면, 본 개시 내용의 화합물 정보 추출 모델을 통해 만들어진 케미컬 스페이스의 임의의 포인트를 선택하여 디코더를 통해 새로운 화합물을 생성할 수 있기 때문에 다양한 구조의 화합물이 필요한 신약 개발에 유용하게 사용될 수 있다.
도 1은 본 개시 내용의 일 실시예에 따른 화합물 정보 추출을 위한 시스템을 나타내는 예시적인 도면이다.
도 2는 본 개시 내용의 일 실시예에 따른 컴퓨팅 장치를 나타내는 예시적인 블록도이다.
도 3은 본 개시 내용의 일 실시예에 따른 컴퓨팅 장치에 의해 수행되는 화합물 정보 추출 모델을 나타내는 예시적인 도면이다.
도 4는 본 개시 내용의 일 실시예에 따른 화합물 정보 추출 모델에 의해 추출된 화합물에 대한 케미컬 스페이스를 나타내는 예시적인 도면이다.
도 5는 본 개시 내용의 일 실시예에 따른 화학물 정보 추출 방법을 나타내는 예시적인 순서도이다.
이하, 본 발명의 바람직한 실시예들을 첨부된 도면들을 참조하여 상세히 설명한다. 우선 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.
본 발명의 다양한 양상들이 아래에서 설명된다. 여기에서 제시되는 발명들은 폭넓은 다양한 형태들로 구현될 수 있으며 여기에서 제시되는 임의의 특정한 구조, 기능 또는 이들 모두는 단지 예시적이라는 것을 이해하도록 한다. 여기에서 제시되는 발명들에 기반하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 여기에서 제시되는 하나의 양상이 임의의 다른 양상들과 독립적으로 구현될 수 있으며 둘 이상의 이러한 양상들이 다양한 방식들로 결합될 수 있다는 것을 이해할 것이다. 예를 들어, 여기에서 설명되는 임의의 수의 양상들을 이용하여 장치가 구현될 수 있거나 또는 방법이 실시될 수 있다. 또한, 여기에서 설명되는 하나 이상의 양상들에 더하여 또는 이들 양상들이 아닌 다른 구조, 기능 또는 구조 및 기능을 이용하여 이러한 장치가 구현될 수 있거나 또는 이러한 방법이 실시될 수 있다.
본 개시 내용은 딥러닝(Deep Learning)을 위한 트랜스포머(Transformer), VAE(Variational Auto Encoder) 등의 모델들에서 정의된 함수, 수식, 변수 등을 이용하여 설명될 수 있으며, 이에 한정되지 않고 CNN(Convolutional Neural Network), RNN(Recurrent Neural Network) 등과 같은 다른 인공신경망 개념도 본 개시 내용을 이해하는데 참조될 수 있다.
도 1은 본 개시 내용의 일 실시예에 따른 화합물 정보 추출을 위한 시스템을 나타내는 예시적인 도면이다.
도 1에 도시된 바와 같이, 이러한 시스템은 화합물 데이터베이스(DB)(100), 컴퓨팅 장치(200) 및 출력 장치(300)를 포함하여 구성될 수 있다. 컴퓨팅 장치(200)는 화합물 DB(100)로부터 제공되는 화합물 데이터에 기초하여 본 개시 내용에 따른 화합물 정보 추출 모델을 실행시키도록 구성될 수 있다. 출력 장치(300)는 컴퓨팅 장치(200)의 실행 결과를 출력하거나 또는 이용하도록 구성될 수 있다.
화합물 DB(100)는 컴퓨팅 장치(200)에서 데이터 세트를 구성할 수 있도록 소스 화합물 데이터들을 제공할 수 있다. 일 구현예에서, 이러한 소스 화합물 데이터들은 ZINC15, PubChem, ChEMBL 등과 같은 오픈 소스 데이터들일 수 있다. 이러한 소스 화합물 데이터는 컴퓨터 시스템에서 처리가능한 형태로 제공될 수 있으며, 예시적으로 SMILES(Simplified Molecular-Input Line-Entry System), InChl(International Chemical Identifier), MACCSKeys 등과 같은 형태의 화합물 데이터일 수 있다. 본 명세서에서는 설명의 편의를 위해, SMILES 형태의 화합물 데이터를 기준으로 본 개시 내용에 따른 화합물 정보 추출 모델을 설명할 것이다.
컴퓨팅 장치(200)는 화합물 DB(100)로부터 제공되는 화합물 데이터 소스로부터 본 개시 내용의 화합물 정보 추출 모델에서 사용될 데이터 세트를 결정할 수 있다. 예시적으로 컴퓨터 장치(200)는 다음과 같은 방식으로 하드웨어 처리가 가능할 정도로 샘플 데이터의 양을 감소시키고 모델의 훈련 과정시 데이터 불균형 문제가 발생하지 않도록 샘플링함으로써 모델에 적용될 데이터 세트를 결정할 수 있다.
예를 들어, ZINC15에는 약 11억개, PubChem에는 약 1억개, ChEMBL에는 약 200만개의 소스 화합물 데이터가 있으며, 컴퓨팅 장치(200)는 중복 데이터를 필터링하고 화합물을 소정 개수의 물리-화학적 특징별로 라벨링 및 정규화함으로써 약 5억개의 화합물들을 결정할 수 있다. 다음으로, 컴퓨팅 장치(200)는 이들 화합물들을 두가지 물리-화학적 특성(예를 들어, 용해도(LogP: Partition Coefficient), 분자량(MW: Molecular Weight))에 따라 각각 8개의 구간으로 나누어 총 64개의 그룹으로 분류할 수 있다. 각각의 그룹은 상이한 개수의 화합물 데이터를 가질 수 있으며, 이들 개수 중 가장 작은 수가 n인 경우에 모든 그룹에 대하여 최소 n개에서 최대 3n개의 화합물들을 샘플링할 수 있다. 그 결과 컴퓨팅 장치(200)는 약 5억개의 화합물 데이터로부터 1/100 정도인 약 500만개의 화합물 데이터를 샘플링하여 모델에서 학습시키기 위한 데이터 세트로 결정할 수 있다. 그러나, 본 개시 내용은 이러한 샘플링 방식에 한정되지 않으며, 모델에 적용하기에 적합한 데이터 세트를 구축하기 위해 변형된 또는 추가적인 샘플링 방식이 적용될 수 있다.
구현예에 따라, 출력 장치(300)는 컴퓨팅 장치(200)의 처리 결과를 디스플레이하기 위한 디스플레이 장치일 수 있거나, 컴퓨팅 장치(200)의 처리 결과를 저장 및 관리하기 위한 데이터베이스 장치일 수 있거나, 또는 컴퓨팅 장치(200)에서 추출된 화합물 정보를 이용하기 위한 다른 인공지능 기반의 화합물 예측 모델을 실행하기 위한 다른 컴퓨팅 장치일 수 있다.
도 2는 본 개시 내용의 일 실시예에 따른 컴퓨팅 장치를 나타내는 예시적인 블록도이다.
도 2에 도시된 바와 같이, 컴퓨팅 장치(200)는 프로세서(210), 저장 매체(220), 메모리(230), 네트워크 인터페이스(240)를 포함할 수 있으며, 이들은 시스템 버스(250)를 통해 서로 연결될 수 있다.
저장 매체(220)에는 운영 시스템(222) 및 컴퓨터 프로그램(224)이 탑재될 수 있다. 저장 매체(220)는 컴퓨터 프로그램 및 관련 데이터들을 저장할 수 있는 하드디스크, SSD(Solid State Drive) 등과 같은 데이터 저장 장치일 수 있다. 운영 시스템(222)은 컴퓨팅 장치(200)를 동작시키기 위한 Windows, IOS, Linux 등과 같은 운영체재 소프트웨어일 수 있다. 컴퓨터 프로그램(224)은 본 개시 내용의 화합물 정보 추출 모델을 실행시키기 위한 컴퓨터-실행가능 명령들을 포함할 수 있다. 컴퓨터 프로그램(224)의 컴퓨터-실행가능 명령들은 프로세서(210)에 의해 실행될 때, 프로세서(210)로 하여금 본 개시 내용의 화합물 정보 추출 방법을 수행하게 할 수 있다. 프로세서(210)는 전체 컴퓨팅 장치(200)의 실행을 지원하기 위한 컴퓨팅 및 제어 능력들을 제공하도록 구성될 수 있다. 프로세서(210)는 CPU(Central Processing Unit), MPU(Microprocessor Unit), AP(Application Processor) 등과 같은 데이터 처리 장치일 수 있으며, 하나의 프로세서 또는 복수개의 프로세서들로 구성될 수 있다. 복수개의 프로세서들로 구성되는 경우, 프로세서들(210)은 병렬 처리 프로세서들로서 동작할 수 있다. 네트워크 인터페이스(240)는 외부 장치(예를 들어, 화합물 DB(100), 출력 장치(300) 또는 네트워크를 통해 연결가능한 유무선 통신 디바이스 등)와 연결되어 데이터를 통신할 수 있는 인터페이스를 제공할 수 있다.
도 3은 본 개시 내용의 일 실시예에 따른 컴퓨팅 장치에 의해 수행되는 화합물 정보 추출 모델을 나타내는 예시적인 도면이다.
도 3에 도시된 바와 같이, 본 개시 내용에 따른 화합물 정보 추출 모델은 데이터 처리부(310), 인코더 계층부(320), 정보 보틀넥 계층(Information Bottleneck Layer)부(330), 재파라미터화(Reparameterization)부(340), 물리-화학적 특성 예측부(350), 시퀀스 길이 예측부(360), 정보 확장 계층(Information Expansion Layer)부(370), 디코더 계층부(380), 생성 계층부(390)를 포함할 수 있다. 또한, 도 3은 화합물 정보 추출 모델을 통한 데이터 처리 과정에 대한 이해를 돕기 위해 ① 내지 ⑩의 번호를 표시하였으나 이는 예시적인 것으로 본 개시 내용의 화합물 정보 추출 모델은 표시된 번호에 따른 실행 순서로 한정되지 않는다. 예를 들어, 본 개시 내용의 화합물 정보 추출 모델은 5번, 6번, 7a번, 7b번 및 8번의 순서로 실행될 수 있거나 또는 5번, 6번, 8번, 7b번, 7c번의 순서로 실행될 수 있거나 또는 이와 다른 순서로 실행될 수 있다.
본 개시 내용의 화합물 정보 추출 모델로 입력되는 화합물 데이터는 SMILES 형태의 시퀀스 데이터일 수 있으며, 인코더 계층부(320) 및 디코더 계층부(380)에는 동일한 SMILES 데이터가 입력되지만 디코딩 계층부(380)에는 스타트 토큰(start token)과 같은 추가 토큰이 부가되어 입력될 수 있다.
데이터 처리부(310)는 인코더 계층 및 디코딩 계층으로의 입력을 위해 설정된 차원으로 입력 화합물 데이터를 처리하도록 구성될 수 있다. 이를 위해, 데이터 처리부(310)는 입력 화합물 데이터를 화합물 시퀀스를 구성하는 최소단위의 형태소인 토큰으로 분리하는 토큰화(tokenization)를 수행할 수 있다. 예를 들어, SMILES 형식의 입력 화합물 데이터가 NC(=O)c1nc(F)c[NH]c1=O인 경우에 이러한 SMILES 시퀀스는 토큰들 N,C,(,=,O,),c,1,n,c,(,F,),c,[nH],c,1,=,O로 분리될 수 있다. 토큰화된 입력 화합물 데이터(Xsmiles)는 N×T 차원의 행렬로 표현될 수 있다(즉,
Figure PCTKR2022011269-appb-img-000001
). 여기서, N은 토큰화된 화합물의 토큰 개수이고, T는 토큰의 가지 수이다.
다음으로, 데이터 처리부(310)는 N×T 차원의 토큰화된 화합물 데이터(Xsmiles)를 선형 변환(linear transformation)(또는 선형 투영(Linear projection))을 통해 N×d_model 차원의 행렬로 임베딩하여 임베딩된 화합물 데이터(
Figure PCTKR2022011269-appb-img-000002
)를 생성할 수 있다. 이러한 과정은 다음의 수식을 통해 표현될 수 있다:
Figure PCTKR2022011269-appb-img-000003
여기서,
Figure PCTKR2022011269-appb-img-000004
,
Figure PCTKR2022011269-appb-img-000005
,
Figure PCTKR2022011269-appb-img-000006
,
Figure PCTKR2022011269-appb-img-000007
이며, d_model은 인코딩 계층 및 디코딩 계층의 설정된 차원이다.
Figure PCTKR2022011269-appb-img-000008
Figure PCTKR2022011269-appb-img-000009
는 훈련 과정에서 학습되는 훈련가능한 가중치(trainable weight)이다.
Figure PCTKR2022011269-appb-img-000010
Figure PCTKR2022011269-appb-img-000011
뿐만 아니라 후술할 내용에서 언급되는 다른 훈련가능한 가중치들은 모델 학습 결과에서 손실(loss)을 줄이는 방향으로 역 전파(Back Propagation) 알고리즘과 같은 방식을 통해 업데이트될 수 있다.
다음으로, 데이터 처리부(310)는 임베딩된 행렬(
Figure PCTKR2022011269-appb-img-000012
)에 포지셔널 인코딩 값(PE)을 더함으로써 인코딩 계층 및 디코딩 계층에 입력가능하도록 처리된 입력 화합물 데이터(
Figure PCTKR2022011269-appb-img-000013
,
Figure PCTKR2022011269-appb-img-000014
)를 생성할 수 있다. 포지셔널 인코딩 값(PE)은
Figure PCTKR2022011269-appb-img-000015
에 있는 각 토큰의 상대적 위치를 나타내는 값이다. 이러한 과정은 다음의 수식을 통해 표현될 수 있다:
Figure PCTKR2022011269-appb-img-000016
여기서, pos는 해당 토큰의 인덱스 위치를 표시한다.
인코더 계층부(320)는 입력 화합물 데이터(
Figure PCTKR2022011269-appb-img-000017
)를 어텐션 방식으로 학습시키도록 구성될 수 있다. 이를 위해, 인코더 계층부(320)는 멀티헤드 셀프 어텐션(Multi-Head Self Attention) 부계층부, 제 1 잔차 연결 및 정규화부(Add & Norm), 피드 포워드(Feed Forward) 부계층부 및 제 2 잔차 연결 및 정규화부를 포함할 수 있다.
멀티헤드 셀프 어텐션 부계층은 입력값 중 어떤 부분을 집중하여 학습하여야 하는지 모델 스스로 학습할 수 있도록 멀티헤드 셀프 어텐션 방식으로 입력된 화합물 데이터(
Figure PCTKR2022011269-appb-img-000018
)를 학습시키고, 제 1 잔차 연결 및 정규화부는 멀티헤드 셀프 어텐션 부계층의 입력 화합물 데이터(
Figure PCTKR2022011269-appb-img-000019
) 및 출력 화합물 데이터(
Figure PCTKR2022011269-appb-img-000020
)를 잔차 연결 및 정규화시킨 결과 데이터(
Figure PCTKR2022011269-appb-img-000021
)를 출력할 수 있다. 이러한 과정은 다음의 수식으로 표현될 수 있다.
Figure PCTKR2022011269-appb-img-000022
여기서, Q, K, V는 각각 어텐션의 Query, Key, Value를 의미하고,
Figure PCTKR2022011269-appb-img-000023
이고, h는 헤드들의 개수이다.
Figure PCTKR2022011269-appb-img-000024
,
Figure PCTKR2022011269-appb-img-000025
,
Figure PCTKR2022011269-appb-img-000026
,
Figure PCTKR2022011269-appb-img-000027
이고, WG, WQ, WK, 및 WV는 훈련가능한 가중치이며, 어텐션 헤드(headi)마다 다르게 설정될 수 있다.
수학식 3의 Concat은 어텐션 헤드들을 연결(concatenate)하는 함수이다. 예를 들어, 어텐션 헤드(headi)는 N×dh의 차원을 가질 수 있으며, h개의 헤드들을 연결한
Figure PCTKR2022011269-appb-img-000028
는 N×(dh×h)=N×d_model 차원을 가질 수 있다.
수학식 3의 Residual은 입력값 및 출력값을 더해주어 출력값과 입력값의 연결점을 만들어주고 정규화시키는 잔차 연결 및 정규화를 나타내는 함수이며, 다음의 수식으로 표현될 수 있다:
Figure PCTKR2022011269-appb-img-000029
여기서,
Figure PCTKR2022011269-appb-img-000030
Figure PCTKR2022011269-appb-img-000031
는 훈련가능한 파라미터이며, ε은 분모가 0이 되는 것을 방지하는 값이며 10-4과 같은 충분히 작은 값으로 설정될 수 있다.
피드 포워드 부계층부는 제 1 잔차 연결 및 정규화부로부터 입력되는 멀티-헤드 셀프 어텐션 학습된 화합물 데이터(
Figure PCTKR2022011269-appb-img-000032
, 아래에서는 설명의 편의를 위해
Figure PCTKR2022011269-appb-img-000033
로 표시함)를 추가적인 정보를 획득할 수 있도록 피드 포워드 신경망을 통해 학습시키고, 제 2 잔차 연결 및 정규화부는 피드 포워드 부계층의 입력 화합물 데이터(
Figure PCTKR2022011269-appb-img-000034
) 및 출력 화합물 데이터(
Figure PCTKR2022011269-appb-img-000035
)를 잔차 연결 및 정규화시킨 결과 데이터(
Figure PCTKR2022011269-appb-img-000036
)를 출력시킬 수 있다. 이러한 과정은 다음의 수식으로 표현될 수 있다.
Figure PCTKR2022011269-appb-img-000037
여기서,
Figure PCTKR2022011269-appb-img-000038
,
Figure PCTKR2022011269-appb-img-000039
이고,
Figure PCTKR2022011269-appb-img-000040
,
Figure PCTKR2022011269-appb-img-000041
,
Figure PCTKR2022011269-appb-img-000042
Figure PCTKR2022011269-appb-img-000043
는 훈련가능한 가중치이다.
Figure PCTKR2022011269-appb-img-000044
는 피드 포워드 신경망의 은닉층의 크기이다.
수학식 5의 ReLU 함수는 실수 입력값 a에 대하여 ReLU(a)=max(0, a)값을 출력하는 함수이다.
구현예에 따라, 인코더 계층부(320)는 인코더 계층의 학습 성능을 강화시키기 위해 복수개(예를 들어, 4개)의 연속된 인코더 계층들을 포함할 수 있다. 이러한 구현예에서, 인코더 계층부(320)는 이전 인코더 계층에서 학습된 화합물 데이터(
Figure PCTKR2022011269-appb-img-000045
)를 다음 인코더 계층으로 입력(
Figure PCTKR2022011269-appb-img-000046
)하는 방식으로 동작할 수 있으며, 이는 다음의 수학식으로 표현될 수 있다:
Figure PCTKR2022011269-appb-img-000047
이러한 경우에, 인코더 계층부(320)는 첫번째 인코더 계층에서 데이터 처리부(310)로부터 입력 화합물 데이터(
Figure PCTKR2022011269-appb-img-000048
)를 입력받고 마지막 인코더 계층에서 최종 학습된 화합물 데이터를 정보 보틀넥 계층부(330)로 출력할 수 있다.
정보 보틀넥 계층부(330)는 인코더 계층부(320)로부터 학습되어 입력되는 화합물 데이터(
Figure PCTKR2022011269-appb-img-000049
, 아래에서의 설명의 편의를 위해
Figure PCTKR2022011269-appb-img-000050
로 표시함)에 기초하여 레이턴트 차원을 가지는 평균 벡터(μ) 및 분산 벡터(σ)를 획득하도록 구성될 수 있다. 정보 보틀넥 계층부(330)는 N×d_model 차원을 갖는 인코딩 계층부(320)의 출력 데이터(
Figure PCTKR2022011269-appb-img-000051
)로부터 1×dlatent 차원을 갖는 평균 벡터(μ) 및 분산 벡터(σ)를 획득할 수 있으며, dlatent는 레이턴트 차원을 나타낸다. 이러한 과정은 다음의 수식을 통해 표현될 수 있다:
Figure PCTKR2022011269-appb-img-000052
여기서,
Figure PCTKR2022011269-appb-img-000053
이다. 즉, 입력된 화합물 데이터(
Figure PCTKR2022011269-appb-img-000054
)는 1×d_model 차원을 가지는 N개의 벡터로 분리되어 Avg 함수로 입력될 수 있다.
Figure PCTKR2022011269-appb-img-000055
,
Figure PCTKR2022011269-appb-img-000056
이고,
Figure PCTKR2022011269-appb-img-000057
Figure PCTKR2022011269-appb-img-000058
는 훈련가능한 가중치이다. 전술한 바와 같이, 획득된 평균 벡터(μ) 및 분산 벡터(σ)는
Figure PCTKR2022011269-appb-img-000059
,
Figure PCTKR2022011269-appb-img-000060
인 차원을 갖는다.
재파라미터화부(340)는 재파라미터화를 통해 평균 벡터(μ) 및 분산 벡터(σ)에 따른 정규분포(N(μ,σ))로부터 1×dlatent 차원의 레이턴트 벡터(z)를 추출하도록 구성될 수 있다. 예시적으로, 재파라미터화부(340)는 재파라미터화 방식을 통해 평균이 0이고 표준편차가 1인 정규분포를 갖는 ε값을 N(μ,σ)에 더해줌으로써 레이턴트 벡터(z)를 샘플링할 수 있다. 이는 다음의 수학식으로 표현될 수 있다.
Figure PCTKR2022011269-appb-img-000061
이러한 레이턴트 벡터(z)는 N×d_model 차원인 고차원의 화합물 데이터에 대한 의미있는 정보가 담긴 저차원(1×dlatent)의 히든 차원 공간인 레이턴스 스페이스(latent space)를 표현할 수 있다.
물리-화학적 특성 예측부(350)는 추출된 평균 벡터(μ)에 기초하여 화합물의 물리-화학적 특성을 예측하도록 구성될 수 있다. 예를 들어, 화합물의 물리-화학적 특성은 용해도(LogP: Partition Coefficient), 분자량(MW: Molecular Weight), 결합 친화도(Binding Affinity), 독성(Toxicity) 등을 포함할 수 있다. 물리-화학적 특성 예측부(350)는 레이턴트 벡터(z)가 화합물의 물리-화학적 특성을 내포할 수 있도록 물리-화학적 특성 예측 벡터(Yμ)를 획득할 수 있으며, 이는 다음의 수학식으로 표현될 수 있다:
Figure PCTKR2022011269-appb-img-000062
여기서,
Figure PCTKR2022011269-appb-img-000063
,
Figure PCTKR2022011269-appb-img-000064
,
Figure PCTKR2022011269-appb-img-000065
이고,
Figure PCTKR2022011269-appb-img-000066
,
Figure PCTKR2022011269-appb-img-000067
,
Figure PCTKR2022011269-appb-img-000068
,
Figure PCTKR2022011269-appb-img-000069
,
Figure PCTKR2022011269-appb-img-000070
Figure PCTKR2022011269-appb-img-000071
는 훈련가능한 가중치이다. 물리-화학적 특성 예측 벡터(Yμ)는
Figure PCTKR2022011269-appb-img-000072
의 차원을 가질 수 있으며, y는 물리-화학적 특성의 개수이다.
수학식 9에 표현된 바와 같이, 물리-화학적 특성 예측부(350)는 평균 벡터(μ)를 입력값으로 하는 1×dzo 차원으로의 제 1 선형 변환 출력값을 ReLU 함수에 입력하여 제 1 출력 벡터(
Figure PCTKR2022011269-appb-img-000073
)를 획득할 수 있으며, dzo은 제 1 선형 변환의 설정된 차원 크기이다. 물리-화학적 특성 예측부(350)는 제 1 출력 벡터를 입력값으로 하는 1×dz1 차원으로의 제 2 선형 변환 출력값을 ReLU 함수에 입력하여 제 2 출력 벡터(
Figure PCTKR2022011269-appb-img-000074
)를 획득할 수 있으며, dz1은 제 2 선형 변환의 설정된 차원 크기이다. 물리-화학적 특성 예측부(350)는 제 2 출력 벡터를 입력값으로 하는 1×y 차원으로의 제 3 선형 변환을 통해 물리-화학적 특성 예측 벡터(
Figure PCTKR2022011269-appb-img-000075
)를 획득할 수 있다.
시퀀스 길이 예측부(360)는 추출된 평균 벡터(μ)에 기초하여 화합물 시퀀스의 길이(즉, 예측될 화합물의 SMILES 시퀀스의 길이(N))를 예측하도록 구성될 수 있다. 예측된 화합물 시퀀스의 길이는 시퀀스 길이 예측 벡터(S)로서 획득될 수 있다. 이러한 과정은 다음의 수학식으로 표현될 수 있다:
Figure PCTKR2022011269-appb-img-000076
여기서,
Figure PCTKR2022011269-appb-img-000077
,
Figure PCTKR2022011269-appb-img-000078
이고,
Figure PCTKR2022011269-appb-img-000079
,
Figure PCTKR2022011269-appb-img-000080
,
Figure PCTKR2022011269-appb-img-000081
Figure PCTKR2022011269-appb-img-000082
는 훈련가능한 가중치이다. 시퀀스 길이 예측 벡터(S)는
Figure PCTKR2022011269-appb-img-000083
의 차원을 가질 수 있으며, L은 설정된 화합물 시퀀스의 최대 길이이다.
수학식 10에 표현된 바와 같이, 시퀀스 길이 예측부(360)는 평균 벡터(μ)를 입력값으로 하는 1×dl0 차원으로의 제 1 선형 변환을 통해 제 1 출력 벡터(
Figure PCTKR2022011269-appb-img-000084
)를 획득할 수 있으며, dl0은 제 1 선형 변환의 설정된 차원 크기이다. 시퀀스 길이 예측부(360)는 제 1 출력 벡터를 입력값으로 하는 1×L 차원으로의 제 2 선형 변환을 통해 제 2 출력 벡터(
Figure PCTKR2022011269-appb-img-000085
)를 획득하고, 제 2 출력 벡터를 Softmax 함수에 입력하여 시퀀스 길이 예측 벡터(
Figure PCTKR2022011269-appb-img-000086
)를 획득할 수 있다.
정보 확장 계층부(370)는 레이턴트 벡터(z)에 내재된 정보가 디코딩 계층에서의 학습에 이용될 수 있도록 레이턴트 벡터(z)를 디코딩 계층으로의 입력을 위해 설정된 차원을 갖는 인코더-출력 화합물 데이터(
Figure PCTKR2022011269-appb-img-000087
)로 변환하도록 구성될 수 있다. 이를 위해, 정보 확장 계층부(370)는 확장부, 멀티헤드 셀프 어텐션 부계층부 및 잔차 연결 및 정규화부를 포함할 수 있다. 이러한 과정은 다음의 수학식으로 표현될 수 있다:
Figure PCTKR2022011269-appb-img-000088
여기서,
Figure PCTKR2022011269-appb-img-000089
,
Figure PCTKR2022011269-appb-img-000090
이고,
Figure PCTKR2022011269-appb-img-000091
Figure PCTKR2022011269-appb-img-000092
은 훈련가능한 가중치이다.
수학식 11에 표현된 바와 같이, 확장부는 1×dlatent 차원의 레이턴트 벡터(z)를 Expand 함수를 통해 N×d_model 차원의 행렬(Z)로 변환시킬 수 있다. Expand 함수는 레이턴트 벡터(z) N개를 Concat 함수에 의해 연결시킴으로써 N×dlatent 차원의 행렬을 생성하고 이를
Figure PCTKR2022011269-appb-img-000093
와 내적시킴으로써
Figure PCTKR2022011269-appb-img-000094
차원의 행렬(Z)를 생성할 수 있다. 멀티헤드 셀프 어텐션 부계층부는 멀티헤드 셀프 어텐션 방식으로 입력된 화합물 데이터(Z)를 학습시키고, 잔차 연결 및 정규화부는 멀티헤드 셀프 어텐션 부계층의 입력 화합물 데이터(Z) 및 출력 화합물 데이터(
Figure PCTKR2022011269-appb-img-000095
)를 잔차 연결 및 정규화시킨 인코더-출력 화합물 데이터(
Figure PCTKR2022011269-appb-img-000096
)를 생성할 수 있다.
디코더 계층부(380)는 어텐션 방식으로 인코더-출력 화합물 데이터(
Figure PCTKR2022011269-appb-img-000097
)를 이용하여 입력 화합물 데이터(
Figure PCTKR2022011269-appb-img-000098
)를 학습시키도록 구성될 수 있다. 이를 위해, 디코더 계층부(380)는 마스킹 멀티헤드 셀프 어텐션(Masked Multi-Head Self Attention) 부계층부, 제 1 잔차 연결 및 정규화부, 멀티헤드 인코더-디코더 어텐션(Multi-Head Encoder-Decoder Attention) 부계층부, 제 2 잔차 연결 및 정규화부, 피드 포워드 부계층부 및 제 3 잔차 연결 및 정규화부를 포함할 수 있다.
마스킹 멀티헤드 셀프 어텐션 부계층부는 마스킹 행렬(M)이 적용된 멀티헤드 셀프 어텐션 방식으로 입력된 화합물 데이터(
Figure PCTKR2022011269-appb-img-000099
)를 학습시키고, 제 1 잔차 연결 및 정규화부는 마스킹 멀티헤드 셀프 어텐션 부계층의 입력 화합물 데이터(
Figure PCTKR2022011269-appb-img-000100
) 및 출력 화합물 데이터(
Figure PCTKR2022011269-appb-img-000101
)를 잔차 연결 및 정규화시킨 결과 데이터(
Figure PCTKR2022011269-appb-img-000102
)를 출력할 수 있다. 여기서, 마스킹 행렬(M)은 N×N 차원의 주 대각선 항을 포함한 아래 항들이 모두 1값을 가지고 나머지 항들은 0값을 가지는 하삼각행렬일 수 있다. 마스킹 행렬(M)을 적용함으로써, 마스킹 멀티헤드 셀프 어텐션 부계층부는 화합물의 n번째 토큰을 예측할 때 인코더 측에서 받은 정보(
Figure PCTKR2022011269-appb-img-000103
)와 이미 예측된 0번째부터 n-1번째까지의 토큰의 정보를 이용하게 되며, 이를 통해 현재 시점(즉, n번째)의 예측에서 현재 시점보다 미래에 있는 토큰 정보(즉, n+1번째, n+2번째....)를 참고하지 못하도록 학습을 수행할 수 있다. 이러한 과정은 다음의 수식으로 표현될 수 있다.
Figure PCTKR2022011269-appb-img-000104
여기서, Q, K, V는 각각 어텐션의 Query, Key, Value를 의미하고, M은 마스킹 행렬이고,
Figure PCTKR2022011269-appb-img-000105
이고, h는 헤드들의 개수이다.
Figure PCTKR2022011269-appb-img-000106
,
Figure PCTKR2022011269-appb-img-000107
,
Figure PCTKR2022011269-appb-img-000108
,
Figure PCTKR2022011269-appb-img-000109
이고, WG, WQ, WK, 및 WV는 훈련가능한 가중치이며, 어텐션 헤드(headi)마다 다르게 설정될 수 있다.
멀티헤드 인코더-디코더 부계층부는 멀티헤드 인코더-디코더 어텐션 방식으로 인코더-출력 화합물 데이터(
Figure PCTKR2022011269-appb-img-000110
)를 이용하여 제 1 잔차 연결 및 정규화부로부터 입력되는 마스킹 멀티-헤드 셀프 어텐션 학습된 화합물 데이터(
Figure PCTKR2022011269-appb-img-000111
, 아래에서는 설명의 편의를 위해
Figure PCTKR2022011269-appb-img-000112
로 표시함)를 학습시키고, 제 2 잔차 연결 및 정규화부는 멀티헤드 인코더-디코더 부계층부의 입력 화합물 데이터(
Figure PCTKR2022011269-appb-img-000113
) 및 출력 화합물 데이터(
Figure PCTKR2022011269-appb-img-000114
)를 잔차 연결 및 정규화시킨 결과 데이터(
Figure PCTKR2022011269-appb-img-000115
)를 출력할 수 있다. 이러한 경우에, 어텐션 학습을 위해 Q는 디코더 측에서 학습된 입력 화합물 데이터(
Figure PCTKR2022011269-appb-img-000116
)에 기초하여 결정될 수 있으며, K 및 V는 인코더-출력 화합물 데이터(
Figure PCTKR2022011269-appb-img-000117
)에 기초하여 결정될 수 있다. 이러한 과정은 다음의 수식으로 표현될 수 있다:
Figure PCTKR2022011269-appb-img-000118
여기서, Q, K, V는 각각 어텐션의 Query, Key, Value를 의미하고,
Figure PCTKR2022011269-appb-img-000119
이고, h는 헤드들의 개수이다.
Figure PCTKR2022011269-appb-img-000120
,
Figure PCTKR2022011269-appb-img-000121
,
Figure PCTKR2022011269-appb-img-000122
,
Figure PCTKR2022011269-appb-img-000123
이고, WG, WQ, WK, 및 WV는 훈련가능한 가중치이며, 어텐션 헤드(headi)마다 다르게 설정될 수 있다.
피드 포워드 부계층부는 제 2 잔차 연결 및 정규화부로부터 입력되는 멀티-헤드 인코더-디코더 어텐션 학습된 화합물 데이터(
Figure PCTKR2022011269-appb-img-000124
, 아래에서는 설명의 편의를 위해
Figure PCTKR2022011269-appb-img-000125
로 표시함)를 추가적인 정보를 획득할 수 있도록 피드 포워드 신경망을 통해 학습시키고, 제 3 잔차 연결 및 정규화부는 피드 포워드 부계층의 입력 화합물 데이터(
Figure PCTKR2022011269-appb-img-000126
) 및 출력 화합물 데이터(
Figure PCTKR2022011269-appb-img-000127
)를 잔차 연결 및 정규화시킨 결과 데이터(
Figure PCTKR2022011269-appb-img-000128
)를 출력시킬 수 있다. 이러한 과정은 다음의 수식으로 표현될 수 있다.
Figure PCTKR2022011269-appb-img-000129
여기서,
Figure PCTKR2022011269-appb-img-000130
,
Figure PCTKR2022011269-appb-img-000131
이고,
Figure PCTKR2022011269-appb-img-000132
,
Figure PCTKR2022011269-appb-img-000133
,
Figure PCTKR2022011269-appb-img-000134
Figure PCTKR2022011269-appb-img-000135
는 훈련가능한 가중치이다.
Figure PCTKR2022011269-appb-img-000136
는 피드 포워드 신경망의 은닉층의 크기이다.
구현예에 따라, 디코더 계층부(380)는 디코더 계층의 학습 성능을 강화시키기 위해 복수개(예를 들어, 3개)의 연속된 디코더 계층들을 포함할 수 있다. 이러한 구현예에서, 디코더 계층부(380)는 이전 디코더 계층에서 학습된 화합물 데이터를 다음 디코더 계층으로 입력하는 방식으로 동작할 수 있으며, 첫번째 디코더 계층에서 입력 화합물 데이터(
Figure PCTKR2022011269-appb-img-000137
)를 입력받고 마지막 디코더 계층에서 최종 학습된 화합물 데이터를 생성 계층부(390)로 출력할 수 있다. 또한, 각각의 디코더 계층의 멀티헤드 인코더-디코더 어텐션 부계층에는 정보 확장 계층(370)으로부터의 인코더-출력 화합물 데이터(
Figure PCTKR2022011269-appb-img-000138
)가 입력될 수 있다.
생성 계층부(390)는 디코더 계층(380)에서 학습된 화합물 데이터(
Figure PCTKR2022011269-appb-img-000139
, 아래에서의 설명의 편의를 위해
Figure PCTKR2022011269-appb-img-000140
로 표시함)로부터 화합물 데이터를 재구성하도록 구성될 수 있다. 이러한 과정은 다음의 수학식으로 표현될 수 있다:
Figure PCTKR2022011269-appb-img-000141
여기서,
Figure PCTKR2022011269-appb-img-000142
,
Figure PCTKR2022011269-appb-img-000143
이고,
Figure PCTKR2022011269-appb-img-000144
Figure PCTKR2022011269-appb-img-000145
는 훈련가능한 가중치이다.
수학식 15에 표현된 바와 같이, 생성 계층부(390)는 N×d_model 차원의 디코딩 계층(380)에서 출력된 화합물 데이터(
Figure PCTKR2022011269-appb-img-000146
)를 입력값으로 하는 선형 변환을 통해 N×T 차원의 행렬을 획득하고, 획득된 행렬을 Softmax 함수에 입력하여 화합물 데이터 재구성 행렬(
Figure PCTKR2022011269-appb-img-000147
)을 획득할 수 있다. 생성 계층부(390)는 화합물 데이터 재구성 행렬로부터 화합물 데이터를 재구성할 수 있다. 예를 들어, 생성 계층부(390)는 화합물 데이터 재구성 행렬(
Figure PCTKR2022011269-appb-img-000148
)로부터 N×T 차원의 토큰화된 SMILES 데이터를 확률적으로 예측할 수 있으며, 예측된 토큰화된 SMILES 데이터를 토큰화-해제(de-tokenization)함으로써 SMILES 형식의 화합물 데이터를 재구성할 수 있다.
일 구현예에서, 컴퓨팅 장치(200)는 도 3과 관련하여 설명된 본 개시 내용의 화합물 정보 추출 모델을 통해 산출된 정보를 특정 목적의 인공지능 모델에서 이용할 수 있도록 출력 장치(300)로 전달하도록 구성되는 추출 정보 제공부(미도시)를 포함할 수 있다. 이러한 산출된 정보는 디코더 계층을 거쳐 재구성된 화합물 데이터(예를 들어, 재구성된 화합물 SMILES), 획득된 특성 벡터(μ), 예측된 화합물 물리-화학적 특성(Yμ), 재구성된 화합물 시퀀스의 길이(S)(예를 들어, 재구성된 화합물 SMILES의 길이)를 포함할 수 있다.
일 구현예에서, 컴퓨팅 장치(200)는 본 개시 내용의 화합물 정보 추출 모델의 성능을 검증하기 위해 아래의 수학식과 같은 손실함수(Loss)를 정의하도록 구성되는 성능 평가부(미도시)를 포함할 수 있다.
Figure PCTKR2022011269-appb-img-000149
수학식 16의 재구성 손실(ReconLoss)은 크로스-엔트로피 손실 함수를 사용하여 아래의 수학식과 같이 표현될 수 있다.
Figure PCTKR2022011269-appb-img-000150
p는 N×T 차원의 행렬로 실제 출력 값(True label)의 토큰의 인덱스에서는 1, 나머지 인덱스에서는 0을 가진다. 예를 들어, 토큰의 인덱스가 0부터 T-1까지이고, 9번째 실제 출력값이 토큰 "[nH]"이고 해당 토큰의 인덱스가 3인 경우에, p9는 [0,0,0,1,0,....,0]이 될 수 있다.
Figure PCTKR2022011269-appb-img-000151
는 생성 계층부(390)를 통해 출력된 재구성 예측값이고 0에서 1 사이의 값을 가질 수 있다. N은 토큰화된 화합물의 토큰 개수(즉, 화합물 시퀀스의 길이)이고, T는 토큰의 가지 수이다.
수학식 16의 시퀀스 길이 예측 손실(LengthPredictionLoss)은 크로스-엔트로피 손실 함수를 사용하여 아래의 수학식과 같이 표현될 수 있다.
Figure PCTKR2022011269-appb-img-000152
l은 1×L 차원의 벡터로 실제 출력 값(True label)의 길이에 해당하는 인덱스에서는 1, 나머지 인덱스에서는 0을 가진다. 예를 들어, 실제 출력값의 길이가 35인 경우에 l35=1이고 li(i≠35)=0이 될 수 있다.
Figure PCTKR2022011269-appb-img-000153
는 시퀀스 길이 예측부(360)를 통해 출력된 예측값이고 0에서 1 사이의 값을 가질 수 있다. L은 설정된 화합물 시퀀스의 최대 길이이다.
수학식 16의 물리-화학적 특성 예측 손실(PropertyPredictionLoss)은 다음의 수학식과 같이 평균제곱오차(MSE)로 표현될 수 있다.
Figure PCTKR2022011269-appb-img-000154
여기서, y개의 물리-화학적 특성에 대하여 실제값(
Figure PCTKR2022011269-appb-img-000155
)과 물리-화학적 특성 예측부(350)에서 출력된 예측값(
Figure PCTKR2022011269-appb-img-000156
) 사이의 평균제곱오차가 계산될 수 있다.
수학식 16의 KLD(Kullback-Leibler Divergence) 손실(KLDLoss)은 아래의 수학식과 같이 표현될 수 있다.
Figure PCTKR2022011269-appb-img-000157
여기서, μ 및 σ는 정보 보틀넥 계층부(330)에서 획득된 평균 벡터(μ) 및 분산 벡터(σ)이다. KLD 손실은 본 개시 내용의 화합물 정보 추출 모델의 규칙화(regularization) 역할을 수행할 수 있으며, 본 모델이 예측한 화합물의 특성 벡터(즉, 평균 벡터) μ가 발산하지 않고 정돈된 크기를 가지게 할 수 있다. 이는 본 모델이 추출한 화합물의 특성이 가우시안 분포를 따르게 함으로써 정돈된 분포를 가지게 할 수 있다.
컴퓨팅 장치(200)는 수학식 16에 따라 정의된 손실함수를 계산하고 계산된 손실이 작을수록 화합물 정보 추출 모델의 성능이 좋은 것으로 판단할 수 있다. 또한, 컴퓨팅 장치(200)는 손실을 감소시키는 방향으로(즉, 모델 성능을 향상시키는 방향으로) 역 전파 알고리즘과 같은 업데이트 방식을 통해 모델에 적용되는 훈련가능한 가중치들을 조정할 수 있다.
일 구현예에서, 컴퓨팅 장치(200)의 성능 평가부는 재구성 정확도, 물리-화학적 특성 예측 정확도 및 추출된 특성 벡터 μ의 분포를 통해 화합물 정보 추출 모델의 정보 추출 성능을 평가할 수 있다.
본 개시 내용의 화합물 정보 추출 모델에 대하여 독립된 검증 데이터를 이용하여 재구성 정확도를 평가시 재구성 손실이 4.32*10-4 이라는 충분히 작은 값을 보여주었다. 본 개시 내용의 화합물 정보 추출 모델에 대하여 독립된 검증 데이터를 이용하여 물리-화학적 특성 예측 정확도를 평가시 물리-화학적 특성 예측 손실인 평균제곱오차가 2.12*10-3 이라는 충분히 작은 값을 보여주었다.
도 4는 본 개시 내용의 일 실시예에 따른 화합물 정보 추출 모델에 의해 추출된 화합물에 대한 케미컬 스페이스(Chemical Space)를 나타내는 예시적인 도면이다.
케미컬 스페이스는 tSNE(t-Stochastic Neighbor Embedding)와 같은 비선형 차원축소기법을 이용하여 본 모델에서 추출된 특성 벡터(μ)의 분포를 보여줄 수 있다. 도 4의 케미컬 스페이스는 본 모델에서 추출된 특성 벡터(μ)를 tSNE 차원 축소를 통해 각각 X축 및 Y축으로 표현되는 2개의 주성분(principle component)으로 투사하여 획득된 것이다. 차원 축소된 특성 벡터(μ)가 케미컬 스페이스에서 원형에 가깝게 균일하게 분포되어 있을수록 양호한 케미컬 스페이스를 구축했다고 평가할 수 있으며, 도 4의 케미컬 스페이스는 원형에 가까운 양호한 분포를 보여주었다.
이를 통해, 본 개시 내용의 화합물 정보 추출 모델은 평가 결과 충분히 양호한 재구성 정확도, 물리-화학적 예측 정확도 및 케미컬 스페이스 분포를 보여주었으며, 이를 통해 충분히 양호한 화합물 정보 추출 성능을 가짐을 검증하였다.
도 5는 본 개시 내용의 일 실시예에 따른 화학물 정보 추출 방법을 나타내는 예시적인 순서도이다.
도 5에 도시된 바와 같이, 컴퓨팅 장치(200)는 인코더 계층 및 디코딩 계층에 입력가능한 형태로 입력 화합물 데이터를 처리할 수 있다(510). 컴퓨팅 장치(200)는 인코더 계층에서 어텐션 방식으로 입력 화합물 데이터를 학습시킬 수 있다(520). 컴퓨팅 장치(200)는 정보 보틀넥 계층에서 레이턴트 차원을 갖는 평균 벡터 및 분산 벡터를 획득할 수 있다(530). 컴퓨팅 장치(200)는 재파라미터화를 통해 평균 벡터 및 분산 벡터로부터 레이턴트 벡터를 추출할 수 있다(540). 컴퓨팅 장치(200)는 획득된 평균 벡터에 기초하여 화합물의 물리-화학적 특성을 예측할 수 있다(550). 컴퓨팅 장치(200)는 획득된 평균 벡터에 기초하여 화합물 시퀀스의 길이를 예측할 수 있다(560). 컴퓨팅 장치(200)는 정보 확장 계층에서 레이턴트 벡터를 디코딩 계층으로 입력되는 인코더-출력 화합물 데이터로 변환할 수 있다(570). 컴퓨팅 장치(200)는 디코더 계층에서 어텐션 방식으로 인코더-출력 화합물 데이터를 이용하여 입력 화합물 데이터를 학습시킬 수 있다(580). 컴퓨팅 장치(200)는 디코딩 계층에서 학습된 화합물 데이터로부터 화합물 데이터를 재구성할 수 있다(590).
임의의 제시된 프로세스들에 있는 단계들의 임의의 특정한 순서 또는 계층 구조는 예시적인 접근들의 일례임을 이해하도록 한다. 설계 우선순위들에 기반하여, 본 발명의 범위 내에서 프로세스들에 있는 단계들의 특정한 순서 또는 계층 구조가 재배열될 수 있다는 것을 이해하도록 한다. 첨부된 방법 청구항들은 예시적인 순서로 다양한 단계들의 엘리먼트들을 제공하지만 제시된 특정한 순서 또는 계층 구조에 한정되는 것을 의미하지는 않는다.
본 명세서 사용되는 용어 "컴포넌트", "유닛(또는 부)", "모듈", "시스템" 등은 컴퓨터-관련 엔티티, 하드웨어, 펌웨어, 소프트웨어, 소프트웨어 및 하드웨어의 조합, 또는 소프트웨어의 실행을 지칭할 수 있다. 예를 들어, 컴포넌트는 프로세서상에서 실행되는 처리과정, 프로세서, 객체, 실행 스레드, 프로그램, 및/또는 컴퓨터일 수 있지만, 이들로 제한되는 것은 아니다. 예를 들어, 컴퓨팅 장치에서 실행되는 애플리케이션 및 컴퓨팅 장치 모두 컴포넌트일 수 있다. 하나 이상의 컴포넌트는 프로세서 및/또는 실행 스레드 내에 상주할 수 있고, 일 컴포넌트는 하나의 컴퓨터 내에 로컬화될 수 있고, 또는 2개 이상의 컴퓨터들 사이에 분배될 수 있다. 또한, 이러한 컴포넌트들은 그 내부에 저장된 다양한 데이터 구조들을 갖는 다양한 컴퓨터 판독가능한 매체로부터 실행할 수 있다.
제시된 실시예들에 대한 설명은 임의의 본 발명의 기술 분야에서 통상의 지식을 가진 자가 본 발명을 이용하거나 또는 실시할 수 있도록 제공된다. 이러한 실시예들에 대한 다양한 변형들은 본 발명의 기술 분야에서 통상의 지식을 가진 자에게 명백할 것이며, 여기에 정의된 일반적인 원리들은 본 발명의 범위를 벗어남이 없이 다른 실시예들에 적용될 수 있다. 그리하여, 본 발명은 여기에 제시된 실시예들로 한정되는 것이 아니라, 여기에 제시된 원리들 및 신규한 특징들과 일관되는 최광의의 범위에서 해석되어야 할 것이다.
(부호의 설명)
100: 화합물 DB
200: 컴퓨팅 장치
210: 프로세서
220: 저장 매체
222: 운영 시스템
224: 컴퓨터 프로그램
230: 메모리
240: 네트워크 인터페이스
250: 시스템 버스
300: 출력 장치
310: 데이터 처리부
320: 인코더 계층부
330: 정보 보틀넥 계층부
340: 재파라미터화부
350: 물리-화학적 특성 예측부
360: 시퀀스 길이 예측부
370: 정보 확장 계층부
380: 디코더 계층부
390: 생성 계층부

Claims (23)

  1. 컴퓨팅 장치에 의해 수행가능한 화합물 정보 추출 방법으로서,
    인코더 계층 및 디코더 계층으로의 입력을 위해 설정된 차원으로 입력 화합물 데이터를 처리하는 단계;
    상기 인코더 계층에서 어텐션(Attention) 방식으로 상기 입력 화합물 데이터를 학습시키는 단계;
    정보 보틀넥 계층에서 상기 학습된 화합물 데이터에 기초하여 레이턴트(latent) 차원을 가지는 평균 벡터 및 분산 벡터를 획득하는 단계;
    재파라미터화(Reparameterization)를 통해 상기 평균 벡터 및 상기 분산 벡터에 따른 정규분포로부터 레이턴트 벡터를 추출하는 단계;
    화합물 특성 예측 계층에서 상기 평균 벡터에 기초하여 화합물의 물리-화학적 특성을 예측하는 단계;
    길이 예측 계층에서 상기 평균 벡터에 기초하여 화합물 시퀀스의 길이를 예측하는 단계;
    정보 확장 계층에서 상기 레이턴트 벡터를 상기 디코딩 계층으로의 입력을 위해 설정된 차원을 갖는 인코더-출력 화합물 데이터로 변환하는 단계;
    상기 디코더 계층에서 어텐션 방식으로 상기 인코더-출력 화합물 데이터를 이용하여 상기 입력 화합물 데이터를 학습시키는 단계; 및
    생성 계층에서 상기 디코더 계층에서 학습된 화합물 데이터로부터 화합물 데이터를 재구성하는 단계를 포함하며,
    상기 정보 확장 계층에서 상기 레이턴트 벡터를 상기 인코더-출력 화합물 데이터로 변환하는 단계는,
    1×dlatent 차원의 상기 레이턴트 벡터를 Expand 함수를 통해 N×d_model 차원의 행렬로 변환시키는 단계 ― dlatent는 레이턴트 차원이고, N은 화합물의 토큰 개수이고, d_model은 상기 인코더 계층 및 디코더 계층의 설정된 차원임 ―;
    멀티헤드 셀프 어텐션 부계층을 통해 상기 변환된 행렬로 표현된 화합물 데이터를 학습시키는 단계; 및
    상기 멀티헤드 셀프 어텐션 계층의 입력 화합물 데이터 및 출력 화합물 데이터를 잔차 연결 및 정규화하여 상기 인코더-출력 화합물 데이터를 생성하는 단계를 포함하는,
    화합물 정보 추출 방법.
  2. 제 1 항에 있어서,
    상기 입력 화합물 데이터를 처리하는 단계는,
    상기 입력 화합물 데이터를 화합물 시퀀스를 구성하는 최소단위로 토큰화(tokenization)하는 단계;
    N×T 차원의 토큰화된 화합물 데이터를 N×d_model 차원의 행렬로 임베딩하는 단계 - N은 화합물의 토큰 개수이고, T는 토큰의 가지 수이고, d_model은 상기 인코딩 계층 및 디코딩 계층의 설정된 차원임 -;
    임베딩된 행렬에 포지셔널 인코딩 값을 더하는 단계를 포함하는,
    화합물 정보 추출 방법.
  3. 제 1 항에 있어서,
    상기 인코더 계층에서 상기 입력 화합물 데이터를 학습시키는 단계는,
    멀티헤드 셀프 어텐션(Multi-Head Self Attention) 부계층을 통해 상기 인코더 계층에 입력된 화합물 데이터를 학습시키는 단계;
    상기 멀티헤드 셀프 어텐션 부계층의 입력 화합물 데이터 및 출력 화합물 데이터를 잔차 연결 및 정규화시키는 단계;
    상기 잔차 연결 및 정규화된 화합물 데이터를 입력받아 피드 포워드(Feed Forward) 부계층을 통해 학습시키는 단계; 및
    상기 피드 포워드 부계층의 입력 화합물 데이터 및 출력 화합물 데이터를 잔차 연결 및 정규화시키는 단계를 포함하는,
    화합물 정보 추출 방법.
  4. 제 1 항에 있어서,
    상기 인코더 계층은 복수개의 연속된 인코더 계층들로 구성되며,
    상기 인코더 계층에서 상기 입력 화합물 데이터를 학습시키는 단계는,
    이전 인코더 계층에서 학습된 화합물 데이터를 다음 인코더 계층으로 입력하는 방식으로 첫번째 인코더 계층에서 상기 입력 화합물 데이터를 입력받고 마지막 인코더 계층에서 최종 학습된 화합물 데이터를 출력하는 단계를 포함하는,
    화합물 정보 추출 방법.
  5. 제 1 항에 있어서,
    상기 화합물 특성 예측 계층에서 상기 평균 벡터에 기초하여 화합물의 물리-화학적 특성을 예측하는 단계는,
    상기 평균 벡터를 입력값으로 하는 1×dzo 차원으로의 제 1 선형 변환 출력값을 ReLU 함수에 입력하여 제 1 출력 벡터를 획득하는 단계 - dzo은 상기 제 1 선형 변환의 설정된 차원 크기임 -;
    상기 제 1 출력 벡터를 입력값으로 하는 1×dz1 차원으로의 제 2 선형 변환 출력값을 ReLU 함수에 입력하여 제 2 출력 벡터를 획득하는 단계 - dz1은 상기 제 2 선형 변환의 설정된 차원 크기임 -; 및
    상기 제 2 출력 벡터를 입력값으로 하는 1×y 차원으로의 제 3 선형 변환을 통해 물리-화학적 특성 예측 벡터(Yμ)를 획득하는 단계 - y는 물리-화학적 특성의 개수임 - 를 포함하는,
    화합물 정보 추출 방법.
  6. 제 1 항에 있어서,
    상기 길이 예측 계층에서 상기 평균 벡터에 기초하여 화합물 시퀀스의 길이를 예측하는 단계는,
    상기 평균 벡터를 입력값으로 하는 1×dl0 차원으로의 제 1 선형 변환을 통해 제 1 출력 벡터를 획득하는 단계 - dl0은 상기 제 1 선형 변환의 설정된 차원 크기임 -;
    상기 제 1 출력 벡터를 입력값으로 하는 1×L 차원으로의 제 2 선형 변환을 통해 제 2 출력 벡터를 획득하는 단계 - L은 설정된 화합물 시퀀스의 최대 길이임 -; 및
    상기 제 2 출력 벡터를 Softmax 함수에 입력하여 시퀀스 길이 예측 벡터(S)를 획득하는 단계를 포함하는,
    화합물 정보 추출 방법.
  7. 제 1 항에 있어서,
    상기 디코더 계층에서 상기 인코더-출력 화합물 데이터를 이용하여 상기 입력 화합물 데이터를 학습시키는 단계는,
    마스킹 행렬이 적용된 멀티헤드 셀프 어텐션 부계층을 통해 상기 디코더 계층에 입력된 상기 입력 화합물 데이터를 학습시키는 단계;
    상기 마스킹 행렬이 적용된 멀티헤드 셀프 어텐션 부계층의 입력 화합물 데이터 및 출력 화합물 데이터를 잔차 연결 및 정규화시키는 단계;
    멀티헤드 인코더-디코더 어텐션 부계층을 통해 상기 인코더-출력 화합물 데이터를 이용하여 상기 잔차 연결 및 정규화되어 입력된 화합물 데이터를 학습시키는 단계;
    상기 멀티헤드 인코더-디코더 어텐션 부계층의 입력 화합물 데이터 및 출력 화합물 데이터를 잔차 연결 및 정규화시키는 단계;
    피드 포워드 부계층을 통해 상기 잔차 연결 및 정규화되어 입력된 화합물 데이터를 학습시키는 단계; 및
    상기 피드 포워드 부계층의 입력 화합물 데이터 및 출력 화합물 데이터를 잔차 연결 및 정규화시키는 단계를 포함하는,
    화합물 정보 추출 방법.
  8. 제 1 항에 있어서,
    상기 디코더 계층은 복수개의 연속된 디코더 계층들로 구성되며,
    상기 디코더 계층에서 상기 입력 화합물 데이터를 학습시키는 단계는,
    이전 디코더 계층에서 학습된 화합물 데이터를 다음 디코더 계층으로 입력하는 방식으로 첫번째 디코더 계층에서 상기 입력 화합물 데이터를 입력받고 마지막 디코더 계층에서 최종 학습된 화합물 데이터를 출력하는 단계를 포함하며,
    각각의 디코더 계층의 멀티헤드 인코더-디코더 어텐션 부계층에는 상기 정보 확장 계층으로부터의 상기 인코더-출력 화합물 데이터가 입력되는,
    화합물 정보 추출 방법.
  9. 제 1 항에 있어서,
    상기 디코더 계층에서 학습된 화합물 데이터로부터 화합물 데이터를 재구성하는 단계는,
    N×d_model 차원의 상기 디코딩 계층에서 출력된 화합물 데이터를 입력값으로 하는 선형 변환을 통해 N×T 차원의 행렬을 획득하는 단계;
    상기 획득된 행렬을 Softmax 함수에 입력하여 화합물 데이터 재구성 행렬을 획득하는 단계; 및
    상기 재구성 행렬로부터 화합물 데이터를 재구성하는 단계를 포함하는,
    화합물 정보 추출 방법.
  10. 제 1 항에 있어서,
    재구성 손실, 길이 예측 손실, 물리-화학적 특성 예측 손실 및 KLD(Kullback-Leibler Divergence) 손실에 기초하여 상기 화합물 정보 추출 방법에 대한 손실함수를 계산하는 단계를 더 포함하는,
    화합물 정보 추출 방법.
  11. 제 1 항에 있어서,
    상기 재구성된 화합물 데이터, 상기 평균 벡터, 상기 예측된 화합물 물리-화학적 특성, 상기 예측된 화합물 시퀀스의 길이를 포함하는 추출된 화합물 정보를 출력 장치로 제공하는 단계를 더 포함하는,
    화합물 정보 추출 방법.
  12. 화합물 정보 추출을 위한 컴퓨팅 장치로서,
    인코더 계층 및 디코딩 계층으로의 입력을 위해 설정된 차원으로 입력 화합물 데이터를 처리하도록 구성되는 데이터 처리부;
    어텐션 방식으로 상기 입력 화합물 데이터를 학습시키도록 구성되는 인코더 계층부;
    상기 학습된 화합물 데이터에 기초하여 레이턴트 차원을 가지는 평균 벡터 및 분산 벡터를 획득하도록 구성되는 정보 보틀넥 계층부;
    재파라미터화를 통해 상기 평균 벡터 및 상기 분산 벡터에 따른 정규분포로부터 레이턴트 벡터를 추출하도록 구성되는 재파라미터화부;
    상기 평균 벡터에 기초하여 화합물의 물리-화학적 특성을 예측하도록 구성되는 물리-화학적 특성 예측부;
    상기 평균 벡터에 기초하여 화합물 시퀀스의 길이를 예측하도록 구성되는 시퀀스 길이 예측부;
    상기 레이턴트 벡터를 상기 디코딩 계층으로의 입력을 위해 설정된 차원을 갖는 인코더-출력 화합물 데이터로 변환하도록 구성되는 정보 확장 계층부;
    어텐션 방식으로 상기 인코더-출력 화합물 데이터를 이용하여 상기 입력 화합물 데이터를 학습시키도록 구성되는 디코더 계층부; 및
    상기 디코더 계층에서 학습된 화합물 데이터로부터 화합물 데이터를 재구성하도록 구성되는 생성 계층부를 포함하며,
    상기 정보 확장 계층부는,
    1×dlatent 차원의 상기 레이턴트 벡터를 Expand 함수를 통해 N×d_model 차원의 행렬로 변환시키도록 구성되는 확장부 ― dlatent는 레이턴트 차원이고, N은 화합물의 토큰 개수이고, d_model은 상기 인코더 계층 및 디코더 계층의 설정된 차원임 ―;
    상기 변환된 행렬로 표현된 화합물 데이터를 멀티헤드 셀프 어텐션 방식으로 학습시키도록 구성되는 멀티헤드 셀프 어텐션 부계층부; 및
    상기 멀티헤드 셀프 어텐션 부계층의 입력 화합물 데이터 및 출력 화합물 데이터를 잔차 연결 및 정규화하여 상기 인코더-출력 화합물 데이터를 생성하도록 구성되는 잔차 연결 및 정규화부를 포함하는,
    화합물 정보 추출을 위한 컴퓨팅 장치.
  13. 제 12 항에 있어서,
    상기 데이터 처리부는,
    상기 입력 화합물 데이터를 화합물 시퀀스를 구성하는 최소단위로 토큰화하고, N×T 차원의 토큰화된 화합물 데이터를 N×d_model 차원의 행렬로 임베딩하고 - N은 화합물의 토큰 개수이고, T는 토큰의 가지 수이고, d_model은 상기 인코딩 계층 및 디코딩 계층의 설정된 차원임 -, 임베딩된 행렬에 포지셔널 인코딩 값을 더함으로써 상기 인코더 계층 및 상기 디코더 계층에 입력되도록 처리된 입력 화합물 데이터를 생성하도록 구성되는,
    화합물 정보 추출을 위한 컴퓨팅 장치.
  14. 제 12 항에 있어서,
    상기 인코더 계층부는,
    상기 인코더 계층에 입력된 화합물 데이터를 멀티헤드 셀프 어텐션 방식으로 학습시키도록 구성되는 멀티헤드 셀프 어텐션 부계층부;
    상기 멀티헤드 셀프 어텐션 부계층의 입력 화합물 데이터 및 출력 화합물 데이터를 잔차 연결 및 정규화시키도록 구성되는 제 1 잔차 연결 및 정규화부;
    상기 제 1 잔차 연결 및 정규화부로부터 입력된 화합물 데이터를 피드 포워드 방식으로 학습시키도록 구성되는 피드 포워드 부계층부; 및
    상기 피드 포워드 부계층의 입력 화합물 데이터 및 출력 화합물 데이터를 잔차 연결 및 정규화시키도록 구성되는 제 2 잔차 연결 및 정규화부를 포함하는,
    화합물 정보 추출을 위한 컴퓨팅 장치.
  15. 제 12 항에 있어서,
    상기 인코더 계층부는 복수개의 연속된 인코더 계층들을 포함하며,
    이전 인코더 계층에서 학습된 화합물 데이터를 다음 인코더 계층으로 입력하는 방식으로 상기 인코더 계층부는 첫번째 인코더 계층에서 상기 입력 화합물 데이터를 입력받고 마지막 인코더 계층에서 최종 학습된 화합물 데이터를 출력하는,
    화합물 정보 추출을 위한 컴퓨팅 장치.
  16. 제 12 항에 있어서,
    상기 물리-화학적 특성 예측부는,
    상기 평균 벡터를 입력값으로 하는 1×dzo 차원으로의 제 1 선형 변환 출력값을 ReLU 함수에 입력하여 제 1 출력 벡터를 획득하고, 상기 제 1 출력 벡터를 입력값으로 하는 1×dz1 차원으로의 제 2 선형 변환 출력값을 ReLU 함수에 입력하여 제 2 출력 벡터를 획득하고, 상기 제 2 출력 벡터를 입력값으로 하는 1×y 차원으로의 제 3 선형 변환을 통해 물리-화학적 특성 예측 벡터(Yμ)를 획득하도록 구성되며,
    dzo은 상기 제 1 선형 변환의 설정된 차원 크기이고, dz1은 상기 제 2 선형 변환의 설정된 차원 크기이고, y는 물리-화학적 특성의 개수인,
    화합물 정보 추출을 위한 컴퓨팅 장치.
  17. 제 12 항에 있어서,
    상기 시퀀스 길이 예측부는,
    상기 평균 벡터를 입력값으로 하는 1×dl0 차원으로의 제 1 선형 변환을 통해 제 1 출력 벡터를 획득하고, 상기 제 1 출력 벡터를 입력값으로 하는 1×L 차원으로의 제 2 선형 변환을 통해 제 2 출력 벡터를 획득하고, 상기 제 2 출력 벡터를 Softmax 함수에 입력하여 시퀀스 길이 예측 벡터(S)를 획득하도록 구성되며,
    dl0은 상기 제 1 선형 변환의 설정된 차원 크기이고, L은 설정된 화합물 시퀀스의 최대 길이인,
    화합물 정보 추출을 위한 컴퓨팅 장치.
  18. 제 12 항에 있어서,
    상기 디코더 계층부는,
    마스킹 행렬이 적용된 멀티헤드 셀프 어텐션 방식으로 상기 디코더 계층에 입력된 상기 입력 화합물 데이터를 학습시키도록 구성되는 마스킹 멀티헤드 셀프 어텐션 부계층부;
    상기 마스킹 멀티헤드 셀프 어텐션 부계층의 입력 화합물 데이터 및 출력 화합물 데이터를 잔차 연결 및 정규화시키도록 구성되는 제 1 잔차 연결 및 정규화부;
    멀티헤드 인코더-디코더 어텐션 방식으로 상기 인코더-출력 화합물 데이터를 이용하여 상기 제 1 잔차 연결 및 정규화부로부터 입력된 화합물 데이터를 학습시키도록 구성되는 멀티헤드 인코더-디코더 어텐션 부계층부;
    상기 멀티헤드 인코더-디코더 어텐션 부계층의 입력 화합물 데이터 및 출력 화합물 데이터를 잔차 연결 및 정규화시키도록 구성되는 제 2 잔차 연결 및 정규화부;
    상기 제 2 잔차 연결 및 정규화부로부터 입력된 화합물 데이터를 피드 포워드 방식으로 학습시키도록 구성되는 피드 포워드 부계층부; 및
    상기 피드 포워드 부계층의 입력 화합물 데이터 및 출력 화합물 데이터를 잔차 연결 및 정규화시키도록 구성되는 제 3 잔차 연결 및 정규화부를 포함하는,
    화합물 정보 추출을 위한 컴퓨팅 장치.
  19. 제 12 항에 있어서,
    상기 디코더 계층부는 복수개의 연속된 디코더 계층들을 포함하며,
    이전 디코더 계층에서 학습된 화합물 데이터를 다음 디코더 계층으로 입력하는 방식으로 상기 디코더 계층부는 첫번째 디코더 계층에서 상기 입력 화합물 데이터를 입력받고 마지막 디코더 계층에서 최종 학습된 화합물 데이터를 출력하며,
    각각의 디코더 계층의 멀티헤드 인코더-디코더 어텐션 부계층에는 상기 정보 확장 계층으로부터의 상기 인코더-출력 화합물 데이터가 입력되는,
    화합물 정보 추출을 위한 컴퓨팅 장치.
  20. 제 12 항에 있어서,
    상기 생성 계층부는,
    N×d_model 차원의 상기 디코딩 계층에서 출력된 화합물 데이터를 입력값으로 하는 선형 변환을 통해 N×T 차원의 행렬을 획득하고, 상기 획득된 행렬을 Softmax 함수에 입력하여 화합물 데이터 재구성 행렬을 획득하고, 상기 재구성 행렬로부터 화합물 데이터를 재구성하도록 구성되는,
    화합물 정보 추출을 위한 컴퓨팅 장치.
  21. 제 12 항에 있어서,
    재구성 손실, 길이 예측 손실, 물리-화학적 특성 예측 손실 및 KLD 손실에 기초하여 상기 컴퓨팅 장치에 의한 화합물 정보 추출 모델에 대한 손실함수를 계산하도록 구성되는 성능 평가부를 더 포함하는,
    화합물 정보 추출을 위한 컴퓨팅 장치.
  22. 제 12 항에 있어서,
    상기 재구성된 화합물 데이터, 상기 평균 벡터, 상기 예측된 화합물 물리-화학적 특성, 상기 예측된 화합물 시퀀스의 길이를 포함하는 추출된 화합물 정보를 출력 장치로 제공하도록 구성되는 추출 정보 제공부를 더 포함하는,
    화합물 정보 추출을 위한 컴퓨팅 장치.
  23. 제1항 내지 제11항 중 어느 한 항에 따른 방법을 실행하기 위한 컴퓨터-실행가능 명령들을 포함하는, 컴퓨터 판독가능 매체에 저장된 컴퓨터 프로그램.
PCT/KR2022/011269 2021-08-06 2022-08-01 화합물 정보 추출을 위한 장치 및 방법 WO2023014007A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2021-0104113 2021-08-06
KR1020210104113A KR20230022005A (ko) 2021-08-06 2021-08-06 화합물 정보 추출을 위한 장치 및 방법

Publications (1)

Publication Number Publication Date
WO2023014007A1 true WO2023014007A1 (ko) 2023-02-09

Family

ID=85154549

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2022/011269 WO2023014007A1 (ko) 2021-08-06 2022-08-01 화합물 정보 추출을 위한 장치 및 방법

Country Status (2)

Country Link
KR (1) KR20230022005A (ko)
WO (1) WO2023014007A1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116625688A (zh) * 2023-05-24 2023-08-22 石家庄铁道大学 基于多层降噪和自编码器的滚动轴承健康监测方法
CN116920739A (zh) * 2023-03-02 2023-10-24 福建省龙德新能源有限公司 用于六氟磷酸锂制备的液体循环雾化合成控制***及方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190089980A (ko) * 2017-05-23 2019-07-31 구글 엘엘씨 어텐션-기반의 시퀀스 변환 신경망

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190089980A (ko) * 2017-05-23 2019-07-31 구글 엘엘씨 어텐션-기반의 시퀀스 변환 신경망

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
DOLLAR ORION, JOSHI NISARG, BECK DAVID A. C., PFAENDTNER JIM: "Attention-based generative models for de novo molecular design", CHEMICAL SCIENCE, ROYAL SOCIETY OF CHEMISTRY, UNITED KINGDOM, vol. 12, no. 24, 28 June 2021 (2021-06-28), United Kingdom , pages 8362 - 8372, XP093031436, ISSN: 2041-6520, DOI: 10.1039/D1SC01050F *
HYUNSEUNG KIM; JONGGEOL NA; WON BO LEE: "Generative chemical transformer: attention makes neural machine learn molecular geometric structures via text", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 27 February 2021 (2021-02-27), 201 Olin Library Cornell University Ithaca, NY 14853 , XP081893618 *
PRZEMYS{\L}AW SPUREK; TOMASZ DANEL; JACEK TABOR; MAREK \'SMIEJA; {\L}UKASZ STRUSKI; AGNIESZKA S{\L}OWIK; {\L}UKASZ MAZIARKA: "Geometric Graph Convolutional Neural Networks", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 11 September 2019 (2019-09-11), 201 Olin Library Cornell University Ithaca, NY 14853 , XP081481900 *
ZHANG XIAO-CHEN, WU CHENG-KUN, YANG ZHI-JIANG, WU ZHEN-XING, YI JIA-CAI, HSIEH CHANG-YU, HOU TING-JUN, CAO DONG-SHENG: "MG-BERT: leveraging unsupervised atomic representation learning for molecular property prediction", BRIEFINGS IN BIOINFORMATICS, OXFORD UNIVERSITY PRESS, OXFORD., GB, vol. 22, no. 6, 5 November 2021 (2021-11-05), GB , pages bbab152 - bbab152-14, XP009543083, ISSN: 1467-5463, DOI: 10.1093/bib/bbab152 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116920739A (zh) * 2023-03-02 2023-10-24 福建省龙德新能源有限公司 用于六氟磷酸锂制备的液体循环雾化合成控制***及方法
CN116625688A (zh) * 2023-05-24 2023-08-22 石家庄铁道大学 基于多层降噪和自编码器的滚动轴承健康监测方法

Also Published As

Publication number Publication date
KR20230022005A (ko) 2023-02-14

Similar Documents

Publication Publication Date Title
WO2023014007A1 (ko) 화합물 정보 추출을 위한 장치 및 방법
WO2020022704A1 (en) Method for training and testing obfuscation network capable of processing data to be concealed for privacy, and training device and testing device using the same
WO2017209548A1 (ko) 인공 신경망 기반 예측 모델 생성 장치 및 방법
WO2020209591A1 (en) Novelty detection using deep learning neural network
WO2022086146A1 (en) Method for training and testing obfuscation network capable of obfuscating data for privacy, and training device and testing device using the same
WO2015115681A1 (ko) 표정 동작사전을 이용한 표정인식 방법 및 장치
WO2021261720A1 (en) Method for training obfuscation network which conceals original data to be used for machine learning and training surrogate network which uses obfuscated data generated by obfuscation network and method for testing trained obfuscation network and learning device and testing device using the same
WO2022086145A1 (en) Method for training and testing obfuscation network capable of processing data to be obfuscated for privacy, and training device and testing device using the same
WO2022124701A1 (en) Method for producing labeled image from original image while preventing private information leakage of original image and server using the same
WO2021261719A1 (en) Method for training obfuscation network which conceals original data to be used for machine learning and training surrogate network which uses obfuscated data generated by obfuscation network and learning device using the same and method for testing trained obfuscation network and testing device using the same
WO2022086147A1 (en) Method for training and testing user learning network to be used for recognizing obfuscated data created by obfuscating original data to protect personal information and user learning device and testing device using the same
WO2022004971A1 (ko) 영상 생성을 위한 학습 장치 및 방법
WO2022146050A1 (ko) 우울증 진단을 위한 인공지능 연합학습 방법 및 시스템
WO2022255529A1 (ko) 머신 러닝 기반의 립싱크 영상 생성을 위한 학습 방법 및 이를 수행하기 위한 립싱크 영상 생성 장치
WO2021215620A1 (ko) 시맨틱 온톨로지를 이용한 도메인특화 이미지캡션 자동 생성 장치 및 방법
WO2023128083A1 (ko) 그레디언트 독립적인 업데이트를 추가하여 그레디언트-기반 학습의 한계점을 보완하는 신경망의 양자화 인식 학습 방법
WO2020242090A1 (en) Apparatus for deep representation learning and method thereof
WO2022124725A1 (ko) 화합물과 단백질의 상호작용 예측 방법, 장치 및 컴퓨터 프로그램
WO2022039316A1 (ko) 치과용 3차원 데이터 위치 정렬 자동화 방법 및 이를 컴퓨터에서 실행시키기 위한 프로그램이 기록된 컴퓨터로 읽을 수 있는 기록 매체
WO2020071618A1 (ko) 엔트로피 기반 신경망 부분학습 방법 및 시스템
WO2023153606A1 (ko) 컴퓨터 단층촬영 영상을 활용한 3차원 구강 스캔 데이터 복원 장치 및 방법
WO2023033281A1 (ko) 약물 및 타겟 물질 간의 친화도를 예측하는 방법
WO2020204610A1 (ko) 딥러닝 기반 컬러링 방법, 시스템 및 프로그램
WO2023149767A1 (en) Modeling attention to improve classification and provide inherent explainability
WO2023090627A1 (ko) 화합물 최적화를 위한 장치 및 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22853385

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE