KR20220083620A - Method and appartus for screening RNA aptamer using Monte Carlo tree search approach - Google Patents

Method and appartus for screening RNA aptamer using Monte Carlo tree search approach Download PDF

Info

Publication number
KR20220083620A
KR20220083620A KR1020210176118A KR20210176118A KR20220083620A KR 20220083620 A KR20220083620 A KR 20220083620A KR 1020210176118 A KR1020210176118 A KR 1020210176118A KR 20210176118 A KR20210176118 A KR 20210176118A KR 20220083620 A KR20220083620 A KR 20220083620A
Authority
KR
South Korea
Prior art keywords
sequence
aptamer
rna aptamer
rna
protein
Prior art date
Application number
KR1020210176118A
Other languages
Korean (ko)
Inventor
강호영
장근혁
송길태
이광호
Original Assignee
주식회사 뉴클릭스바이오
부산대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 뉴클릭스바이오, 부산대학교 산학협력단 filed Critical 주식회사 뉴클릭스바이오
Publication of KR20220083620A publication Critical patent/KR20220083620A/en

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B35/00ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
    • G16B35/10Design of libraries
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics

Abstract

몬테카를로 트리 탐색을 사용한 표적 단백질 분자와 결합하는 후보 RNA 압타머 서열을 스크리닝 하는 방법 및 장치에 관한 것이다. 일 양상에 따른 방법 및 장치에 따르면, 데이터를 이용하여 기계 학습 알고리즘으로서 RNA 압타머의 서열을 예측하는 학습모델의 정확도를 향상시킴으로써, 표적 단백질의 아미노산 서열만으로도 이와 결합하는 RNA 압타머 서열의 도출이 신속하고 효율적으로 가능하다. A method and apparatus for screening a candidate RNA aptamer sequence that binds to a target protein molecule using Monte Carlo tree search. According to the method and apparatus according to an aspect, by improving the accuracy of the learning model for predicting the sequence of the RNA aptamer as a machine learning algorithm using data, the derivation of the RNA aptamer sequence that binds with only the amino acid sequence of the target protein is It can be done quickly and efficiently.

Description

몬테카를로 트리 탐색을 사용하여 RNA 압타머 서열을 스크리닝하는 방법 및 장치{Method and appartus for screening RNA aptamer using Monte Carlo tree search approach}Method and apparatus for screening RNA aptamer sequence using Monte Carlo tree search

몬테카를로 트리 탐색을 사용한 표적 단백질 분자와 결합하는 후보 RNA 압타머 서열을 스크리닝 하는 방법 및 장치에 관한 것이다.A method and apparatus for screening a candidate RNA aptamer sequence that binds to a target protein molecule using Monte Carlo tree search.

압타머(Aptamer)는 상대적으로 짧고, 단일 가닥의 올리고뉴클레오타이드(Oligonucleotide) 또는 펩타이드(Peptide) 조각들로 구성되는 3차원 분자구조이다. 이들은 크기가 작고, 조직 및 세포 침투력, 낮은 독성 및 면역 원성 그리고 화학적 변형 내성 등의 다양한 특성을 내포하고 있다. 일반적으로 성분 비용과 실험단계의 복잡성으로 인해 펩타이드 기반 압타머보다 올리고뉴클레오타이드 기반 압타머가 더 선호되며, 표적 특이성으로 인해 종양의 선택적 진단 또는 치료가 가능한 장점도 있다.An aptamer is a relatively short, three-dimensional molecular structure composed of single-stranded oligonucleotide or peptide fragments. They have various characteristics such as small size, tissue and cell penetrability, low toxicity and immunogenicity, and resistance to chemical modification. In general, oligonucleotide-based aptamers are preferred over peptide-based aptamers due to component cost and complexity of experimental steps, and due to target specificity, selective diagnosis or treatment of tumors is possible.

다양한 치료용 응용 목적을 위해 압타머들은 systematic evolution of ligands by exponential enrichment (SELEX) 실험 내 거대한 무작위 서열 조합 라이브러리들로부터 생산된다. SELEX의 압타머 생산과정은 배양(incubation), 결합(binding), 세척(washing), 표적 결합 용출(target-bound elution) 및 증폭(amplification)의 반복 과정 으로 구성된다. 일반적으로 한 번의 반복 과정을 라운드(round)라고 하며, 약 15에서 16라운드를 거쳐 최종 압타머가 선정된다. 한 번의 라운드에 수일에서 수주가 요구되므로, 전체 실험과정은 최대 수개월까지 소요된다.For a variety of therapeutic applications, aptamers are produced from large libraries of random sequence combinations in systematic evolution of ligands by exponential enrichment (SELEX) experiments. The aptamer production process of SELEX consists of repeated processes of incubation, binding, washing, target-bound elution, and amplification. In general, one repetition process is called a round, and the final aptamer is selected through about 15 to 16 rounds. Since one round requires days to weeks, the entire experimental process can take up to several months.

최근에는 압타머-단백질 상호작용(Aptamer-Protein Interaction; API) 서열 쌍을 분석하기 위해 몇몇 머신러닝 기반 방법들이 제안되었다. 대부분의 연구가 압타머와 단백질의 서열 패턴 정보와 추가적인 정보로 구성되는 pseudo-amino acid composition, pseudo K-tuple nucleotide composition, 이산 코사인 변환 그리고 PSI-BLAST로 얻어 지는 bi-gram position-specific scoring matrix (PSSM) 등을 사용하여 주어진 서열 쌍이 상호작용(interaction) 또는 비-상호작용(non-interaction) 관계인지 구별하는 이진 분류모델을 구성하는 것에 집중되어있다. Recently, several machine learning-based methods have been proposed to analyze aptamer-protein interaction (API) sequence pairs. Most of the research is a bi-gram position-specific scoring matrix (PSI-BLAST) obtained by pseudo-amino acid composition, pseudo K-tuple nucleotide composition, discrete cosine transformation, and PSI-BLAST consisting of sequence pattern information and additional information of aptamers and proteins. PSSM), etc., are focused on constructing a binary classification model that distinguishes whether a given sequence pair has an interaction or a non-interaction relationship.

비특허문헌 1 및 2과 같은 선행 연구들은 앞서 언급한 특징값들을 사용해 API 분류모델을 제안하였다. 하지만 API 분류모델만으로 최적의 압타머 서열을 제안하려면 추가적인 작업이 요구된다. 특히 이러한 API 분류모델은 임의 표적 단백질과 압타머 사이의 결합 친화도 예측값을 제공할 수 있어 결합 특이도까지 고려할 수 있으나 잠재적 후보 압타머 서열을 제공하는 것이 불가능하다는 단점이 있다.Previous studies such as Non-Patent Documents 1 and 2 proposed an API classification model using the aforementioned feature values. However, additional work is required to suggest the optimal aptamer sequence using only the API classification model. In particular, this API classification model can provide a predicted value of binding affinity between an arbitrary target protein and an aptamer, so binding specificity can also be considered, but it has a disadvantage in that it is impossible to provide a potential candidate aptamer sequence.

비특허문헌 3은 압타머의 구조와 길이 제약을 통해 무작위로 생성된 압타머 서열을 API 분류기에 넣어 잠재적 RNA 압타머 서열을 선별하는 방식을 개시하고 있으나, 생성된 서열은 고정된 길이인 27bp로 제한되며, 사전에 지정되어 2차 구조가 제한된다는 점 등의 제약사항들이 존재했다. Non-Patent Document 3 discloses a method of selecting a potential RNA aptamer sequence by inserting a randomly generated aptamer sequence into an API classifier through restrictions on the structure and length of the aptamer, but the generated sequence is a fixed length of 27bp. There were restrictions such as the fact that the secondary structure is limited by being specified in advance.

따라서, 선행연구들은 다양한 후보 압타머 서열 생성이 어려운 한계점이 있었으므로, 이러한 문제점을 해결한 임의 표적 단백질에 대하여 서열 길이나 구조적 제약 없는 압타머 서열 스크리닝 할 수 있는 방법에 대한 필요성이 대두되고 있다.Therefore, since previous studies had a limitation in which it was difficult to generate various candidate aptamer sequences, the need for a method capable of screening aptamer sequences without sequence length or structural restrictions for any target protein that has solved these problems is emerging.

PLoS One, 9(1), e86729, 2014 (Li et al., 2014) PLoS One, 9(1), e86729, 2014 (Li et al., 2014) BMC Bioinformatics volume 17, Article number: 225 (2016) (Zhang et al., 2016) BMC Bioinformatics volume 17, Article number: 225 (2016) (Zhang et al., 2016) IEEE/ACM Transactions on Computational Biology and Bioinformatics, Sept.-Oct. 2020, pp. 1476-1482, vol. 17 (Lee and Han, 2019) IEEE/ACM Transactions on Computational Biology and Bioinformatics, Sept.-Oct. 2020, pp. 1476-1482, vol. 17 (Lee and Han, 2019)

일 양상은 표적 단백질 분자와 결합하는 후보 RNA 압타머 서열을 스크리닝하는 방법을 제공한다.One aspect provides a method of screening for a candidate RNA aptamer sequence that binds to a target protein molecule.

다른 양상은 상기 방법을 실행시키기 위한 프로그램이 기록되어 있는 컴퓨터에서 판독 가능한 기록 매체를 제공한다.Another aspect provides a computer-readable recording medium in which a program for executing the method is recorded.

또 다른 양상은 표적 단백질 분자와 결합하는 후보 RNA 압타머 서열 스크리닝 장치를 제공한다.Another aspect provides a device for screening a candidate RNA aptamer sequence that binds to a target protein molecule.

본 출원의 다른 목적 및 이점은 첨부한 청구범위와 함께 하기의 상세한 설명에 의해 보다 명확해질 것이다. 본 명세서에 기재되지 않은 내용은 본 출원의 기술 분야 또는 유사한 기술 분야 내 숙련된 자이면 충분히 인식하고 유추할 수 있는 것이므로 그 설명을 생략한다.Other objects and advantages of the present application will become more apparent from the following detailed description in conjunction with the appended claims. Content not described in this specification will be omitted because it can be sufficiently recognized and inferred by those skilled in the technical field or similar technical field of the present application.

일 양상은 컴퓨터를 이용한 시스템에서, 표적 단백질 분자와 결합하는 후보 RNA 압타머 서열을 스크리닝하는 방법으로서, 서열 학습 수단에 의하여, RNA-단백질 복합체 데이터에 기초하여 RNA 압타머-단백질 상호작용(Aptamer-Protein Interaction; API) 쌍 데이터의 특징 벡터를 구축하고, 구축된 특징 벡터를 토대로 RNA 압타머-단백질 상호작용 값을 도출하도록 랜덤 포레스트(random forest) 모델을 훈련시키는 단계; 및 서열 생성 수단에 의하여, 무작위 RNA 서열을 몬테 카를로 트리 서치(Monte-carlo tree search: MCTS)를 기반으로 구성된 반복 서열 추출 알고리즘을 적용하여 생성하고, 상기 무작위 RNA 서열과 상기 랜덤 포레스트 모델을 토대로, 상기 무작위 RNA 서열 중에서 표적 단백질 분자와 결합하는 후보 RNA 압타머를 생성하는 단계를 포함하고, 상기 서열 학습 수단에서 RNA 압타머-단백질 상호작용 쌍 데이터의 특징 벡터는 RNA 압타머-단백질 복합체를 구성하는 압타머 서열과 단백질 서열을 토대로 수집된 데이터; 및 RNA 압타머-단백질 복합체를 구성하는 RNA 압타머와 단백질 사이의 거리를 계산하여 결합 수준을 토대로 구축된 것인, 후보 RNA 압타머 서열을 스크리닝하는 방법을 제공한다.One aspect is a method for screening a candidate RNA aptamer sequence that binds to a target protein molecule in a computer-aided system, based on RNA-protein complex data by a sequence learning means, RNA aptamer-protein interaction (Aptamer- Building a feature vector of Protein Interaction (API) pair data, and training a random forest model to derive RNA aptamer-protein interaction values based on the constructed feature vector; And by the sequence generating means, a random RNA sequence is generated by applying a repetitive sequence extraction algorithm constructed based on Monte-carlo tree search (MCTS), and based on the random RNA sequence and the random forest model, generating a candidate RNA aptamer that binds to a target protein molecule from the random RNA sequence, wherein the feature vector of RNA aptamer-protein interaction pair data in the sequence learning means constitutes an RNA aptamer-protein complex data collected based on the aptamer sequence and the protein sequence; And it provides a method of screening a candidate RNA aptamer sequence, which is constructed based on the binding level by calculating the distance between the RNA aptamer and the protein constituting the RNA aptamer-protein complex.

상기 서열 학습 수단은 RNA 압타머의 뉴클레오타이드 서열 및 표적 단백질의 아미노산 서열을 인코딩 하는 작업을 수행하여 구축된 특징 벡터 값을 정규화 하는 단계를 더 포함할 수 있다. 상기 인코딩 작업은 improved CTF(iCTF)를 사용하여 수행될 수 있으며, iCTF는 k-mer 패턴 분포로 서열을 변환할 수 있다.The sequence learning means may further include normalizing the value of the feature vector constructed by performing an operation of encoding the nucleotide sequence of the RNA aptamer and the amino acid sequence of the target protein. The encoding operation can be performed using an improved CTF (iCTF), which can convert the sequence into a k-mer pattern distribution.

상기 서열 생성 수단은 후보 RNA 압타머 서열을 생성하기 위하여 몬테 카를로 트리의 각 노드는 A_, C_, G_, U_, _A, _C, _G 및 _U로 이루어진 군으로부터 선택된 압타머 염기 중 하나를 가지는 것이며, 상기 A_, C_, G_ 및 U_는 부모노드에서 선택된 염기의 앞에 각각 A, C, G 및 U를 추가 생성하는 것이며, 상기 _A, _C, _G 및 _U는 부모노드에서 선택된 염기의 뒤에 각각 A, C, G 및 U를 추가 생성하는 것일 수 있다. In the sequence generating means, each node of the Monte Carlo tree has one of aptamer bases selected from the group consisting of A_, C_, G_, U_, _A, _C, _G and _U to generate a candidate RNA aptamer sequence, The A_, C_, G_ and U_ are to add A, C, G, and U in front of the base selected in the parent node, respectively, and the _A, _C, _G and _U are A, respectively, after the base selected in the parent node, It may be to additionally create C, G and U.

상기 서열 생성 수단은 길이가 N인 RNA 압타머 서열을 생성하기 위하여 깊이가 N인 몬테 카를로 트리를 가지는 것일 수 있으며, 상기 N은 예를 들면 30 내지 100사이의 정수일 수 있거나, 30 내지 90, 또는 50 내지 90의 정수일 수 있다.The sequence generating means may have a Monte Carlo tree having a depth of N to generate an RNA aptamer sequence having a length of N, wherein N may be, for example, an integer between 30 and 100, or between 30 and 90, or It may be an integer from 50 to 90.

상기 방법에서 적용되는 반복 서열 추출 알고리즘은 몬테 카를로 트리 탐색트리의 루트노드(root nod) UCT(Upper Confidence bounds applied to Trees) 점수가 가장 큰 노드를 따라 이동하는 선택단계; 이동 중 탐색 트리의 끝에 도달 시 자식 노드의 하나를 무작위로 생성하는 확장단계; 생성된 자식 노드에서 깊이 N인 리프 노드까지 무작위로 탐색하는 시뮬레이션 단계; 미리 선택된 RNA 압타머 후보 염기서열이 있다면 상기 염기서열에 트리 탐색 경로를 토대로 생성된 압타머 후보 염기서열을 추가하고, 미리 선택된 RNA 압타머 후보염기 서열이 없다면 트리 탐색 경로를 토대로 생성된 압타머 후보 염기서열을 추가하여 RNA 압타머 서열을 생성하는 단계; 학습된 랜덤 포레스트 모델에 생성된 RNA 압타머 서열을 입력하여 RNA 압타머-단백질 상호작용 값을 계산하는 단계; 상기 생성된 RNA 압타머 서열 및 계산된 RNA 압타머-단백질 상호작용 값을 저장하는 단계; 트리 경로 내 노드들의 UCT 점수를 RNA 압타머-단백질 상호작용 값을 적용하여 갱신하는 역전파 단계; 상기 선택단계 내지 역전파 단계를 반복하는 반복단계; 및 루트 노드의 자식 노드 중 UCT 점수가 높은 노드를 선택하여 후보 RNA 압타머 서열로 생성하는 종료단계를 포함할 수 있다. 상기 UCT 점수는 하기의 수학식으로 계산할 수 있다.The repeating sequence extraction algorithm applied in the above method includes a selection step of moving along a node having the largest root node UCT (Upper Confidence bounds applied to Trees) score of the Monte Carlo tree search tree; an expansion step of randomly generating one of the child nodes when the end of the search tree is reached during movement; A simulation step of randomly searching from the generated child node to a leaf node having a depth of N; If there is a preselected RNA aptamer candidate nucleotide sequence, an aptamer candidate nucleotide sequence generated based on the tree search path is added to the nucleotide sequence, and if there is no preselected RNA aptamer candidate nucleotide sequence, an aptamer candidate generated based on the tree search path generating an RNA aptamer sequence by adding a nucleotide sequence; calculating the RNA aptamer-protein interaction value by inputting the generated RNA aptamer sequence to the learned random forest model; storing the generated RNA aptamer sequence and the calculated RNA aptamer-protein interaction value; Back propagation step of updating the UCT score of the nodes in the tree path by applying the RNA aptamer-protein interaction value; a repeating step of repeating the selection step to the back propagation step; and selecting a node having a high UCT score from among child nodes of the root node and generating a candidate RNA aptamer sequence. The UCT score can be calculated by the following equation.

Figure pat00001
(수학식)
Figure pat00001
(Equation)

i는 노드 식별자이며, Si는 RNA 압타머-단백질 상호작용 값이며, ni는 i번째 노드에 방문한 횟수이며, Ni는 i번째 노드의 부모 노드의 방문횟수이며, C는

Figure pat00002
또는 0이다. C값은 종료단계에서는 0을 가지나, 이외의 경우에는
Figure pat00003
값을 가진다. i is the node identifier, Si is the RNA aptamer-protein interaction value, ni is the number of visits to the i-th node, Ni is the number of visits to the parent node of the i-th node, and C is
Figure pat00002
or 0. The value of C has 0 at the end stage, but in other cases
Figure pat00003
have a value

구체적으로, 상기 Si 값은 예측된 결합 친화도를 의미하며, 본 명세서 내에서 상기 RNA 압타머-단백질 상호작용은 특정 아미노산 서열로 이루어진 단백질과 결합할 수 있는, 혹은 결합 친화도가 높은 RNA 압타머의 예측, 즉 예측된 결합 친화도를 의미할 수 있다. 상기 Si 값은 랜덤 포레스트 알고리즘 기반 이진 분류 모델에서 수득된 것일 수 있다.Specifically, the Si value means the predicted binding affinity, and the RNA aptamer-protein interaction within the present specification is an RNA aptamer capable of binding to a protein consisting of a specific amino acid sequence or having a high binding affinity. It may mean the prediction of , that is, the predicted binding affinity. The Si value may be obtained from a binary classification model based on a random forest algorithm.

RNA-단백질 복합체에서 상호 작용하는 RNA 서열 및 단백질의 아미노산 서열을 훈련, 학습하는 단계(S10 단계)는 서열 학습 수단에 의해 수행될 수 있다. 실험적 분석 방법, 예를 들어, 클립(CLIP) 및/또는 셀렉스(SELEX) 등의 분석 방법을 통하여 확인된 단백질-RNA 복합체 데이터 세트에 기초하여 상호작용 또는 비상효작용하는 RNA 압타머-단백질 상호작용 쌍 데이터의 특징 벡터, 및/또는 RNA 서열의 특징 벡터와 단백질을 구성하는 아미노산 서열의 특징 벡터를 구축하고, 구축된 특징 벡터에 랜덤 포레스트 모델을 적용하여 RNA 서열과 단백질 서열을 훈련시킬 수 있다. 예를 들면, RNA 서열을 훈련시키기 위한 특징 벡터는 단백질을 구성하는 아미노산과의 상호작용 경향, RNA 서열의 단일-염기 조성, RNA 서열의 2-염기 조성 및 유사 3-염기 조성을 포함할 수 있다. 예를 들어, 유사 3-염기 조성은 RNA 서열을 구성하는 뉴클레오타이드의 소수성, 친수성 및 염기의 측쇄-중량을 포함할 수 있다. 이때, 훈련되는 RNA 서열의 뉴클레오타이드의 개수는 예를 들면 30 내지 100개 또는 30 내지 90개로 설정될 수 있지만, 이에 한정되지 않는다.The step of training and learning (step S10) of the RNA sequence and the amino acid sequence of the protein interacting in the RNA-protein complex may be performed by means of sequence learning. An RNA aptamer-protein interaction that interacts or does not interact based on a protein-RNA complex data set identified through an experimental analysis method, for example, an analysis method such as CLIP and/or SELEX A feature vector of pair data and/or a feature vector of an RNA sequence and an amino acid sequence constituting a protein may be constructed, and a random forest model may be applied to the constructed feature vector to train the RNA sequence and the protein sequence. For example, a feature vector for training an RNA sequence may include a propensity to interact with the amino acids that make up the protein, the single-base composition of the RNA sequence, the two-base composition of the RNA sequence, and the similar three-base composition. For example, a pseudo 3-base composition may include the hydrophobicity, hydrophilicity of the nucleotides that make up the RNA sequence, and the side-chain-weight of the bases. At this time, the number of nucleotides of the RNA sequence to be trained may be set, for example, to 30 to 100 or 30 to 90, but is not limited thereto.

또한, 단백질 서열을 훈련시키기 위한 특징 벡터는 단백질을 구성하는 아미노산의 조성-전이-분포 특성과, 유사 아미노산 조성을 포함할 수 있다. 유사 아미노산 조성은 단백질을 구성하는 아미노산의 소수성, 친수성, 측쇄-중량, 이온화 지수 및 등전점을 포함할 수 있다.In addition, the feature vector for training the protein sequence may include composition-transfer-distribution characteristics of amino acids constituting the protein and similar amino acid composition. The similar amino acid composition may include hydrophobicity, hydrophilicity, side chain-weight, ionization index and isoelectric point of amino acids constituting the protein.

서열 학습 수단은 단백질-RNA 복합체(complex) 데이터를 가지고 있는 공지된 데이터베이스를 이용하여, RNA 특징 벡터와 단백질 특징 벡터를 구축하고, 구축된 특징 벡터로부터 랜덤 포레스트(random forest; RF) 모델을 이용하여 RNA 서열과 단백질 서열을 훈련시킨다.The sequence learning means constructs an RNA feature vector and a protein feature vector using a known database having protein-RNA complex data, and uses a random forest (RF) model from the constructed feature vector. Train RNA and protein sequences.

예를 들면 결합면역침전법(Cross-linking and Immunoprecipitation, CLIP; 클립)에 따라 분석, 확인된 단백질-RNA 복합체 데이터 세트를 제공하는 CLIPdb와 같이 생체내(in vivo) 분석 방법인 클립 및 이의 변형, 개량 분석 방법을 통하여 확인된 단백질-RNA 복합체 데이터 세트를 제공하는 공지된 데이터베이스를 활용할 수 있다. 또한 NCBI(National Center for Biotechnology Information), Aptamer base 및 Protein Data Bank (PDB) 등과 같은 당해 기술분야에서 이미 공지된 데이터베이스(DB)로부터 획득된 것일 수 있다. 일 실시예에 있어서, 상기 RNA-단백질 복합체 데이터는 상기 기재된 선행문헌 1 내지 3의 RNA- 압타머-단백질 복합체 데이터로부터 수득한 RNA 압타머-단백질 상호작용 (쌍) 데이터일 수 있다.For example, CLIP, which is an in vivo analysis method such as CLIPdb, which provides a data set of protein-RNA complexes analyzed and identified according to cross-linking and immunoprecipitation (CLIP; CLIP), and modifications thereof; A known database providing data sets of protein-RNA complexes identified through advanced analytical methods may be utilized. In addition, it may be obtained from a database (DB) already known in the art, such as NCBI (National Center for Biotechnology Information), Aptamer base and Protein Data Bank (PDB). In one embodiment, the RNA-protein complex data may be RNA-aptamer-protein interaction (pair) data obtained from the RNA-aptamer-protein complex data of the preceding documents 1 to 3 described above.

예를 들어, 클립 및 이의 변형인 생체내 분석 방법은 1) RNA-단백질의 결합 부위를 확인하기 위하여 UV-가교(UV cross-linking)과 면역침전(Immunoprecipitation)을 결합하는 CLIP-seq(CLIP sequencing; HITS(high-throughput sequencing)-CLIP), 2) 세포의 RNA 결합 단백질이나 microRNA를 함유하는 ribonucleoprotein 복합체를 확인하는데 사용되는 PAR-CLIP(photoactivatable ribonucloside-enhanced cross-linking and Immunoprecipitation), 3) 단백질과 RNA 분자를 공유 결합하기 위하여 UV 광을 이용하는 iCLIP(individual nucleotide-resolution cross-linking and Immunoprecipitation), 4) RNA 양을 감소시키고 면역침전 된 RNA의 방사선 표지를 생략하는 sCLIP(simple CLIP) 등을 들 수 있다. 또한, 시험관내(in vitro) 분석 방법인 SELEX(Systematic Evolution of Ligands by EXponential enrichment) 및 이의 변형, 개량인 시험관내 분석 방법을 통하여 확인된 단백질-RNA 복합체 데이터 세트를 제공하는 다른 공지의 데이터베이스를 활용할 수 있다.For example, CLIP and its modified in vivo analysis method include 1) CLIP-seq (CLIP sequencing) that combines UV cross-linking and immunoprecipitation to confirm the binding site of RNA-protein. ; HITS (high-throughput sequencing-CLIP), 2) PAR-CLIP (photoactivatable ribonucloside-enhanced cross-linking and immunoprecipitation), 3) used to identify ribonucleoprotein complexes containing RNA-binding proteins or microRNAs in cells Examples include iCLIP (individual nucleotide-resolution cross-linking and immunoprecipitation), which uses UV light to covalently bind RNA molecules, 4) sCLIP (simple CLIP), which reduces the amount of RNA and omits radiolabeling of immunoprecipitated RNA. have. In addition, other known databases that provide protein-RNA complex data sets identified through the in vitro analysis method SELEX (Systematic Evolution of Ligands by EXponential enrichment) and modifications and improvements thereof are utilized. can

상기 셀렉스(SELEX)는 1) 핵산 라이브러리 제조, 2) 친화 크로마토그래피 등을 이용하여 표적 단백질 분자와 결합하는 핵산 구조체 선별, 3) 핵산 구조체를 분리, 증폭하는 과정을 반복하여 확인된 단백질-RNA 복합체에 대한 데이터 세트가 제공될 수 있다.The SELEX is a protein-RNA complex identified by repeating 1) preparing a nucleic acid library, 2) selecting a nucleic acid construct that binds to a target protein molecule using affinity chromatography, and 3) isolating and amplifying the nucleic acid construct. A data set may be provided for

한편, SELEX를 개량, 변형한 다른 방법을 통하여 확인된 단백질-RNA 복합체 데이터 세트가 서열을 학습하기 위하여 활용될 수 있다. SELEX를 개량, 변형한 다른 방법은 1) 핵산 분해효소에 의해 분해되지 않는 L-oligo-nucleotide를 이용한 거울상 압타머(Spiegelmer) 방법, 2) 고순도의 단백질 정제 과정 없이 세포 표면에 존재하는 단백질과 결합하는 cell-to-Aptamer 방식으로 특이적 압타머를 발굴하는 Cell SELEX, 3) 모세관 전기영동을 이용하는 capillary electrophoresis SELEX (CE-SELEX), 4) counter-SELEX, 5) Toggle SELEX 등을 포함할 수 있다. 그 외에도, SELEX를 통해 얻어진 초기의 압타머를 안정적이고 강력한 압타머로 개량하기 위하여, 1) RNA 압타머의 Ribose 2'-OH를 2'-F 나 2'-NH2, 2'-O-methyl group으로 치환하거나, 압타머를 polyethylene glycol(PEG)과 같은 고분자나 diacylglycerol 혹은 cholesterol을 접합시키는 post-SELEX 과정이 수행될 수도 있다.On the other hand, the protein-RNA complex data set identified through other methods of improving and modifying SELEX can be utilized to learn the sequence. Other methods of improving and modifying SELEX include 1) the mirror image aptamer (Spiegelmer) method using L-oligo-nucleotide that is not degraded by nucleases, and 2) binding to the protein present on the cell surface without high-purity protein purification. Cell SELEX, which discovers specific aptamers in a cell-to-aptamer method, 3) capillary electrophoresis SELEX (CE-SELEX) using capillary electrophoresis, 4) counter-SELEX, 5) Toggle SELEX, etc. may be included. . In addition, in order to improve the initial aptamer obtained through SELEX into a stable and strong aptamer, 1) Ribose 2'-OH of RNA aptamer was added to 2'-F or 2'-NH2, 2'-O-methyl group A post-SELEX process may be performed by substituting the aptamer with a polymer such as polyethylene glycol (PEG) or conjugating diacylglycerol or cholesterol.

서열 학습 수단은 RNA 서열 및 단백질의 아미노산 서열을 훈련, 학습시키기 위하여 이들 서열에 대한 적절한 특징 벡터를 구축한다. 본 발명에서, RNA 서열에 대한 특징 벡터는 RNA의 아미노산과의 상호작용 경향(interaction propensity; IP), RNA 서열의 모노-뉴클레오타이드 조성(mono-nucleotide composition; mC, 단일-염기 조성), 디-뉴클레오타이드 조성(di-nucleotide composition; dC, 2-염기 조성) 및 유사 트리-뉴클레오타이드 조성(pseudo tri-nucleotide composition; PseTNC, 유사 3-염기 조성)을 토대로 작성될 수 있으나, 이에 제한되지 않는다.The sequence learning means constructs an appropriate feature vector for the RNA sequence and the amino acid sequence of the protein in order to train and learn the sequence. In the present invention, the characteristic vector for the RNA sequence is the interaction propensity (IP) of the RNA with amino acids, the mono-nucleotide composition (mC, single-base composition) of the RNA sequence, and the di-nucleotide It may be prepared based on the composition (di-nucleotide composition; dC, 2-base composition) and pseudo tri-nucleotide composition (PseTNC, pseudo 3-base composition), but is not limited thereto.

RNA-단백질 상호작용을 예측할 때, RNA 특징 벡터의 기초 특징의 하나인 아미노산과의 뉴클레오타이드 트리플렛의 상호작용 경향(IP)은 매우 강력한 특징이 될 수 있다. 다른 특징 역시 RNA 서열의 특징으로서 활용될 수 있으나, 이에 한정되는 것이 아니다.When predicting RNA-protein interactions, the interaction tendency (IP) of nucleotide triplets with amino acids, which is one of the basic features of RNA feature vectors, can be a very strong feature. Other characteristics may also be utilized as characteristics of the RNA sequence, but are not limited thereto.

단백질의 아미노산 서열을 훈련시키기 위한 특징 벡터는 단백질을 구성하는 예를 들면 아미노산의 조성-전이-분포(composition-transition-distribution; C-T-D) 및 유사 아미노산 조성(Pseudo Amino Acid composition; PseAAC)을 토대로 작성될 수 있다. 단백질 특징을 추출하기 위하여 단백질을 구성하는 20개의 아미노산은 적절한 기준에 따라 군집화(clustering) 될 수 있다. 일례로, 단백질을 구성하는 아미노산은 쌍극자(dipole) 및 부피(volume)를 기준으로 군집화 될 수 있지만, 이에 한정되지 않는다.A feature vector for training the amino acid sequence of a protein may be created based on, for example, the composition-transition-distribution (C-T-D) and pseudo amino acid composition (PseAAC) of amino acids constituting the protein. can In order to extract protein characteristics, the 20 amino acids constituting the protein may be clustered according to appropriate criteria. For example, amino acids constituting the protein may be clustered based on a dipole and a volume, but is not limited thereto.

또한, RNA 서열을 훈련시키기 위한 특징의 하나인 유사 3-염기 조성(PseTNC) 및 단백질의 아미노산 서열을 훈련시키기 위한 특징의 하나인 유사 아미노산 조성(PseAAC)와 관련해서는 각각 RNA 서열을 구성하는 뉴클레오타이드의 생리화학적 성질이 추출될 수 있다. 일례로, 유사 3-염기 조성과 관련하여 공지된 단백질-RNA 복합체에서 RNA 서열을 구성하는 뉴클레오타이드의 소수성(hydrophobicity), 친수성(hydrophilicity) 및 뉴클레오타이드를 구성하는 염기의 측쇄-중량(side-chain mass)이 뉴클레오타이드의 특성으로서 고려될 수 있다. 한편, 유사 아미노산 조성과 관련해서, 공지된 단백질-RNA 복합체에서 단백질을 구성하는 아미노산의 소수성, 친수성, 측쇄-중량, 이온화 지수(예를 들어 카르복시 말단 및 아미노기 말단의 이온화 지수), 등전점이 고려될 수 있다. 하지만, 그 외에도 필요에 따라 RNA를 구성하는 뉴클레오타이드 및/또는 단백질을 구성하는 아미노산의 다른 특징이 활용될 수도 있다.In addition, with respect to the pseudo 3-base composition (PseTNC), which is one of the characteristics for training the RNA sequence, and the pseudo amino acid composition (PseAAC), which is one of the characteristics for training the amino acid sequence of a protein, the nucleotides constituting the RNA sequence, respectively Physiological and chemical properties can be extracted. For example, in a known protein-RNA complex with respect to a similar 3-base composition, hydrophobicity, hydrophilicity, and side-chain mass of the nucleotides constituting the RNA sequence and the nucleotides constituting the nucleotide It can be considered as a characteristic of this nucleotide. On the other hand, with respect to the similar amino acid composition, hydrophobicity, hydrophilicity, side chain-weight, ionization index (eg, ionization index of carboxy terminus and amino group terminus), isoelectric point of amino acids constituting the protein in known protein-RNA complexes. can However, in addition, other characteristics of nucleotides constituting RNA and/or amino acids constituting protein may be utilized as needed.

공지된 단백질-RNA 복합체의 데이터 세트에 기초하여, RNA 서열과 단백질의 아미노산 서열의 특징 벡터를 구축하면, 서열 학습 수단은 기계 학습(machine learning) 알고리즘(또는 모델)을 이용하여 해당 RNA 서열과 아미노산 서열을 훈련시킨다. 예를 들어, 서열 학습 수단은 랜덤 포레스트(random forest, RF) 모델을 활용하여 RNA 서열 및 단백질의 아미노산 서열의 특징 벡터를 훈련시킬 수 있다. 랜덤 포레스트 모델은 의사결정 트리의 단점을 개선하기 위한 알고리즘의 하나로서, 변수에 임의성을 더하여 앙상블 이론이 갖는 장점을 극대화하여 예측 및 분류 정확도를 개선하여 안정성을 얻을 수 있는 것으로 알려져 있다.When a feature vector of an RNA sequence and an amino acid sequence of a protein is constructed based on a data set of a known protein-RNA complex, the sequence learning means uses a machine learning algorithm (or model) to determine the RNA sequence and amino acid sequence train the sequence. For example, the sequence learning means may utilize a random forest (RF) model to train a feature vector of an RNA sequence and an amino acid sequence of a protein. The random forest model is one of the algorithms for improving the shortcomings of decision trees, and it is known that by adding randomness to variables, it maximizes the advantages of ensemble theory to improve prediction and classification accuracy to obtain stability.

랜덤 포레스트 모델은 데이터에서 부트스트랩핑(bootstrapping) 과정을 통한 배깅(bagging, Bootstrap Aggregation)을 통하여 주어진 데이터 세트에서 무작위로 subset을 N번 샘플링(sampling)하여 N개의 샘플링 데이터 세트(즉, N개의 예측 모델)를 생성할 수 있다. 이어서, 각각의 샘플링 된 데이터 세트에서 임의의 변수를 선택하는 과정을 진행하는데, 변수의 개수를 선택할 때, M개의 총 변수들 중에서 sqrt(M) 또는 M/3개의 개수만큼 변수들을 무작위로 선택하고 나머지 변수는 모두 제거하는 과정 반복한다. 이와 같이 변수 선택이 진행된 의사결정 트리들을 종합하여 앙상블(Ensemble) 모델을 만들고, OOB 오류(Out-Of-Bag error)를 통해 오-분류를 평가한다.The random forest model randomly samples a subset N times from a given data set through bagging (bootstrap aggregation) through a bootstrapping process in the data to generate N sampling data sets (i.e., N predictions). model) can be created. Then, the process of selecting random variables from each sampled data set is performed. When selecting the number of variables, sqrt(M) or M/3 variables are randomly selected from among M total variables. Repeat the process to remove all remaining variables. In this way, an ensemble model is created by synthesizing decision trees in which variable selection has been performed, and misclassification is evaluated through OOB error (Out-Of-Bag error).

랜덤 포레스트 모델을 적용하면, 학습 오류를 구성하는 바이어스(bias, 이 값이 높으면 예측 결과가 실제 결과와 비교해서 부정확함)를 낮추면서, 배리언스(variance, 이 값이 높으면 예측 결과가 특정 데이터 세트에서는 잘 맞지만 다른 데이터 세트에서는 잘 맞지 않음)를 줄일 수 있다.When a random forest model is applied, the bias that constitutes the learning error (when this value is high, the prediction result is inaccurate compared to the actual result), while reducing the variance (when this value is high, the prediction result is specific data) It fits well on one set but not on another data set).

상기 서열 생성 수단은 무작위 RNA 서열을 몬테 카를로 트리 서치(Monte-carlo tree search: MCTS)를 기반으로 구성된 반복 서열 추출 알고리즘을 적용하여 생성하고, 전술한 서열 학습 수단을 통해 훈련된 랜덤 포레스트 모델을 토대로, 생성된 무작위 RNA 서열 중에서 표적 단백질 분자와 결합하는 후보 RNA 압타머를 구축, 생성한다.The sequence generating means generates a random RNA sequence by applying a repetitive sequence extraction algorithm configured based on Monte-carlo tree search (MCTS), and based on the random forest model trained through the above-described sequence learning means , to construct and generate a candidate RNA aptamer that binds to a target protein molecule among the generated random RNA sequences.

서열 생성 수단은 서열 학습 수단에서 훈련된 랜덤 포레스트 모델을 생성된 무작위 RNA 서열에 적용하여 후보 RNA를 예측, 구축, 생성할 수 있다.The sequence generating means can predict, construct, and generate candidate RNAs by applying the random forest model trained in the sequence learning means to the generated random RNA sequences.

공지된 RNA-단백질 복합체로부터, 이들의 서열 수준 및 구조 수준에서, 상호작용하는 RNA 압타머 서열과 표적 단백질 분자의 주요한 특징(feature)를 확인한다. 본 발명에서 상호작용하는 RNA와 표적 단백질 분자의 주요 특징을 사용하여 랜덤 포레스트(RF) 모델을 구축한다. 뒤에서 확인되는 바와 같이, 교차 검증(cross validation)과 본 발명에서 구축된 RF 모델에 대한 독립적인 테스트 수행 결과는, 본 발명의 RF 모델에서 발견된 일련의 잠재적인 RNA 압타머는 강력한 후보 압타머 서열을 포함하고 있어서, 통상적인 SELEX 등의 공정에 의해 요구되는 시간과 비용을 크게 줄일 수 있다.From known RNA-protein complexes, key features of interacting RNA aptamer sequences and target protein molecules, at their sequence level and structural level, are identified. In the present invention, a random forest (RF) model is constructed using the main features of interacting RNA and target protein molecules. As will be confirmed later, cross validation and independent testing of the RF model constructed in the present invention show that a series of potential RNA aptamers found in the RF model of the present invention is a strong candidate aptamer sequence. By including, it is possible to significantly reduce the time and cost required by a process such as a conventional SELEX.

다른 양상은 상기 방법을 실행시키기 위한 프로그램이 기록되어 있는 컴퓨터에서 판독 가능한 기록 매체를 제공한다. Another aspect provides a computer-readable recording medium in which a program for executing the method is recorded.

상기 방법은 다양한 컴퓨터 수단을 통하여 판독 가능한 소프트웨어 형태로 구현되어 컴퓨터로 판독 가능한 기록매체에 기록될 수 있다. 여기서, 기록매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 기록매체에 기록되는 프로그램 명령은 상기에 따른 방법을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 해당 분야의 통상의 기술자에게 공지되어 사용 가능한 것일 수도 있다.The method may be implemented in the form of software readable by various computer means and recorded in a computer readable recording medium. Here, the recording medium may include a program command, a data file, a data structure, etc. alone or in combination. The program instructions recorded on the recording medium may be specially designed and configured for the method described above, or may be known and available to those skilled in the art of computer software.

예컨대 기록매체는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(Magnetic Media), CDROM(Compact Disk Read Only Memory), DVD(Digital Video Disk)와 같은 광 기록 매체(Optical Media), 플롭티컬 디스크(Floptical Disk)와 같은 자기-광 매체(Magneto-Optical Media), 및 롬(ROM), 램(RAM, Random Access Memory), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치를 포함한다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함할 수 있다. 이러한 하드웨어 장치는 상기에 따른 방법의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.For example, the recording medium includes a magnetic medium such as a hard disk, a floppy disk, and a magnetic tape, an optical recording medium such as a compact disk read only memory (CDROM), a digital video disk (DVD), a floppy disk ( Magneto-Optical Media, such as a Floptical Disk, and hardware devices specially configured to store and execute program instructions such as ROM, Random Access Memory (RAM), Flash memory, and the like. Examples of program instructions may include high-level language codes that can be executed by a computer using an interpreter or the like as well as machine language codes such as those generated by a compiler. Such hardware devices may be configured to act as one or more software modules to perform the operations of the methods according to the above, and vice versa.

기록 매체에 기록된 표적 단백질 분자와 결합하는 후보 RNA 압타머를 생성하는 프로그램(이하, RNA 압타머 생성 프로그램이라고 약칭한다)은 적절한 학습, 훈련 모델을 통하여 RNA 서열 및 단백질 아미노산 서열을 훈련하는 서열 학습 수단과, 몬테 카를로 트리 서치를 기반으로 구성된 반복 서열 추출 알고리즘을 통하여 무작위 생성된 RNA 서열로부터 표적 단백질 분자에 결합하는 적절한 후보 RNA 압타머를 구축하는 서열 생성 수단을 포함하고, 필요에 따라 서열 생성 수단에서 구축된 후보 RNA 압타머의 적절성 등을 평가하는 서열 평가 수단을 추가적으로 포함할 수 있다.A program for generating a candidate RNA aptamer that binds to a target protein molecule recorded on a recording medium (hereinafter abbreviated as an RNA aptamer generation program) is a sequence learning that trains an RNA sequence and a protein amino acid sequence through an appropriate learning and training model. A means for generating a sequence comprising: means; and means for constructing an appropriate candidate RNA aptamer that binds to a target protein molecule from a randomly generated RNA sequence through a repeat sequence extraction algorithm constructed based on a Monte Carlo tree search; It may further include a sequence evaluation means for evaluating the suitability of the candidate RNA aptamer constructed in

서열 평가 수단은 본 발명에 따라 사용된 랜덤 포레스트 모델에 대하여 평가 척도로서 민감도(sensitivity; Sn), 특이도(specificity; Sp), 정확도(accuracy; Acc), Youden's Index (J), 그리고 Matthew's correlation coefficient(MCC) 값 등이 사용될 수 있다. 이들 평가 척도는 하기 수학식 (1) 내지 (5)로 표현될 수 있다.The sequence evaluation means are evaluation criteria for the random forest model used according to the present invention, such as sensitivity (Sn), specificity (Sp), accuracy (Acc), Youden's Index (J), and Matthew's correlation coefficient (MCC) value or the like may be used. These evaluation scales can be expressed by the following formulas (1) to (5).

Sn= TP/(TP+FN) 수학식 (1)Sn = TP/(TP+FN) Equation (1)

Sp= TN/(FP+TN) 수학식 (2)Sp = TN/(FP+TN) Equation (2)

Acc = (TP+TN)/(TN+FP+FN+TP) 수학식 (3)Acc = (TP+TN)/(TN+FP+FN+TP) Equation (3)

J=Sn+Sp - 1 수학식 (4)J=Sn+Sp - 1 Equation (4)

 상기 수학식 (1) 내지 (5)에서 민감도는 서열 생성 수단의 실제 포지티브 인스턴스 중에서 랜덤 포레스트 모델에 의해 포지티브로 맞게 예측된 인스턴스의 비율이고, 특이도는 실제 네거티브 인스턴스 중에서 랜덤 포레스트 모델에 의해 네거티브로 맞게 예측된 인스턴스의 비율이며, 정확도는 실제 인스턴스 중에서 랜덤 포레스트 모델에 의해 맞게 예측된 포지티브 인스턴스 및 네거티브 인스턴스의 비율을 의미할 수 있다.In the above equations (1) to (5), the sensitivity is the ratio of the instances predicted to be positively fit by the random forest model among the actual positive instances of the sequence generating means, and the specificity is the ratio of the instances predicted to be positively fit by the random forest model among the actual negative instances. It is a ratio of instances predicted to be fit, and accuracy may mean a ratio of positive instances and negative instances correctly predicted by the random forest model among real instances.

또한, 상기 수학식 (1) 내지 (5)에서 TP, TN, FP, 그리고 FN은 각각 true positive(참으로 예측된 실제 압타머-단백질 결합 쌍의 수), true negative(거짓으로 예측된 거짓 압타머-단백질 결합 쌍의 수), false positive(참으로 예측된 거짓 압타머-단백질 결합 쌍의 수), 그리고 false negative(거짓으로 예측된 실제 압타머-단백질 결합 쌍의 수)를 의미한다.In addition, in Equations (1) to (5), TP, TN, FP, and FN are each true positive (the number of true aptamer-protein binding pairs predicted to be true), true negative (false predicted false pressure), respectively. tamer-protein binding pairs), false positives (number of false aptamer-protein binding pairs predicted as true), and false negatives (number of true aptamer-protein binding pairs predicted falsely).

필요한 경우, 서열 평가 수단은 선행 연구에서 확인된 데이터 세트를 활용하여, 본 발명에서 확인된 후보 RNA 생성 모델(RF 모델)에 대한 독립적인 테스트를 수행할 수도 있다.If necessary, the sequence evaluation means may utilize the data set identified in the previous study to perform an independent test on the candidate RNA production model (RF model) identified in the present invention.

비록 본 명세서와 도면에서는 예시적인 장치 구성을 기술하고 있지만, 본 명세서에서 설명하는 기능적인 동작과 주제의 구현물들은 다른 유형의 디지털 전자 회로로 구현되거나, 본 명세서에서 개시하는 구조 및 그 구조적인 등가물들을 포함하는 컴퓨터 소프트웨어, 펌웨어 혹은 하드웨어로 구현되거나, 이들 중 하나 이상의 결합으로 구현 가능하다. 본 명세서에서 설명하는 주제의 구현물들은 하나 이상의 컴퓨터 프로그램 제품, 다시 말해 상기 방법에 따른 장치의 동작을 제어하기 위하여 혹은 이것에 의한 실행을 위하여 유형의 프로그램 저장매체 상에 인코딩된 컴퓨터 프로그램 명령에 관한 하나 이상의 모듈로서 구현될 수 있다. 컴퓨터로 판독 가능한 매체는 기계로 판독 가능한 저장 장치, 기계로 판독 가능한 저장 기판, 메모리 장치, 기계로 판독 가능한 전파형 신호에 영향을 미치는 물질의 조성물 혹은 이들 중 하나 이상의 조합일 수 있다.Although this specification and drawings describe exemplary device configurations, implementations of the functional operations and subject matter described herein may be implemented in other types of digital electronic circuits, or may represent structures disclosed herein and structural equivalents thereof. It may be implemented as computer software, firmware, or hardware including, or a combination of one or more of these. Implementations of the subject matter described herein are directed to one or more computer program products, ie computer program instructions encoded on a tangible program storage medium for execution by or for controlling operation of an apparatus according to the method. It can be implemented as the above modules. The computer readable medium may be a machine readable storage device, a machine readable storage substrate, a memory device, a composition of matter that affects a machine readable radio wave signal, or a combination of one or more thereof.

상기 방법에 따른 장치에 탑재되고 상기 방법을 실행하는 컴퓨터 프로그램(프로그램, 소프트웨어, 소프트웨어 어플리케이션, 스크립트 혹은 코드로도 알려져 있음)은 컴파일 되거나 해석된 언어나 선험적 혹은 절차적 언어를 포함하는 프로그래밍 언어의 어떠한 형태로도 작성될 수 있으며, 독립형 프로그램이나 모듈, 컴포넌트, 서브루틴 혹은 컴퓨터 환경에서 사용하기에 적합한 다른 유닛을 포함하여 어떠한 형태로도 전개될 수 있다. 컴퓨터 프로그램은 파일 시스템의 파일에 반드시 대응하는 것은 아니다. 프로그램은 요청된 프로그램에 제공되는 단일 파일 내에, 혹은 다중의 상호 작용하는 파일(예컨대, 하나 이상의 모듈, 하위 프로그램 혹은 코드의 일부를 저장하는 파일) 내에, 혹은 다른 프로그램이나 데이터를 보유하는 파일의 일부(예컨대, 마크업 언어 문서 내에 저장되는 하나 이상의 스크립트) 내에 저장될 수 있다. 컴퓨터 프로그램은 하나의 사이트에 위치하거나 복수의 사이트에 걸쳐서 분산되어 통신 네트워크에 의해 상호 접속된 다중 컴퓨터나 하나의 컴퓨터 상에서 실행되도록 전개될 수 있다.A computer program (also known as a program, software, software application, script or code) mounted on an apparatus according to the method and executing the method may contain any compiled or interpreted language or any programming language, including a priori or procedural language. It can be written in any form, and can be deployed in any form, including stand-alone programs, modules, components, subroutines, or other units suitable for use in a computer environment. A computer program does not necessarily correspond to a file in a file system. A program may be in a single file provided to the requested program, or in multiple interacting files (eg, files that store one or more modules, subprograms, or portions of code), or portions of files that hold other programs or data. (eg, one or more scripts stored within a markup language document). The computer program may be deployed to be executed on a single computer or multiple computers located at one site or distributed over a plurality of sites and interconnected by a communication network.

후술하는 바와 같이, 본 발명에 따른 프로그램을 사용하여 표적 단백질 분자와 결합하는 후보 RNA 압타머 서열을 효율적으로 생성할 수 있다. 예를 들어, 본 발명에 따라 컴퓨터로 판독 가능한 기록 매체는 표적 단백질 분자와 결합하는 후보 압타머 서열을 생성, 선별, 평가 및 검증하기 위한 일련의 프로그램 명령은 물론이고, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합한 것을 포함할 수 있다.As described below, a candidate RNA aptamer sequence that binds to a target protein molecule can be efficiently generated using the program according to the present invention. For example, the computer-readable recording medium according to the present invention contains a series of program instructions for generating, selecting, evaluating, and verifying a candidate aptamer sequence that binds to a target protein molecule, as well as a data file, data structure, etc. They may be included alone or in combination.

또 다른 양상은 RNA-단백질 복합체 데이터에 기초하여 RNA 압타머-단백질 상호작용(Aptamer-Protein Interaction; API) 쌍 데이터의 특징 벡터를 구축하고, 구축된 특징 벡터를 토대로 RNA압타머-단백질 상호작용 값을 도출하도록 랜덤 포레스트 모델을 훈련시키는 서열 학습부; 및 무작위 RNA 서열을 몬테 카를로 트리 서치(Monte-carlo tree search: MCTS)를 기반으로 구성된 반복 서열 추출 알고리즘을 적용하여 생성하고, 상기 무작위 RNA 서열과 상기 랜덤 포레스트 모델을 토대로, 상기 무작위 RNA 서열 중에서 표적 단백질 분자와 결합하는 후보 RNA 압타머를 생성하는 서열 생성부를 포함하고, 상기 서열 학습부에서 RNA 압타머-단백질 상호작용 쌍 데이터의 특징 벡터는 RNA 압타머-단백질 복합체를 구성하는 압타머 서열과 단백질 서열을 토대로 수집된 데이터; 및 RNA 압타머-단백질 복합체를 구성하는 RNA 압타머와 단백질 사이의 거리를 계산하여 결합 수준을 토대로 구축된 것인, 표적 단백질 분자와 결합하는 후보 RNA 압타머 서열 스크리닝 장치를 제공한다.Another aspect is to construct a feature vector of RNA aptamer-protein interaction (API) pair data based on RNA-protein complex data, and based on the constructed feature vector, RNA aptamer-protein interaction value a sequence learning unit that trains a random forest model to derive And a random RNA sequence is generated by applying a repeating sequence extraction algorithm constructed based on Monte-carlo tree search (MCTS), and based on the random RNA sequence and the random forest model, a target among the random RNA sequences and a sequence generator for generating a candidate RNA aptamer that binds to a protein molecule, wherein the feature vector of the RNA aptamer-protein interaction pair data in the sequence learning part includes an aptamer sequence and a protein constituting the RNA aptamer-protein complex data collected based on sequence; And RNA aptamer-Provides a candidate RNA aptamer sequence screening device that binds to a target protein molecule, which is constructed based on the level of binding by calculating the distance between the RNA aptamer and the protein constituting the protein complex.

상기 서열 학습부는 RNA 압타머의 뉴클레오타이드 서열; 및 표적 단백질의 아미노산 서열;을 인코딩 하는 작업을 수행하여 구축된 특징 벡터 값을 정규화하는 계산부를 더 포함할 수 있다.The sequence learning unit is a nucleotide sequence of the RNA aptamer; and an amino acid sequence of the target protein; may further include a calculation unit for normalizing the value of the feature vector constructed by performing the encoding operation.

상기 계산부는 표적 단백질의 아미노산 서열을 인코딩 작업을 20개의 아미노산 서열을 일곱개 그룹으로 나누어 인코딩을 수행할 수 있다.The calculation unit may encode the amino acid sequence of the target protein by dividing the 20 amino acid sequences into seven groups.

상기 서열 생성부는 후보 RNA 압타머 서열을 생성하기 위하여 몬테 카를로 트리의 각 노드는 A_, C_, G_, U_, _A, _C, _G 및 _U로 이루어진 군으로부터 선택된 압타머 염기 중 하나를 가지는 것이며, 상기 A_, C_, G_ 및 U_는 부모노드에서 선택된 염기의 앞에 각각 A, C, G 및 U를 추가 생성하는 것이며, 상기 _A, _C, _G 및 _U는 부모노드에서 선택된 염기의 뒤에 각각 A, C, G 및 U를 추가 생성하는 것일 수 있다.In order for the sequence generator to generate a candidate RNA aptamer sequence, each node of the Monte Carlo tree has one of aptamer bases selected from the group consisting of A_, C_, G_, U_, _A, _C, _G, and _U, and the A_, C_, G_ and U_ are to add A, C, G, and U in front of the base selected in the parent node, respectively, and _A, _C, _G and _U are A, C after the base selected in the parent node, respectively , G and U may be additionally generated.

상기 서열 생성부는 길이가 N인 RNA 압타머 서열을 생성하기 위하여 깊이가 N인 몬테 카를로 트리를 가지는 것일 수 있다.The sequence generator may have a Monte Carlo tree having a depth of N in order to generate an RNA aptamer sequence having a length of N.

상기 서열 생성부는 하기의 단계를 수행하는 반복 서열 추출 알고리즘을 적용할 수 있는 것일 수 있다 :The sequence generator may be capable of applying a repetitive sequence extraction algorithm that performs the following steps:

몬테 카를로 트리 탐색트리의 루트노드(root nod) UCT(Upper Confidence bounds applied to Trees) 점수가 가장 큰 노드를 따라 이동하는 선택단계; 이동 중 탐색 트리의 끝에 도달 시 자식 노드의 하나를 무작위로 생성하는 확장단계; 생성된 자식 노드에서 깊이 N인 리프 노드까지 무작위로 탐색하는 시뮬레이션 단계; 미리 선택된 RNA 압타머 후보 염기서열이 있다면 상기 염기서열에 트리 탐색 경로를 토대로 생성된 압타머 후보 염기서열을 추가하고, 미리 선택된 RNA 압타머 후보염기 서열이 없다면 트리 탐색 경로를 토대로 생성된 압타머 후보 염기서열을 추가하여 RNA 압타머 서열을 생성하는 단계; 학습된 랜덤 포레스트 모델에 생성된 RNA 압타머 서열을 입력하여 RNA 압타머-단백질 상호작용 값을 계산하는 단계; 상기 생성된 RNA 압타머 서열 및 계산된 RNA 압타머-단백질 상호작용 값을 저장하는 단계; 트리 경로 내 노드들의 UCT 점수를 RNA 압타머-단백질 상호작용 값을 적용하여 갱신하는 역전파 단계; 상기 선택단계 내지 역전파 단계를 반복하는 반복단계; 및 루트 노드의 자식 노드 중 UCT 점수가 높은 노드를 선택하여 후보 RNA 압타머 서열로 생성하는 종료단계를 포함상기 UCT 점수는 하기의 식으로 계산하고,a selection step of moving along the root node of the Monte Carlo tree search tree and the node having the highest UCT (Upper Confidence bounds applied to Trees) score; an expansion step of randomly generating one of the child nodes when the end of the search tree is reached during movement; A simulation step of randomly searching from the generated child node to a leaf node having a depth of N; If there is a preselected RNA aptamer candidate nucleotide sequence, an aptamer candidate nucleotide sequence generated based on the tree search path is added to the nucleotide sequence, and if there is no preselected RNA aptamer candidate nucleotide sequence, an aptamer candidate generated based on the tree search path generating an RNA aptamer sequence by adding a nucleotide sequence; calculating the RNA aptamer-protein interaction value by inputting the generated RNA aptamer sequence to the learned random forest model; storing the generated RNA aptamer sequence and the calculated RNA aptamer-protein interaction value; Back propagation step of updating the UCT score of the nodes in the tree path by applying the RNA aptamer-protein interaction value; a repeating step of repeating the selection step to the back propagation step; and a termination step of selecting a node having a high UCT score among child nodes of the root node and generating a candidate RNA aptamer sequence. The UCT score is calculated by the following equation,

Figure pat00004
Figure pat00004

i는 노드 식별자이며, Si는 RNA 압타머-단백질 상호작용 값이며, ni는 i번째 노드에 방문한 횟수이며, Ni는 i번째 노드의 부모 노드의 방문횟수이며, C는

Figure pat00005
또는 0이다.i is the node identifier, Si is the RNA aptamer-protein interaction value, ni is the number of visits to the i-th node, Ni is the number of visits to the parent node of the i-th node, and C is
Figure pat00005
or 0.

구체적으로, 상기 Si 값은 예측된 결합 친화도를 의미하며, 본 명세서 내에서 상기 RNA 압타머-단백질 상호작용은 특정 아미노산 서열로 이루어진 단백질과 결합할 수 있는, 혹은 결합 친화도가 높은 RNA 압타머의 예측, 즉 예측된 결합 친화도를 의미할 수 있다. 상기 Si 값은 랜덤 포레스트 알고리즘 기반 이진 분류 모델에서 수득된 것일 수 있다.Specifically, the Si value means the predicted binding affinity, and the RNA aptamer-protein interaction within the present specification is an RNA aptamer capable of binding to a protein consisting of a specific amino acid sequence or having a high binding affinity. It may mean the prediction of , that is, the predicted binding affinity. The Si value may be obtained from a binary classification model based on a random forest algorithm.

상기 N은 예를 들면 30 내지 100사이의 정수일 수 있거나, 30 내지 90, 또는 50 내지 90의 정수일 수 있다.The N may be, for example, an integer between 30 and 100, or an integer of 30 to 90, or 50 to 90.

도 2는 일 실시예에 따른 학습을 이용한 후보 RNA 압타머 서열을 스크리닝하는 컴퓨팅 장치의 하드웨어 구성을 도시한 블록도이다2 is a block diagram illustrating a hardware configuration of a computing device for screening a candidate RNA aptamer sequence using learning according to an embodiment.

도 2를 참고하여 설명하면, 컴퓨팅 장치(50)는 RNA-단백질 복합체 쌍 데이터를 전처리/가공/분석하여 후보 RNA 압타머 서열을 스크리닝하기 위한 장치로, 데이터 인터페이스(80), 메모리(90), 및 프로세서(100)를 포함할 수 있다. 한편, 도 2에 도시된 컴퓨팅 장치 (50)는 본 실시예의 특징이 흐려지는 것을 방지하기 위하여 본 실시예에 관련된 구성요소들만이 도시되어 있을 뿐이므로, 컴퓨팅 장치 (50)는 도 2에 도시된 구성요소들 외에 다른 범용적인 구성요소들이 더 포함될 수 있다.2, the computing device 50 is a device for screening candidate RNA aptamer sequences by pre-processing/processing/analyzing RNA-protein complex pair data, a data interface 80, a memory 90, and a processor 100 . Meanwhile, in the computing device 50 shown in FIG. 2 , only the components related to the present embodiment are shown in order to prevent the features of the present embodiment from being blurred, so the computing device 50 has the configuration shown in FIG. 2 . In addition to the elements, other general-purpose components may be further included.

본 명세서 내에서 염기(서열)는 DNA 또는 RNA 뉴클레오티드와 동일한 의미로 혼용하여 사용될 수 있다. In the present specification, a base (sequence) may be used interchangeably with the same meaning as a DNA or RNA nucleotide.

RNA-단백질 복합체 데이터 (40)는 실험적으로 획득될 수도 있고, 공개 데이터베이스(DB)로부터 획득된 것이거나, 선행 연구로부터 수득할 수 있다. 예를 들어, NCBI(National Center for Biotechnology Information), Aptamer base 및 Protein Data Bank (PDB) 등과 같은 당해 기술분야에서 이미 공지된 데이터베이스(DB)로부터 획득된 것일 수 있다. 일 실시예에 있어서, 상기 RNA-단백질 복합체 데이터는 상기 기재된 선행문헌 1 내지 3의 RNA- 압타머-단백질 복합체 데이터로부터 수득한 RNA 압타머-단백질 상호작용 (쌍) 데이터일 수 있다. The RNA-protein complex data 40 may be obtained experimentally, may be obtained from a public database (DB), or may be obtained from prior studies. For example, it may be obtained from a database (DB) already known in the art, such as NCBI (National Center for Biotechnology Information), Aptamer base and Protein Data Bank (PDB). In one embodiment, the RNA-protein complex data may be RNA-aptamer-protein interaction (pair) data obtained from the RNA-aptamer-protein complex data of the preceding documents 1 to 3 described above.

상기 RNA-단백질 복합체 데이터는 RNA 압타머-단백질 복합체를 구성하는 압타머 서열과 단백질 서열을 토대로 수집된 데이터 및/또는 RNA 압타머-단백질 복합체를 구성하는 RNA 압타머와 단백질 사이의 거리를 계산하여 결합 수준을 확인한 데이터 일수 있다. 상기 RNA 압타머-단백질 복합체를 구성하는 압타머 서열과 단백질 서열을 토대로 수집된 데이터 및 RNA 압타머-단백질 복합체를 구성하는 RNA 압타머와 단백질 사이의 거리를 계산하여 결합 수준을 확인한 데이터는 RNA 압타머-단백질 상호작용 또는 비 상호작용 각각에 대하여 참(positive)과 거짓(negative) 2가지 클래스로 분류하고 이의 서열 쌍 데이터를 의미한다. 상기 RNA-단백질 복합체 데이터는 RNA 압타머 및 단백질의 서열 쌍으로 구성된 것일 수 있다. The RNA-protein complex data is data collected based on the aptamer sequence and protein sequence constituting the RNA aptamer-protein complex and/or the distance between the RNA aptamer and the protein constituting the RNA aptamer-protein complex is calculated. It may be data confirming the binding level. The data collected based on the aptamer sequence and the protein sequence constituting the RNA aptamer-protein complex and the data confirming the binding level by calculating the distance between the RNA aptamer and the protein constituting the RNA aptamer-protein complex are the RNA pressure For each of the tamer-protein interaction or non-interaction, it is classified into two classes, positive and negative, and means its sequence pair data. The RNA-protein complex data may be composed of a sequence pair of an RNA aptamer and a protein.

데이터 인터페이스(80)는 생물학적 샘플로부터 실험적으로 측정되거나 또는 데이터베이스(DB)에 저장된, RNA-단백질 복합체 데이터 (40)를 획득한다. 즉, 데이터 인터페이스(80)는 컴퓨팅 장치(50)가 외부의 다른 디바이스들과 통신하기 위한 유/무선 네트워크 인터페이스의 하드웨어로 구현될 수 있다.The data interface 80 acquires RNA-protein complex data 40 , either experimentally measured from a biological sample or stored in a database DB. That is, the data interface 80 may be implemented as hardware of a wired/wireless network interface for the computing device 50 to communicate with other external devices.

메모리(90)는 컴퓨팅 장치(50) 내에서 처리될 데이터들 및 처리가 완료된 결과들을 저장하기 위한 하드웨어로서, RAM(random access memory), ROM(read only memory) 등의 메모리 칩들 또는 HDD(hard disk drive), SSD(solid state drive) 등의 스토리지를 포함한다. 즉, 메모리(90)는 데이터 인터페이스(80)에 의해 획득된 RNA-단백질 복합체 데이터 (40)를 저장할 수 있고, 프로세서(100)에 의해 생성된 RNA 압타머 서열 및 계산된 RNA 압타머-단백질 상호작용 값에 대한 데이터도 저장할 수 있다.The memory 90 is hardware for storing data to be processed in the computing device 50 and results of processing completed, and includes memory chips such as random access memory (RAM), read only memory (ROM), or hard disk (HDD). drive), and storage such as a solid state drive (SSD). That is, the memory 90 may store the RNA-protein complex data 40 obtained by the data interface 80 , and the RNA aptamer sequence generated by the processor 100 and the calculated RNA aptamer-protein interaction Data on action values can also be stored.

프로세서(100)는 RNA-단백질 복합체 데이터 (40)를 이용하여 몬테 카를로 트리 서치(Monte-carlo tree search: MCTS)를 기반으로 구성된 반복 서열 추출 알고리즘을 적용하여 생성하고, 이를 상기 서열 학습 수단을 통해 학습된 랜덤 포레스트 모델을 토대로 생성된 RNA 서열을 생성할용 하드웨어에 해당된다. 프로세서(100)는 하나 이상의 프로세싱 유닛들로 구현된 모듈로서, 다수의 논리 게이트들의 어레이를 갖는 마이크로프로세서와 이 마이크로프로세서에서 실행될 수 있는 프로그램이 저장된 메모리 모듈의 조합으로 구현될 수도 있다. 프로세서(100)는 응용 프로그램의 모듈 형태로 구현될 수도 있다. 일 실시예에서 상기 프로세서(100)는 반복 서열 추출 알고리즘을 구현할 수 있다. 프로세서(100)에 의해 생성된 생성된 RNA 서열은 데이터 인터페이스(80)를 통해 외부의 다른 디바이스, 예를 들어 디스플레이 디바이스, 다른 컴퓨팅 장치 등으로 전송되거나, 또는 외부 네트워크, 예를 들어 인터넷, 공개 데이터베이스(DB) 상으로 전송될 수 있다.The processor 100 generates by applying a repetitive sequence extraction algorithm constructed based on Monte-carlo tree search (MCTS) using the RNA-protein complex data 40, and this is generated through the sequence learning means. It corresponds to the hardware for generating the RNA sequence generated based on the learned random forest model. The processor 100 is a module implemented with one or more processing units, and may be implemented as a combination of a microprocessor having an array of a plurality of logic gates and a memory module in which a program executable in the microprocessor is stored. The processor 100 may be implemented in the form of a module of an application program. In an embodiment, the processor 100 may implement a repetitive sequence extraction algorithm. The generated RNA sequence generated by the processor 100 is transmitted to another external device, for example, a display device, another computing device, or the like through the data interface 80, or an external network, for example, the Internet, a public database. (DB) can be transmitted over

한편, 상술한 본 발명의 실시예들은 컴퓨터에서 실행될 수 있는 프로그램으로 작성 가능하고, 컴퓨터로 읽을 수 있는 기록매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다. 또한, 상술한 본 발명의 실시예에서 사용된 데이터의 구조는 컴퓨터로 읽을 수 있는 기록매체에 여러 수단을 통하여 기록될 수 있다. 상기 컴퓨터로 읽을 수 있는 기록매체는 마그네틱 저장매체(예를 들면, 롬, 플로피 디스크, 하드 디스크 등), 광학적 판독 매체(예를 들면, 시디롬, 디브이디 등)와 같은 저장매체를 포함한다.Meanwhile, the above-described embodiments of the present invention can be written as a program that can be executed on a computer, and can be implemented in a general-purpose digital computer that operates the program using a computer-readable recording medium. In addition, the structure of the data used in the above-described embodiment of the present invention may be recorded in a computer-readable recording medium through various means. The computer-readable recording medium includes a storage medium such as a magnetic storage medium (eg, a ROM, a floppy disk, a hard disk, etc.) and an optically readable medium (eg, a CD-ROM, a DVD, etc.).

일 양상에 따른 방법 및 장치에 따르면, 데이터를 이용하여 기계 학습 알고리즘으로서 RNA 압타머의 서열을 예측하는 학습모델의 정확도를 향상시킴으로써, 표적 단백질의 아미노산 서열만으로도 이와 결합하는 RNA 압타머 서열의 도출이 신속하고 효율적으로 가능하다. According to the method and apparatus according to an aspect, by improving the accuracy of the learning model for predicting the sequence of the RNA aptamer as a machine learning algorithm using data, the derivation of the RNA aptamer sequence that binds with only the amino acid sequence of the target protein is It can be done quickly and efficiently.

도 1은 일 실시예에 따른 표적 단백질 분자와 결합하는 후보 RNA 압타머 서열을 스크리닝하는 방법의 전반적인 흐름을 나타내는 도면이다.
도 2는 일 실시예에 따른 학습을 이용한 후보 RNA 압타머 서열을 스크리닝하는 컴퓨팅 장치의 하드웨어 구성을 도시한 블록도이다.
도 3은 Improved CTF(iCTP) 인코딩 방법을 사용한 단백질 서열 변환 방법을 나타낸 도이다. (A 및 B) 20개의 아미노산 서열을 생물학적 특성을 고려해 일곱 개의 그룹으로 나누어 인코딩 하는 단계를 나타내었으며, (C 및 D) k=1, 2, 3에 대한 모든 패턴 수를 계산하고 각 벡터값을 서열 길이로 나누어 0에서 1 사이의 값으로 정규화하는 단계를 나타내었다.
도 4는 API 분류모델과 MCTS를 사용한 후보 압타머 서열 스크리닝 방법에 대한 개요를 나타낸 도이다. 구체적으로 (A) 생성모델 구축을 위한 첫 번째 단계로서 수집된 압타머-단백질 복합체 데이터를 바탕으로 최적 API 분류모델을 선별하는 단계; (B) 선별된 API 분류모델을 MCTS 알고리즘의 점수함수로 사용하고 각 과정을 반복적으로 수행하여 후보 압타머 서열(길이 N=4)을 생성하는 모델 구조을 나타내었다.
도 5는 MCTS 기반 반복 서열 생성 알고리즘을 나타낸 모식도이다. 구체적으로, (A) 탐색 트리에서 UCT 점수가 가장 큰 노드를 따라 이동하는 선택단계; (B) 이동 중 탐색 트리의 끝에 도달하면 자식 노드 하나를 무작위로 생성하는 확장 단계; (C) 생성된 자식 노드에서 리프 노드까지 무작위로 탐색하는 시뮬레이션 단계; (D) 앞서 선택된 후보 압타머 염기서열과 트리 탐색 경로로 서열을 재구성 후 점수함수의 입력으로 사용 및 사용된 서열과 반환된 점수는 저장하는 평가 및 수집 단계; (E) 앞서 계산된 점수를 바탕으로 지나온 탐색 트리 경로 내 노드들의 UCT 점수 매개변수를 갱신하는 역전파 단계; (F) 앞서 소개된 (A-E) 과정을 M 번 반복하는 반복 단계; (G) 루트 노드의 자식 노드 중 UCT 점수가 가장 높은 노드를 선택하는 반복 종료 단계(단, 이때 C 값은 0이다)이다.
도 6은 여섯 표적 단백질(6GOF, 3V79_1, 5 VOE_H, 3SN6_4, 2RH1, 1ERK(C3) 및 1ERK(C3.59) 에 대한 도킹 시뮬레이션 및 결합 친화도 평가한 결과를 나타낸 도이다. 구체적으로 모든 표적 단백질에 대하여 상위 10개 후보 서열을 생성 후 구조 예측 및 도킹 시뮬레이션 수행하여 최대 도킹 점수를 ZDOCK 점수로 나타낸 도이다.
도 7은 압타머 단백질 복합체 5VOE에 대한 도킹 시뮬레이션 결과를 나타낸 도이며, 구체적으로 (A) 표적 단백질 5VOE:H의 공개된 분자구조 정보를 바탕으로 시각화한 결과이며, (B-H)에서 보여지는 회색 분자구조는 5VOE:H이며 위치와 구도는 같으며, (B) 표적 단백질 5VOE:H의 공개된 압타머 구조 5VOE:A의 알려진 구조 정보를 바탕으로 ZDOCK 도킹 시뮬레이션 수행 결과이다. (C-H)는 Apta-MCTS에서 제안한 후보 압타머를 표적 단백질 5VOE:H와 도킹한 결과에 관한 것이다.
도 8는 압타머 단백질 상호작용 서열 쌍 데이터에 대한 후보 압타머 서열 생성 및 도킹 시뮬레이션 결과를 비교한 도로서, 구체적으로 (A)는 Apta-MCTS와 Lee and Han, 2019 의 방법으로 생성된 후보 압타머 서열(단백질별 상위 10개)을 각자의 표적 단백질과 도킹 시뮬레이션 후 순위별 도킹 점수를 x-, y-축으로 산점도 구성을 나타냈으며, (B)는 생성된 압타머 및 알려진 압타머들 전체의 도킹 점수를 비교한 결과이다.
도 9은 압타머 단백질 상호작용 서열 쌍 내 표적 단백질에 대한 길이별 후보 압타머 서열 생성 및 도킹 시뮬레이션 결과 비교한 결과이다. 구체적으로, 총 32가지 표적 단백질에 대하여 알려진 압타머의 도킹 점수(흰색) 그리고 Apta-MCTS를 사용하여 서로 다른 길이(30bp, 50bp, 70bp, 90bp)로 생성된 압타머의 도킹 점수(회색)를 시각화한 결과이다.
1 is a diagram illustrating an overall flow of a method for screening a candidate RNA aptamer sequence that binds to a target protein molecule according to an embodiment.
2 is a block diagram illustrating a hardware configuration of a computing device for screening a candidate RNA aptamer sequence using learning according to an embodiment.
3 is a diagram showing a protein sequence conversion method using the Improved CTF (iCTP) encoding method. (A and B) The steps of encoding 20 amino acid sequences were divided into seven groups in consideration of biological properties. (C and D) All patterns for k = 1, 2, 3 were calculated and each vector value was Normalization to a value between 0 and 1 by dividing by the sequence length is shown.
4 is a diagram illustrating an overview of a candidate aptamer sequence screening method using an API classification model and MCTS. Specifically, (A) selecting an optimal API classification model based on the collected aptamer-protein complex data as a first step for constructing a generative model; (B) The selected API classification model was used as a score function of the MCTS algorithm, and each process was repeatedly performed to generate a candidate aptamer sequence (length N=4).
5 is a schematic diagram illustrating an MCTS-based repeat sequence generation algorithm. Specifically, (A) a selection step of moving along the node having the largest UCT score in the search tree; (B) an expansion step of randomly generating one child node when the end of the search tree is reached during movement; (C) a simulation step of randomly searching from generated child nodes to leaf nodes; (D) an evaluation and collection step of reconstructing the sequence with the previously selected candidate aptamer base sequence and the tree search path, and storing the sequence used and used as an input of the score function and the returned score; (E) a backpropagation step of updating the UCT score parameters of the nodes in the search tree path passed based on the previously calculated score; (F) repeating the process (AE) introduced above M times; (G) It is an iterative end step of selecting the node with the highest UCT score among the child nodes of the root node (however, in this case, the C value is 0).
6 is a diagram showing the results of docking simulation and binding affinity evaluation for six target proteins (6GOF, 3V79_1, 5 VOE_H, 3SN6_4, 2RH1, 1ERK (C3) and 1ERK (C3.59). Specifically, all target proteins It is a diagram showing the maximum docking score as a ZDOCK score by generating the top 10 candidate sequences and then performing structure prediction and docking simulation.
7 is a diagram showing the docking simulation results for the aptamer protein complex 5VOE, specifically (A) a result of visualization based on the published molecular structure information of the target protein 5VOE:H, and a gray molecule shown in (BH) The structure is 5VOE:H, and the position and composition are the same, (B) It is the result of performing ZDOCK docking simulation based on the known structure information of the published aptamer structure 5VOE:A of the target protein 5VOE:H. (CH) relates to the result of docking the candidate aptamer proposed by Apta-MCTS with the target protein 5VOE:H.
8 is a road comparing the simulation results of generation and docking of candidate aptamer sequences for aptamer protein interaction sequence pair data. Specifically, (A) is Apta-MCTS and candidate pressure generated by the method of Lee and Han, 2019. After docking simulation of the tamer sequence (top 10 by protein) with each target protein, the docking score by rank is shown as a scatterplot configuration on the x- and y-axis, (B) is the generated aptamer and all known aptamers It is the result of comparing the docking scores of
9 is a comparison result of generation and docking simulation results of candidate aptamer sequences for each length of a target protein in an aptamer protein interaction sequence pair. Specifically, the docking score of the known aptamer for a total of 32 target proteins (white) and the docking score of the aptamer generated at different lengths (30bp, 50bp, 70bp, 90bp) using Apta-MCTS (grey) This is a visualization result.

본 실시예들에서 사용되는 용어는 본 실시예들에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 기술분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 임의로 선정된 용어도 있으며, 이 경우 해당 실시예의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서, 본 실시예들에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 실시예들의 전반에 걸친 내용을 토대로 정의되어야 한다.Terms used in the present embodiments were selected as widely used general terms as possible while considering the functions in the present embodiments, which may vary depending on the intention or precedent of a person skilled in the art, the emergence of new technology, etc. can In addition, in a specific case, there are also arbitrarily selected terms, and in this case, the meaning will be described in detail in the description of the embodiment. Therefore, the terms used in the present embodiments should be defined based on the meaning of the term and the overall contents of the present embodiments, rather than the simple name of the term.

실시예들에 대한 설명들에서, 어떤 부분이 다른 부분과 연결되어 있다고 할 때, 이는 직접적으로 연결되어 있는 경우뿐만 아니라, 그 중간에 다른 구성요소를 사이에 두고 전기적으로 연결되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 포함한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것 이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 실시예들에 기재된 "...부", "...모듈"의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.In the descriptions of embodiments, when it is said that a certain part is connected to another part, this includes not only a case in which it is directly connected, but also a case in which it is electrically connected with another component interposed therebetween. . Also, when it is said that a part includes a certain component, it means that other components may be further included, rather than excluding other components, unless otherwise stated. In addition, the terms "...unit" and "...module" described in the embodiments mean a unit that processes at least one function or operation, which is implemented as hardware or software, or is a combination of hardware and software. can be implemented.

본 실시예들에서 사용되는 "구성된다" 또는 "포함한다" 등의 용어는 명세서 상에 기재된 여러 구성 요소들, 도는 여러 단계들을 반드시 모두 포함하는 것으로 해석되지 않아야 하며, 그 중 일부 구성 요소들 또는 일부 단계들은 포함되지 않을 수도 있고, 또는 추가적인 구성 요소 또는 단계들을 더 포함할 수 있는 것으로 해석되어야 한다.Terms such as “consisting of” or “comprising” used in the present embodiments should not be construed as necessarily including all of the various components or various steps described in the specification, and some components or It should be construed that some steps may not be included, or may further include additional components or steps.

하기 실시예들에 대한 설명은 권리범위를 제한하는 것으로 해석되지 말아야 하며, 해당 기술분야의 통상의 기술자가 용이하게 유추할 수 있는 것은 실시예들의 권리범위에 속하는 것으로 해석되어야 할 것이다. 이하 첨부된 도면들을 참조하면서 오로지 예시를 위한 실시예들을 상세히 설명하기로 한다.The description of the following examples should not be construed as limiting the scope of rights, and what can be easily inferred by those skilled in the art should be construed as belonging to the scope of the embodiments. Hereinafter, embodiments for purposes of illustration will be described in detail with reference to the accompanying drawings.

이하 본 발명을 실시예를 통하여 보다 상세하게 설명한다. 그러나, 이들 실시예는 본 발명을 예시적으로 설명하기 위한 것으로 본 발명의 범위가 이들 실시예에 한정되는 것은 아니다.Hereinafter, the present invention will be described in more detail through examples. However, these examples are for illustrative purposes only, and the scope of the present invention is not limited to these examples.

실시예 1. 압타머 단백질 서열 쌍 데이터 구성Example 1. Aptamer protein sequence pair data construction

본 실험에서 압타머-단백질 상호작용(Aptamer-Protein Interaction: API) 분류모델을 학습하기 위해 활용되는 데이터들은 공개 데이터베이스인 압타머 베이스(aptamer base)와 Protein Data Bank (PDB) 에서 수득하였다. 해당 데이터들은 압타머-단백질 복합체들이며 표적 단백질에 결합하는 DNA 그리고 RNA 압타머들의 정보를 모두 포함한다.In this experiment, the data used to learn the aptamer-protein interaction (API) classification model was obtained from the public databases, aptamer base and Protein Data Bank (PDB). The data are aptamer-protein complexes and include information on both DNA and RNA aptamers that bind to target proteins.

API 분류모델을 학습시키기 위한 정보추출은 선행연구인 "Prediction of aptamer-target interacting pairs with pseudo-amino acid composition" (PLoS One, 9(1), e86729, 2014, 이하,'Li et al., 2014'로 지칭한다) 및 "Constructive prediction of potential RNA aptamers for a protein target"(IEEE/ACM Transactions on Computational Biology and Bioinformatics, Sept.-Oct. 2020, pp. 1476-1482, vol. 17, 이하, 'Lee and Han, 2019' 로 지칭한다.)에 개시된 압타머-단백질 복합체 데이터로부터 수행하였다. Information extraction for training the API classification model is a prior study, "Prediction of aptamer-target interacting pairs with pseudo-amino acid composition" (PLoS One, 9(1), e86729, 2014, hereinafter,'Li et al., 2014 ') and "Constructive prediction of potential RNA aptamers for a protein target" (IEEE/ACM Transactions on Computational Biology and Bioinformatics, Sept.-Oct. 2020, pp. 1476-1482, vol. 17, hereinafter, 'Lee and Han, 2019').

두 연구 모델 모두 상호작용(interaction)과 비 상호작용 (non-interaction) 각각에 대하여 참(positive)과 거짓(negative) 2가지 클래스로 분류하고 이를 위한 서열 쌍을 수집했다. 상기 두 수집한 데이터 세트의 차이점은 상호작용 클래스에 대한 관점이다. Li et al., 2014 은 복합체를 구성하는 압타머 서열과 단백질 서열의 쌍을 무작위로 섞어 비 상호작용 쌍을 수집했는데, 이는 넓은 관점에서 상호작용 분류 체계를 정의한 것이다.In both research models, interaction and non-interaction were classified into two classes, positive and negative, respectively, and sequence pairs were collected. The difference between the two collected data sets is the view of the interaction class. Li et al., 2014 randomly mixed pairs of aptamer and protein sequences constituting the complex to collect non-interacting pairs, which defined the interaction classification system from a broad perspective.

반면, Lee and Han, 2019 은 좁은 관점에서 분류 체계를 정립하였다. 복합체 내의 압타머와 단백질 서열 쌍 각 뉴클레오타이드와 펩타이드 사이의 거리를 계산하여 분자 수준에서 결합 수준을 미리 정의하고 일정한 길이(27 bases) 만큼 슬라이딩 윈도(sliding window) 방식을 수행해 클래스별 서열 쌍을 수집하였다. 결과적으로, 생성모델에 적용하기 위한 두 개의 독립적인 API 분류모델들을 구성하였다. On the other hand, Lee and Han, 2019 established a classification system from a narrow perspective. By calculating the distance between each nucleotide and peptide of the aptamer and protein sequence pair in the complex, the binding level was predefined at the molecular level, and a sliding window method was performed for a certain length (27 bases) to collect sequence pairs for each class. . As a result, two independent API classification models were constructed to be applied to generative models.

API 분류모델 및 Apta-MCTS 평가를 위해 사용된 검증 데이터 세트Validation data set used for API classification model and Apta-MCTS evaluation 출처source 참 데이터 수number of true data 거짓 데이터 수number of false data 용도purpose Li et al., 2014Li et al., 2014 580580 17401740 분류모델 학습Classification model training 145145 435435 분류모델 평가Classification model evaluation Lee and Han, 2019Lee and Han, 2019 157157 493493 분류모델 학습Classification model training 5656 5656 분류모델 및 생성모델 평가Classification model and generative model evaluation

상기 표 1에 나타난 바와 같이, Li et al., 2014 의 데이터는 580개의 positive 서열 쌍과 1740개의 negative 서열 쌍이 학습용 데이터로 구성되어 있으며 평가용 데이터는 145개의 positive 서열 쌍과 435개의 negative 서열 쌍으로 구성되어 있다. 모든 서열 쌍은 압타머와 단백질 서열들로 구성되며 일부 DNA 압타머 서열의 T(thymine) 염기 문자를 U(uracil)로 변경하였다. 또한 Lee and Han, 2019 의 데이터는 모두 RNA 압타머와 단백질 서열 쌍으로 구성된다. 학습용 데이터는 157개의 positive 서열 쌍과 493개의 negative 서열 쌍으로 구성되며 평가용 데이터는 각각 56개의 positive 및 negative 서열 쌍으로 이루어져 있다. 여기서 56개의 positive 서열 쌍은 Li et al., 2014 의 평가용 데이터에서 RNA 압타머를 갖는 positive 서열 쌍을 가져온 것이다. 추가로 해당 데이터는 이후, Apta-MCTS 모델의 후보 압타머 품질 평가를 위해서도 활용하였다.As shown in Table 1, the data of Li et al ., 2014 consists of 580 positive sequence pairs and 1740 negative sequence pairs as training data, and evaluation data is 145 positive sequence pairs and 435 negative sequence pairs. Consists of. All sequence pairs consist of aptamer and protein sequences, and the letter T (thymine) of some DNA aptamer sequences was changed to U (uracil). In addition, the data of Lee and Han, 2019 all consist of RNA aptamer and protein sequence pairs. The training data consists of 157 positive sequence pairs and 493 negative sequence pairs, and the evaluation data consists of 56 positive and negative sequence pairs, respectively. Here, 56 positive sequence pairs were obtained from positive sequence pairs having an RNA aptamer in the evaluation data of Li et al., 2014. In addition, the corresponding data was then used to evaluate the quality of the candidate aptamer of the Apta-MCTS model.

Apta-MCTS 모델은 상기 두가지 다른 데이터 세트를 통해 구성되었고 이 결과들을 서열 생성 단계에서 함께 사용함을 명시한다. Apta-MCTS는 MCTS 알고리즘 사용을 위한 점수함수가 필요하며 이를 위해 상기 두가지 API 분류모델을 사용하였다. The Apta-MCTS model was constructed from the two different data sets and specifies that these results are used together in the sequence generation step. Apta-MCTS requires a score function to use the MCTS algorithm, and for this, the above two API classification models are used.

두 데이터 세트의 서로 다른 상호작용 서열 쌍 구성방식으로 인해 특성이 다른 두 가지의 API 분류모델들을 구성하였으며, 다양한 관점에서 후보 압타머를 생성하기 위해 Apta-MCTS는 표적 단백질에 대한 후보 압타머 생성에 두 분류모델을 모두 사용하였다. 예를 들어, 상위 5개 후보 압타머 서열을 Apta-MCTS로 예측할 경우, 각각의 점수함수에 대하여 총 10개의 유의미한 후보 압타머 서열을 반환하였다. 이후의 평가단계에서도 마찬가지로, 예측값들은 두 점수함수 모두를 사용해 생성하였다.Two API classification models with different characteristics were constructed due to the different interaction sequence pairing methods of the two data sets. Both classification models were used. For example, when the top 5 candidate aptamer sequences were predicted by Apta-MCTS, a total of 10 significant candidate aptamer sequences were returned for each score function. Similarly in the subsequent evaluation stage, predicted values were generated using both score functions.

실시예 2. 압타머 및 단백질 서열 인코딩 방법Example 2. Aptamer and protein sequence encoding method

압타머 서열 생성모델은 API 분류모델의 생성 단계에서 사용하기 때문에, 단순 서열 패턴만으로 API 입력 데이터를 인코딩할 수 있는 improved CTF (iCTF) 를 사용하였다. iCTF는 k-mer 패턴 분포로 서열을 변환하는데, 예를 들어 k=4인 경우 압타머 서열은 문자열 하나로 구성되는 패턴들의 분포에서 문자열 넷으로 구성되는 패턴 분포를 모두 사용한다. 압타머 인코딩을 위해 k=4 iCTF를, 단백질 인코딩을 위해 k=3 iCTF를 적용하였다. 그 결과, 단일 압타머-단백질 서열 쌍에 대하여 각 739(=340+399)개의 특징 벡터를 얻을 수 있었고, k=3에 대한 단백질 서열의 인코딩 과정을 그 예로서 도 3에 나타내었다. Since the aptamer sequence generation model is used in the generation stage of the API classification model, an improved CTF (iCTF) that can encode API input data only with a simple sequence pattern was used. iCTF converts the sequence into a k-mer pattern distribution. For example, when k=4, the aptamer sequence uses all the pattern distributions consisting of four strings in the distribution of patterns consisting of one string. k=4 iCTFs for aptamer encoding and k=3 iCTFs for protein encoding were applied. As a result, 739 (=340+399) feature vectors were obtained for each single aptamer-protein sequence pair, and the encoding process of the protein sequence for k=3 is shown in FIG. 3 as an example.

도 3에서 확인한 바와 같이, (A)에서는 각 20개의 아미노산을 a 내지 g군으로 총 7개로 생물학적 특성을 고려해 그룹핑하였고, (B)에서는 타겟 아미노산 서열을 인코딩하는 과정을 나타내었으며, (C) 및 (D)는 k=1, 2, 3에 대한 모든 패턴 수를 계산하고 각 벡터값을 서열 길이로 나누어 0에서 1 사이의 값으로 정규화한 것을 나타내었다.As confirmed in FIG. 3, in (A), each 20 amino acids were grouped into 7 groups a to g in consideration of biological characteristics, and in (B) the process of encoding the target amino acid sequence was shown, (C) and (D) shows that the number of all patterns for k = 1, 2, and 3 is calculated and each vector value is normalized to a value between 0 and 1 by dividing it by the sequence length.

실시예 3. 압타머 단백질 상호작용 분류모델 학습Example 3. Aptamer protein interaction classification model training

압타머-단백질 서열 쌍 패턴 데이터를 바탕으로 상호작용을 분류하기 위해 랜덤 포레스트(random forest) 분류모델을 사용하였다. 이는 학습 데이터가 적은 경우에도 준수한 성능을 보이는 장점이 있다. A random forest classification model was used to classify interactions based on aptamer-protein sequence pair pattern data. This has the advantage of showing good performance even when there is little training data.

입력서열 쌍 데이터를 iCTF로 변환한 특징값 사용하는 랜덤 포레스트 분류모델을 scikit-learn 패키지를 통하여 학습시켰다. 그리고 API 분류모델 데이터베이스에 존재하는 클래스 불균형(class unbalance) 문제 해결을 위해 scikit-learn 분류모델의 “class_weight” 매개변수를 “balanced”로 설정하였고, API 데이터를 바탕으로 랜덤 포레스트 모델들을 구성하는 과정을 요약하여 도 4A에 나타내었다. 도 4A에서 확인한 바와 같이, 실험을 통해 생성모델 구축을 위한 첫번째 단계로서 수집된 압타머-단백질 복합체 데이터를 바탕으로 최적 API 분류 모델을 선별하였다. 이후, 선별된 API 분류 모델을 MCTS 알고리즘의 점수함수로 사용하고 과정을 반복적으로 수행하여 후보 압타머 서열의 길이 N=4로하여 생성하는 모델 구조를 도 4B에 나타내었다.A random forest classification model using feature values converted from input sequence pair data into iCTF was trained through the scikit-learn package. And to solve the class unbalance problem existing in the API classification model database, the “class_weight” parameter of the scikit-learn classification model was set to “balanced”, and the process of constructing random forest models based on the API data was described. A summary is shown in Figure 4A. As confirmed in FIG. 4A, an optimal API classification model was selected based on the aptamer-protein complex data collected as a first step for constructing a generative model through experiments. Thereafter, the model structure generated by using the selected API classification model as a score function of the MCTS algorithm and repeating the process to set the length of the candidate aptamer sequence to N=4 is shown in FIG. 4B .

실시예 4. MCTS 기반 반복 서열 탐색 알고리즘Example 4. MCTS-based repeat sequence search algorithm

API 분류모델은 표적 단백질 서열 및 압타머 서열의 패턴 정보를 입력으로 사용한다. 해당 분류모델을 실질적으로 활용하기 힘든 이유는 표적 단백질 정보는 알 수 있어도 판별 대상인 후보 압타머 서열은 여전히 모르는 상태이기 때문이다. 따라서 API 분류모델이 높은 수치(높은 결합 친화도)를 반환하도록 하는 압타머 서열 탐색 기법을 확인하기 위한 실험을 수행하였다. The API classification model uses pattern information of the target protein sequence and the aptamer sequence as input. The reason that it is difficult to actually use the classification model is that the target protein information is known but the candidate aptamer sequence to be identified is still unknown. Therefore, an experiment was performed to confirm the aptamer sequence search technique that allows the API classification model to return a high value (high binding affinity).

높은 결합 친화도 값을 반환하는 특징 벡터 값을 무작위로 추출하는 원초적인 방식은 iCTF 인코딩 기법에 맞추어 각 특징 벡터 별 분포 가정이 선행되어야 한다. 하지만 인코딩 이전의 서열을 기반으로 특징 벡터값을 단순히 재구성한다면 분포 가정 없이도 얻을 수 있다. 따라서 특정 길이의 뉴클레오타이드 서열을 생성하는 알고리즘을 정의한다면 압타머 후보군을 무작위로 추출할 수 있다. 그러나 무작위 서열 추출 방식은 압타머 서열 길이가 커질수록 탐색 공간이 지수적으로 증가한다. 이 때문에 병렬 처리와 빠른 연산 속도가 보장되어도 원하는 결과에 도달하기 위한 작업에는 한계가 있다. 따라서, 서열 길이에 따라 지수적으로 증가하는 계산, 시간 복잡도 문제를 고려함과 동시에 전체 탐색 없이 최적 근사해(최적 후보 서열)를 찾을 수 있는 MCTS 기반 반복 서열 생성 방법을 찾아내기 위한 실험을 수행하였다. In the original method of randomly extracting feature vector values returning high binding affinity values, the distribution assumption for each feature vector must be preceded in accordance with the iCTF encoding technique. However, if the feature vector value is simply reconstructed based on the sequence before encoding, it can be obtained without a distribution assumption. Therefore, if an algorithm for generating a nucleotide sequence of a specific length is defined, aptamer candidates can be randomly selected. However, in the random sequence extraction method, the search space increases exponentially as the length of the aptamer sequence increases. For this reason, even if parallel processing and fast operation speed are guaranteed, there is a limit to the work to reach the desired result. Therefore, an experiment was performed to find an MCTS-based repeat sequence generation method that can find an optimal approximate solution (optimal candidate sequence) without a full search while considering the computational and time complexity problems that increase exponentially according to the sequence length.

API 분류모델을 f (ㆍ), 압타머 서열 길이를 N, 단백질 서열을 P 라 하였다. 분류모델 f (ㆍ)는 서열 탐색에 있어 불확실성을 감소시켜주는 역할이다. 서열 길이 N 은 도 4B에서 확인할 수 있듯, 제안하는 서열 탐색 알고리즘의 전체 반복 시행횟수 N 과 같다. 예를 들어, n 번째 반복 과정에서 제안된 알고리즘은 MCTS 서열 탐색 과정을 M 번 반복하며 이때 발생한 후보 서열들과 API 분류모델에 의해 계산된 결합 친화도 점수들을 반환한다. 해당 반복 단계가 완료되면 RNA 염기(A, C, G, U) 중 하나를 반환하여 탐색 영역을 좁혀가는데, 이는 n+1 번째 반복 과정에서 n 번째 염기가 후보 압타머 서열에 고정되어 남은 서열 영역만 탐색해 나가는 방식이며, 이러한 MCTS를 기반으로 한 서열 탐색 과정을 도 5에 나타내었다.The API classification model was designated as f (·), the length of the aptamer sequence was designated as N, and the protein sequence was designated as P. The classification model f (·) plays a role in reducing uncertainty in sequence search. The sequence length N is equal to the total number of iterations N of the proposed sequence search algorithm, as can be seen in FIG. 4B. For example, in the nth iteration process, the proposed algorithm repeats the MCTS sequence search process M times and returns the candidate sequences generated at this time and the binding affinity scores calculated by the API classification model. When the iteration step is completed, one of the RNA bases (A, C, G, U) is returned to narrow the search area, which is the remaining sequence region where the nth base is fixed to the candidate aptamer sequence in the n+1th iteration process. It is a method of searching only the MCTS, and the sequence search process based on this MCTS is shown in FIG. 5 .

도 5에서 확인한 트리 구조는 서열 탐색 공간을 의미하며 해당 트리에서의 MCTS 기반 경로 탐색은 아직 결정되지 않은 후보 압타머 영역의 탐색을 의미한다. 이어서 M 번 반복 하는 MCTS 기반 탐색 방법을 소개한다. 길이가 N 인 RNA 압타머 서열의 생성을 위해서는 깊이가 N 인 트리가 필요하며, 루트 노드(root node)에서 리프 노드(leaf node)까지의 경로(path)를 바탕으로 압타머 서열이 결정된 다. 트리의 각 노드는 다음 여덟 개의 압타머 염기 중 하나를 갖는다: A_, C_, G_, U_, _A, _C, _G, _U. 여기서 문자 ‘_’는 특정 경로를 바탕으로 서열을 구성하는 단계에서 각 노드의 염기 값이 추가되는 방향을 의미한다. 예를 들어 N = 7 이고 이전에 선택된 염기들이 “GAU”일 때 MCTS 알고리즘이 이어서 선택한 경로의 염기 값 들이 [_U, _C, A_, G_]인 경우, 얻어지는 압타머 서열은 다음과 같이 생성된다: The tree structure confirmed in FIG. 5 means a sequence search space, and MCTS-based path search in the corresponding tree means searching for a candidate aptamer region that has not yet been determined. Next, an MCTS-based search method that repeats M times is introduced. In order to generate an RNA aptamer sequence of length N, a tree of depth N is required, and the aptamer sequence is determined based on the path from the root node to the leaf node. Each node in the tree has one of the following eight aptamer bases: A_, C_, G_, U_, _A, _C, _G, _U. Here, the letter ‘_’ indicates the direction in which the base value of each node is added in the step of constructing a sequence based on a specific path. For example, when N = 7 and the previously selected bases are “GAU”, if the base values of the subsequently selected path by the MCTS algorithm are [_U, _C, A_, G_], the resulting aptamer sequence is generated as follows:

GAU → GAUU → GAUUC → AGAUUC → GAGAUUC. GAU → GAUU → GAUUC → AGAUUC → GAGAUUC.

만약 ‘_’ 값이 없는 경우, MCTS에 의해 구성되는 서열들은 단순히 이전 서열의 다음에 누적되어 이전에 결정된 서열이 이어지는 탐색 과정에 영향을 줄 수 없다. 즉, 단계가 진행될수록 탐색의 다양성이 급격하게 줄어드는 것이다. 반대로 자식 노드의 종류가 가능한 모든 서열 위치에서의 염기(base)인 경우, 서열 길이가 길어질수록 탐색의 복잡도가 지수 적으로 증가하여 유의미한 시간 내에 결과를 얻을 수 없다. 유효한 탐색 시간 내에 다양성까지 적절히 고려하기 위해 본 연구에서는 1차원 서열의 양방향(앞, 뒤)을 ‘_’ 로 표기한 방식을 채택하였다.If there is no '_' value, the sequences constituted by MCTS are simply accumulated after the previous sequence and cannot affect the search process following the previously determined sequence. In other words, as the stages progressed, the diversity of the search rapidly decreased. Conversely, if the type of child node is a base at all possible sequence positions, the complexity of the search increases exponentially as the sequence length increases, and results cannot be obtained within a meaningful time. In order to properly consider diversity within the effective search time, this study adopted a method in which both directions (front and back) of a one-dimensional sequence were marked with ‘_’.

서열 추출 알고리즘은 앞서 소개한 트리를 바탕으로 수행되는 MCTS 이며, 도 5과 같이 다음의 5가지 단계로 이루어진다: 선택(selection), 확장(expansion), 시뮬레이션(simulation), 평가 및 수집(scoring and collection), 그리고 역전파(backpropagation).The sequence extraction algorithm is MCTS performed based on the tree introduced above, and consists of the following five steps as shown in FIG. 5: selection, expansion, simulation, scoring and collection ), and backpropagation.

도 5A에서 확인할 수 있는 선택 단계에서는 Upper Confidence bounds applied to Trees (UCT) 점수를 바탕으로 루트 노드에서 리프 노드까지의 경로를 찾으며, 수학식은 다음과 같다:In the selection step that can be confirmed in FIG. 5A, the path from the root node to the leaf node is found based on the Upper Confidence bounds applied to Trees (UCT) score, and the equation is as follows:

Figure pat00006
(수학식 1)
Figure pat00006
(Equation 1)

여기서 i 는 노드 식별자이고. Si는 i번째 노드에 누적된 활용 점수(exploitation score)이며, 이는 역전파 단계에서 계산된 값이다. ni 는 i 번째 노드에 방문한 횟수이며, Ni 는 i 번째 노드의 부모 노드의 방문 횟수이다; 그리고 C 는 탐색 (exploration) 매개변수 값이다. C 값은

Figure pat00007
로 하였다. 도 5B의 확장 단계에서는, 앞서 탐색된 경로 끝에 있는 노드에 도달했을 때 리프 노드가 아닌 경우, 유효한 자식 노드들을 해당 트리에 추가하고 이들 중 하나를 무작위로 선택하였다. 도 5C의 시뮬레이션 단계에서는, 선택된 자식 노드에서 깊이 N인 자식 노드(리프 노드)까지 무작위로 탐색하였다. 시뮬레이션 단계에서 결정된 경로에 대응하는 압타머 서열을 도 5D과 같이 재구성하였다. where i is the node identifier. S i is the exploitation score accumulated in the i-th node, which is a value calculated in the backpropagation step. ni is the number of visits to the i-th node, and Ni is the number of visits to the parent node of the i-th node; And C is the value of the exploration parameter. C value is
Figure pat00007
was done with In the expansion step of FIG. 5B, when a node at the end of the previously searched path is reached, if it is not a leaf node, valid child nodes are added to the tree and one of them is randomly selected. In the simulation step of FIG. 5C, a child node (leaf node) of depth N was randomly searched from the selected child node. The aptamer sequence corresponding to the pathway determined in the simulation step was reconstructed as shown in FIG. 5D.

재구성된 압타머 서열과 표적 단백질 서열을 API 분류모델의 입력으로 들어가 상호작용 점수(예측된 결합 친화도)를 계산에 사용하였다. 도 5E의 역전파 단계에서는, 예측된 결합 친화도 점수를 사용하여 앞서, 탐색된 경로상 노드들의 UCT 점수의 매개변수들을 갱신하였다. 도 5F와 같이, 해당 5가지 단계는 M 번 반복되었다. 본 모델에서 M=1000이 기본값으로 설정되며, 사용자가 변경할 수 있다. M 번의 반복 과정이 마무리된 후, 도 5G와 같이 루트 노드의 자식 노드 중 점수가 가장 높은 노드를 선택하여 앞서 선별된 후보 압타머 서열의 염기 집합에 추가된다.The reconstructed aptamer sequence and the target protein sequence were input to the API classification model, and the interaction score (predicted binding affinity) was used for calculation. In the backpropagation step of FIG. 5E , the parameters of the UCT score of the nodes on the previously searched path were updated using the predicted binding affinity score. As shown in Figure 5F, these five steps were repeated M times. In this model, M=1000 is set as the default value and can be changed by the user. After the M iteration process is completed, as shown in FIG. 5G , a node having the highest score among child nodes of the root node is selected and added to the base set of the previously selected candidate aptamer sequence.

길이 N 의 염기서열에 대한 모든 반복 과정이 완료되면 N ×M 개의 후보 압타머 서열과 예측된 결합 친화도 점수들이 얻어진다. 후보 압타머의 구조적 다양성을 위해, 생성된 RNA 압타머 서열들의 2차 구조를 ViennaRNA 2.0로 예측하고 같은 2차 구조를 갖는 압타머 서열 중 결합 친화도 점수가 가장 높은 서열만 남긴다. 이후 결합 친화도 점수를 기준으로 정렬하면 최종 후보 압타머 서열 생성을 완료하였다.When all iterations for a nucleotide sequence of length N are completed, N × M candidate aptamer sequences and predicted binding affinity scores are obtained. For structural diversity of candidate aptamers, the secondary structure of the generated RNA aptamer sequences is predicted as ViennaRNA 2.0, and only the sequence with the highest binding affinity score among aptamer sequences having the same secondary structure is left. After alignment based on the binding affinity score, the generation of the final candidate aptamer sequence was completed.

실시예 5. API 점수함수 사용을 위한 모델 선택 방법Example 5. Model Selection Method for Using the API Score Function

여러 랜덤 포레스트 분류모델들을 학습시킨 후 Matthew’s correlation coefficient (MCC) 값을 기준으로 가장 성능이 좋은 모델을 선별하였다. 랜덤 포레스트 분류모델은 다수의 의사 결정 트리(decision tree)로 구성된 앙상블 기법으로, 트리의 수나 깊이 제한 같은 사용자 매개변수에 따라 성능이 달라지는 것으로 알려져있다. 해당 연구에서는 트리의 수를 30에서 200 사이의 무작위 값으로 설정 후 2,000개의 모델을 학습시켰다. 만약 같은 MCC 값을 갖는 분류모델이 존재할 경우, 적은 트리 수로 구성된 랜덤 포레스트 모델을 선택하였다. MCTS 기반 반복 서열 탐색 알고리즘에서 해당 모델은 점수함수로 사용되므로, 연산 속도를 높이기 위해 가벼운 모델을 사용하였다.After training several random forest classification models, the best performing model was selected based on Matthew's correlation coefficient (MCC) value. The random forest classification model is an ensemble technique composed of a number of decision trees, and it is known that the performance varies depending on user parameters such as the number of trees and the depth limit. In this study, 2,000 models were trained after setting the number of trees to a random value between 30 and 200. If a classification model with the same MCC value exists, a random forest model consisting of a small number of trees is selected. In the MCTS-based repeat sequence search algorithm, the model is used as a score function, so a lightweight model was used to increase the computation speed.

실시예 6. API 분류모델 성능 평가 방법Example 6. API classification model performance evaluation method

Apta-MCTS의 점수함수들은 Li et al., 2014 그리고 Lee and Han, 2019 의 데이터 및 랜덤 포레스트 이진 분류모델 알고리즘을 기반으로 구성된다. 학습된 이진 분류모델을 평가하기 위해 정의된 민감도(sensitivity; Sn), 특이도(specificity; Sp), 정확도(accuracy; Acc), Youden’s Index (J), 그리고 MCC을 계산하는 수학식은 다음과 같다:The score functions of Apta-MCTS are described by Li et al. , 2014 and Lee and Han, 2019 are constructed based on the data and random forest binary classification model algorithm. The equations for calculating the sensitivity (Sn), specificity (Sp), accuracy (Acc), Youden's Index (J), and MCC defined to evaluate the learned binary classification model are as follows:

Sn= TP/(TP+FN) (수학식 2)Sn = TP/(TP+FN) (Equation 2)

Sp= TN/(FP+TN) (수학식 3)Sp = TN/(FP+TN) (Equation 3)

Acc = (TP+TN)/(TN+FP+FN+TP) (수학식 4)Acc = (TP+TN)/(TN+FP+FN+TP) (Equation 4)

J=Sn+Sp - 1 (수학식 5)J=Sn+Sp - 1 (Equation 5)

Figure pat00008
(수학식6)
Figure pat00008
(Equation 6)

여기서 TP, TN, FP, 그리고 FN은 각각 true positive(참으로 예측된 실제 압타머-단백질 결합 쌍의 수), true negative(거짓으로 예측된 거짓 압타머-단백질 결합 쌍의 수), false positive(참으로 예측된 거짓 압타머-단백질 결합 쌍의 수), 그리고 false negative(거짓으로 예측된 실제 압타머-단백질 결합 쌍의 수)를 의미한다.where TP, TN, FP, and FN are true positive (number of true aptamer-protein binding pairs predicted as true), true negative (number of false aptamer-protein binding pairs predicted falsely), false positive ( true predicted number of false aptamer-protein binding pairs), and false negative (number of true aptamer-protein binding pairs predicted falsely).

실시예 7. 도킹 시뮬레이션을 통한 생성모델 평가 방법Example 7. Generating model evaluation method through docking simulation

Apta-MCTS 는 표적 단백질 서열에 결합하는 후보 압타머 서열을 생성하며 이 중 상위 k 개를 선별한다. 해당 압타머 서열들과 표적 단백질 사이의 분자 구조적 결합 친화도를 검증하기 위해, ZDOCK을 사용하였다. 도킹 시뮬레이션을 수행하기 위해서는 표적 단백질 서열과 후보 압타머 서열의 3차원 분자구조 정보가 필요하며, 이는 해당 서열 정보를 3차원 분자구조로 예측하거나 관측된 정보를 바탕으로 얻어진다. 따라서, 후보 RNA 압타머들의 3차원 분자구조는 SimRNA와 RNAComposer를 통해 예측하였다. 일부 구조적 정보가 알려진 표적 단백질 서열의 경우 PDB에서 수집되었고 나머지는 SWISS-MODEL 파이프라인을 통해 예측되었다. 하나의 단백질 서열에 대해 여러 분자구조 모델이 존재할 수 있으므로, 해당 연구에서는 SWISS-MODEL에서 제공하는 점수를 기반으로 최대 상위 5개까지 사용하였다. Apta-MCTS generates a candidate aptamer sequence that binds to a target protein sequence and selects the top k among them. To verify the molecular structural binding affinity between the corresponding aptamer sequences and the target protein, ZDOCK was used. In order to perform the docking simulation, 3D molecular structure information of the target protein sequence and the candidate aptamer sequence is required, and the sequence information is predicted as a 3D molecular structure or obtained based on observed information. Therefore, the three-dimensional molecular structure of candidate RNA aptamers was predicted through SimRNA and RNAComposer. Some structural information was collected from the PDB for known target protein sequences and the rest was predicted through the SWISS-MODEL pipeline. Since there may be several molecular structure models for one protein sequence, in this study, up to the top five were used based on the score provided by SWISS-MODEL.

실시예 8. 공개된 압타머-단백질 쌍 및 예측된 후보 압타머 비교를 위한 도킹 시뮬레이션 평가Example 8. Docking simulation evaluation for comparison of published aptamer-protein pairs and predicted candidate aptamers

상기 표적 단백질 당 10개의 후보 압타머 서열을 생성한다. 생성된 후보 압타머 서열들의 품질을 평가하기 위해, ZDOCK 기반 분자구조 도킹 시뮬레이션을 수행하고 후보 압타머들과 표적 단백질 사이의 결합 예측 부위를 시각화하였다. 검증 절차를 수행하기 위해, 여섯 종류의 공개된 표적 단백질 및 일부 압타머의 구조적 정보들을 PDB에서 수집하였다. 압타머-단백질 복합체 5VOE의 압타머 5VOE:H만 PDB에서 수집되었고, 나머지는 압타머 서열들은 관련 선행 연구들 또는 실제 SELEX 실험을 통해 얻어졌으며, 단백질들의 정보 및 압타머 정보를 하기 표 2에 나타내었다.Ten candidate aptamer sequences are generated per the target protein. In order to evaluate the quality of the generated candidate aptamer sequences, a ZDOCK-based molecular structure docking simulation was performed and a binding site between candidate aptamers and a target protein was visualized. In order to perform the verification procedure, structural information of six types of published target proteins and some aptamers were collected from the PDB. Only the aptamer 5VOE:H of the aptamer-protein complex 5VOE was collected from the PDB, and the rest of the aptamer sequences were obtained through related prior studies or actual SELEX experiments. it was

SELEX 실험 및 PDB에서 수집된 표적 단백질 및 압타머 정보Target protein and aptamer information collected from SELEX experiments and PDB 표적 단백질target protein PDB-IDPDB-ID Aptamer-IDAptamer-ID GTPase KRasGTPases 6GOF6GOF V1,V2,V9,D1V1,V2,V9,D1 Neurogenic locus notch homolog protein 1Neurogenic locus notch homolog protein 1 3V79_13V79_1 CS1, CS2, CS3, CS4, CS5, CS6, CS7CS1, CS2, CS3, CS4, CS5, CS6, CS7 Coagulation factor X 5VOE:Coagulation factor X 5VOE: 5VOE:H5VOE:H 5VOE:A5VOE:A Endolysin, Beta-2 adrenergic receptorEndolysin, Beta-2 adrenergic receptor 3SN6_43SN6_4 A1,A2,A13A1, A2, A13 Beta-2-adrenergic receptor/T4-lysozymechimeraBeta-2-adrenergic receptor/T4-lysozymechimera 2RH1_12RH1_1 A16A16 Extracellular regulated kinase 2Extracellular regulated kinase 2 1ERK_11ERK_1 C3,C3.59C3, C3.59

Apta-MCTS로 생성된 여섯 종류의 표적 단백질에 대한 후보 압타머 서열을 3차원 분자구조로 예측 후 도킹 시뮬레이션을 수행하였다. SELEX 실험을 통해 합성된 압타머 서열 역시 같은 과정이 진행되었고, 두 압타머 서열들의 시뮬레이션 결과인 도킹 점수(docking score)를 도 6에 나타내었다. ZDOCK의 도킹 점수는 두 분자구조, 단백질 그리고 압타머의 결합 위치 및 각도에 따라 부여되므로, 시뮬레이션 결과 가장 높은 점수가 유의미하다.After predicting the candidate aptamer sequences for the six types of target proteins generated by Apta-MCTS as 3D molecular structures, docking simulations were performed. The same process was performed for the aptamer sequence synthesized through the SELEX experiment, and the docking score, which is the simulation result of the two aptamer sequences, is shown in FIG. 6 . Since the docking score of ZDOCK is given according to the binding position and angle of the two molecular structures, proteins, and aptamers, the highest score in the simulation is significant.

그리고 도킹 점수는 분자 구조의 크기에 따라 수치가 달라지기 때문에, 표적 단백질의 압타머와 같은 길이로 서열을 생성하여 결합 친화도를 평가하였다. 다른 생성 기법과 비교를 위해 Lee and Han, 2019 의 후보 압타머 서열 결과을 대조군으로 설정하여 그 값을 비교하였다. 단, Lee and Han, 2019는 후보 압타머 서열 선별 알고리즘만 사용되었으며 API 분류모델은 Apta-MCTS의 점수함수가 사용되었다. 표적 단백질 1ERK는 두 압타머 C3와 C3.59가 알려져 있다. 두 압타머는 서열의 길이가 각각 90bp 및 59bp로 서로 달라 Apta-MCTS를 사용한 서열 생성을 각각의 길이에 맞춰 수행하고 이를 별도의 항목으로 분리하였다(1ERK(C3) 및 1ERK(C3.59)). And since the docking score varies depending on the size of the molecular structure, the binding affinity was evaluated by generating a sequence with the same length as the aptamer of the target protein. For comparison with other generation techniques, the candidate aptamer sequence results of Lee and Han, 2019 were set as a control group and their values were compared. However, in Lee and Han, 2019, only the candidate aptamer sequence selection algorithm was used, and the API classification model used the Apta-MCTS score function. For the target protein 1ERK, two aptamers C3 and C3.59 are known. The two aptamers had different sequence lengths of 90 bp and 59 bp, respectively, so sequence generation using Apta-MCTS was performed according to each length and separated into separate items (1ERK (C3) and 1ERK (C3.59)).

도 6에서 확인한 바와 같이, 녹색으로 표시한 Apta-MCTS의 후보 압타머 서열이 Lee and Han, 2019 의 후보 압타머와 비교하여 전체 일곱 항목에 대하여 더 높은 도킹 점수가 나타나는 것을 확인하였다. 또한, Apta-MCTS는 회색으로 나타낸 SELEX 실험을 통해 합성된 압타머 중 다섯 항목에 대하여 더 높은 점수가 나타났다.As confirmed in FIG. 6 , it was confirmed that the candidate aptamer sequence of Apta-MCTS indicated in green showed a higher docking score for all seven items compared to the candidate aptamer of Lee and Han, 2019. In addition, Apta-MCTS showed a higher score for five of the aptamers synthesized through the SELEX experiment shown in gray.

다른 표적 단백질 및 압타머 서열의 구조적 정보는 예측값으로 수집되는 반면, 5VOE의 단백질(5VOE:H)과 압타머(5VOE:A)의 구조 정보는 PDB에서 수집할 수 있기 때문에 상기 표적 단백질 중 5VOE 단백질-압타머 복합체를 도킹 시뮬레이션 결과 관측을 위해 사용하였다. 도 7에 Apta-MCTS가 예측한 후보 압타머 서열과 5VOE:A를 5VOE:H와 도킹 시뮬레이션 후 결합 위치를 시각화하였다. 결합된 복합체 구조 데이터는 ZDOCK을 사용하여 얻어졌으며 3차원 구조 렌더링을 위해 NGL viewer가 사용되었다. Structural information of other target proteins and aptamer sequences is collected as predicted values, whereas structural information of the protein (5VOE:H) and aptamer (5VOE:A) of 5VOE can be collected from the PDB, so the 5VOE protein among the target proteins -Aptamer complex was used for the observation of the docking simulation result. In Figure 7, the candidate aptamer sequence predicted by Apta-MCTS and the binding position of 5VOE:A were visualized after docking simulation with 5VOE:H. The combined composite structure data were obtained using ZDOCK and an NGL viewer was used to render the 3D structure.

도 7A에 표적 단백질(5VOE:H)의 분자구조를 시각화하였고, 도 7B에 실제 결합 위치가 아닌 ZDOCK 도킹 시뮬레이션에 의한 위치에 결합한 압타머(5VOE:A)를 나타냈으며, 도 7C 내지 7H에서 Apta-MCTS가 생성한 후보 압타머의 도킹 시뮬레이션 결과를 나타내었다. 도 7에서 확인한 바와 같이, 본 모델에 의하여 예측된 압타머 서열은 실제 압타머인 도 7B와 비슷한 위치에 결합하는 것을 확인하였다. The molecular structure of the target protein (5VOE:H) was visualized in FIG. 7A, and the aptamer (5VOE:A) bound to the position by ZDOCK docking simulation, not the actual binding position, was shown in FIG. 7B, and Apta in FIGS. 7C to 7H -Shows the docking simulation results of candidate aptamers generated by MCTS. As confirmed in FIG. 7 , it was confirmed that the aptamer sequence predicted by this model binds to a position similar to that of FIG. 7B, which is an actual aptamer.

일반적으로 분자구조의 도킹 시뮬레이션은 두 가지 단계로 구성되는데, 첫 번째는 수용체에 대한 리간드(결합체)의 위치와 각도를 지정하는 작업이며, 두 번째는 결합 친화도를 추정하는 작업이다. 즉, 도 7와 같이 높은 도킹 점수를 기록한 후보압타머들이 실제 압타머와 유사한 위치에 결합 되는 것은 Apta-MCTS가 주어진 표적 단백질 서열 정보만으로 충분히 잠재성 있는 후보 압타머 서열을 생성하는 것임을 확인할 수 있었다.In general, the docking simulation of the molecular structure consists of two steps. The first is to designate the position and angle of the ligand (conjugate) with respect to the receptor, and the second is to estimate the binding affinity. That is, it was confirmed that the binding of candidate aptamers with high docking scores to positions similar to the actual aptamer as shown in FIG. 7 is that Apta-MCTS generates a sufficiently potential candidate aptamer sequence only with the given target protein sequence information. .

실시예 9. 압타머-단백질 상호작용 서열 쌍 기반 도킹 시뮬레이션 평가Example 9. Aptamer-protein interaction sequence pair based docking simulation evaluation

앞선 실시예에서 사용된 압타머-단백질 실험 데이터와 별개로, Lee and Han, 2019 의 압타머-단백질 상호작용 데이터 세트 중 테스트 데이터를 Apta-MCTS의 평가에 사용하였다. 해당 테스트 데이터 세트 56개 RNA 압타머-단백질 상호작용 서열 쌍의 각 단백질 서열에 대한 후보 압타머 서열을 생성하였다. 56개 서열 쌍은 32개의 서로 다른 표적 단백질 서열과 56개의 서로 다른 압타머 서열로 구성되어 있다. 이는 특정 단백질이 두 가지 이상의 압타머 서열과 상호작용함을 의미한다. 따라서 본 실시예에서 Apta-MCTS는 56개 RNA 압타머 서열과 같은 길이로 후보 압타머를 생성하였다. 각 서열 쌍마다 상위 10개의 후보 압타머 서열을 사용하며 이들을 Lee and Han, 2019 의 방법으로 생성한 상위 10개 후보 압타머 서열과 테스트 데이터 세트에 포함된 압타머들과 비교한다. 후보 서열들의 비교를 표적 단백질과의 ZDOCK 도킹 시뮬레이션 후 도킹 점수를 바탕으로 확인하였으며, 이를 산점도(scatter plot)를 통해 비교한 결과를 도 8A에 나타내었다. 각 점은 같은 표적 단백질에 대하여 생성된 두 생성모델의 동일 순위 후보 압타머를 의미한다. 또한 Apta-MCTS와 Lee and Han, 2019 그리고 알려진 압타머 서열 쌍에 대한 도킹 점수를 그래프 확인한 결과를 도 8B에 나타내었다. Apart from the aptamer-protein experimental data used in the previous example, the test data from the aptamer-protein interaction data set of Lee and Han, 2019 was used for the evaluation of Apta-MCTS. Candidate aptamer sequences were generated for each protein sequence of the 56 RNA aptamer-protein interaction sequence pairs in the corresponding test data set. The 56 sequence pairs consist of 32 different target protein sequences and 56 different aptamer sequences. This means that a specific protein interacts with two or more aptamer sequences. Therefore, in this Example, Apta-MCTS generated candidate aptamers with the same length as 56 RNA aptamer sequences. The top 10 candidate aptamer sequences are used for each sequence pair, and they are compared with the top 10 candidate aptamer sequences generated by the method of Lee and Han, 2019 and aptamers included in the test data set. Comparison of candidate sequences was confirmed based on the docking score after the ZDOCK docking simulation with the target protein, and the comparison result is shown in FIG. 8A through a scatter plot. Each dot means the same rank candidate aptamer of the two generative models generated for the same target protein. In addition, the results of confirming the docking scores for Apta-MCTS and Lee and Han, 2019 and known aptamer sequence pairs are shown in FIG. 8B .

도 8에서 확인한 바와 같이, 약 73%의 점들(대각 점선 위 녹색 점들의 수)에 대하여 Apta-MCTS가 더 높은 점수를 나타내는 것을 확인하였다. 또한 도 8B에서 확인한 결과 Apta-MCTS의 도킹 점수가 실제 압타머들보다 평균적으로 조금 더 높은 것을 확인할 수 있었다. 결과적으로 Apta-MCTS에 의하여 예측한 압타머 서열은 종전 선행기술의 모델을 통하여 예측된 모델보다 더 정확하면서 친화도까지 높은 압타머를 스크리닝 할 수 있음을 확인할 수 있었다. As confirmed in FIG. 8 , it was confirmed that Apta-MCTS showed a higher score for about 73% of the dots (the number of green dots on the diagonal dotted line). In addition, as a result of confirming in FIG. 8B, it was confirmed that the docking score of Apta-MCTS was slightly higher on average than that of the actual aptamers. As a result, it was confirmed that the aptamer sequence predicted by Apta-MCTS was more accurate than the model predicted through the prior art model, and that it was possible to screen aptamers with high affinity.

실시예 10. 길이별 후보 압타머 생성 및 평가Example 10. Generation and evaluation of candidate aptamers by length

압타머-단백질 상호작용 분류모델(API 분류모델)을 기반으로 한 생성모델 중 Lee and Han, 2019 의 방법은 고정된 서열 길이 외의 압타머를 생성할 수 없는 것으로 알려져있다. 반면 Apta-MCTS는 MCTS 기반 반복 서열 생성알고리즘을 통해 후보 압타머 서열 생성 시 길이 제한 문제를 해결하였다. 다양한 서열 길이에 대해서 얻어지는 후보 압타머의 유효성 검증을 위해 실시예 9에서 사용한 평가용 압타머-단백질 서열 쌍 데이터를 다시 사용하였다. 평가용 데이터 세트에 포함된 압타머 서열 길이의 평균은 51이며 분산은 24.79였다. 전체 56개 서열 쌍의 32개 표적 단백질에 대한 후보 압타머 서열을 30bp, 50bp, 70bp, 90bp의 길이로 각각 생성하고 기존 압타머와 도킹 점수를 비교하였다. 길이별 상위 10개 후보 압타머 중 도킹 점수가 가장 높은 서열을 평가에 사용하였다. 비교 대상인 알려진 압타머 역시 가장 높은 도킹 점수가 평가에 사용되었다. 길이별 후보 압타머 도킹 점수의 변화 및 알려진 압타머의 도킹점수를 확인한 결과를 도 9에 나타내었다. Among the generative models based on the aptamer-protein interaction classification model (API classification model), the method of Lee and Han, 2019 is known to be unable to generate aptamers other than a fixed sequence length. On the other hand, Apta-MCTS solves the length limitation problem when generating candidate aptamer sequences through an MCTS-based repeat sequence generation algorithm. For validation of candidate aptamers obtained for various sequence lengths, the aptamer-protein sequence pair data for evaluation used in Example 9 was used again. The mean length of the aptamer sequence included in the evaluation data set was 51 and the variance was 24.79. Candidate aptamer sequences for 32 target proteins of a total of 56 sequence pairs were generated in lengths of 30 bp, 50 bp, 70 bp, and 90 bp, respectively, and the docking scores were compared with the existing aptamer. The sequence with the highest docking score among the top 10 candidate aptamers by length was used for evaluation. The known aptamer as a comparator also had the highest docking score used for evaluation. The change of the candidate aptamer docking score by length and the result of confirming the docking score of the known aptamer are shown in FIG. 9 .

도 9에서 확인한 바와 같이, Apta-MCTS은 길이 90bp의 후보 압타머 서열은 총 14개 표적 단백질들에 대해서, 길이 70bp의 후보 압타머 서열은 12개 표적 단백질들에 대해서 가장 높은 점수가 나타나는 것을 확인하였다. 그리고 세 가지 단백질(angiopoetin-2, Keratinocyte growth factor 그리고 Factor X)에서는 길이 50bp의 후보 압타머 서열이 가장 높은 도킹 점수를 기록하는 것을 확인하였다. 표적 단백질마다 높은 점수를 갖는 압타머 서열의 길이가 다양하며 대부분의 경우에서 Apta-MCTS의 후보 압타머가 높은 도킹 점수가 나타나는 것을 확인할 수 있었다. 이에, Apta-MCTS 기반 후보 압타머 서열 생성 모델은 특정 길이에 편향되지 않고, 표적 단백질 별로 적합한 길이의 정확하면서 친화도까지 높은 압타머 서열을 스크리닝하는 것을 확인하였다.As confirmed in FIG. 9 , in Apta-MCTS, the candidate aptamer sequence with a length of 90 bp showed the highest score for a total of 14 target proteins, and the candidate aptamer sequence with a length of 70 bp showed the highest score for 12 target proteins. did And in the three proteins (angiopoetin-2, Keratinocyte growth factor, and Factor X), it was confirmed that the candidate aptamer sequence with a length of 50 bp recorded the highest docking score. It was confirmed that the length of the aptamer sequence having a high score for each target protein was varied, and in most cases, the candidate aptamer of Apta-MCTS had a high docking score. Accordingly, it was confirmed that the Apta-MCTS-based candidate aptamer sequence generation model was not biased to a specific length, and accurately screened an aptamer sequence having a suitable length for each target protein and having high affinity.

실시예 11. 압타머-단백질 상호작용 분류모델 평가Example 11. Aptamer-protein interaction classification model evaluation

Apta-MCTS는 MCTS 기반 반복 서열 탐색 알고리즘을 통해 서열을 생성하며, 점수함수로 압타머-단백질 상호작용 분류모델을 사용한다. 랜덤 포레스트 및 iCTF 인코딩 방법을 적용한 Apta-MCTS의 압타머-단백질 상호작용 분류모델을 Li et al., 2014 그리고 Lee and Han, 2019 의 데이터로 각각 학습시켜, 서로 다른 두 가지 모델을 평가하였다. 두 분류모델의 평가를 각 데이터 세트의 평가용 데이터를 기준으로 수행하였고, 하기 표 3과 표 4에 이의 결과를 나타내었다.Apta-MCTS generates a sequence through an MCTS-based repeat sequence search algorithm, and uses an aptamer-protein interaction classification model as a score function. The aptamer-protein interaction classification model of Apta-MCTS applied with random forest and iCTF encoding method was trained with data from Li et al., 2014 and Lee and Han, 2019, respectively, and two different models were evaluated. The evaluation of the two classification models was performed based on the evaluation data of each data set, and the results are shown in Tables 3 and 4 below.

Li et al., 2014 데이터를 사용한 API 분류모델 학습 및 평가Li et al ., 2014 Training and evaluation of API classification model using data API 분류모델 API classification model 민감도responsiveness 특이도specificity 정확도accuracy Youden’s IndexYouden’s Index MCCMCC Li et al., 2014Li et al ., 2014 0.4830.483 0.8710.871 0.7740.774 0.3540.354 0.3720.372 Zhang et al., 2016Zhang et al ., 2016 0.7380.738 0.7130.713 0.7190.719 0.4510.451 0.3980.398 RF with iCTFRF with iCTF 0.3030.303 0.9990.999 0.8260.826 0.3030.303 0.4960.496

Lee and Han, 2019 데이터를 사용한 API 분류모델 학습 및 평가Lee and Han, 2019 Training and evaluation of API classification model using data API 분류모델 API classification model 민감도responsiveness 특이도specificity 정확도accuracy Youden’s IndexYouden’s Index MCCMCC Lee and Han, 2019Lee and Han, 2019 0.7680.768 0.6610.661 0.7140.714 0.4290.429 0.4310.431 RF with iCTFRF with iCTF 0.9820.982 0.5540.554 0.7680.768 0.5360.536 0.5930.593

Li et al., 2014 의 압타머-단백질 분류모델 평가 기준을 바탕으로 비교된 상기 표 3에 의하면, Apta-MCTS에 사용된 랜덤 포레스트 및 iCTF 기반 분류모델이 특이도, 정확도, MCC 수치에서 Li et al., 2014 그리고 Zhang et al., 2016 의 모델보다 향상된 성능을 나타내는 것을 확인할 수 있었다. 또한 표 4에서 확인한 바와 같이, Lee and Han, 2019 에서 제안한 모델과 비교하여도 나머지 수치들에서 모두 향상된 성능을 보였다. According to Table 3, compared based on the evaluation criteria of the aptamer-protein classification model of Li et al ., 2014, the random forest and iCTF-based classification models used in Apta-MCTS were evaluated in specificity, accuracy, and MCC values by Li et al . al ., 2014 and Zhang et al ., 2016 showed improved performance than the model. Also, as confirmed in Table 4, compared to the model proposed by Lee and Han, 2019, all other values showed improved performance.

40: RNA-단백질 복합체 데이터
50: 컴퓨팅 장치
80: 데이터 인터페이스
90: 메모리
100: 프로세서
40: RNA-protein complex data
50: computing device
80: data interface
90: memory
100: processor

Claims (15)

컴퓨터를 이용한 시스템에서, 표적 단백질 분자와 결합하는 후보 RNA 압타머 서열을 스크리닝하는 방법으로서,
서열 학습 수단에 의하여, RNA-단백질 복합체 데이터에 기초하여 RNA 압타머-단백질 상호작용(Aptamer-Protein Interaction; API) 쌍 데이터의 특징 벡터를 구축하고, 구축된 특징 벡터를 토대로 RNA 압타머-단백질 상호작용 값을 도출하도록 랜덤 포레스트(random forest) 모델을 훈련시키는 단계; 및
서열 생성 수단에 의하여, 무작위 RNA 서열을 몬테 카를로 트리 서치(Monte-carlo tree search: MCTS)를 기반으로 구성된 반복 서열 추출 알고리즘을 적용하여 생성하고, 상기 무작위 RNA 서열과 상기 랜덤 포레스트 모델을 토대로, 상기 무작위 RNA 서열 중에서 표적 단백질 분자와 결합하는 후보 RNA 압타머를 생성하는 단계를 포함하고,
상기 서열 학습 수단에서 RNA 압타머-단백질 상호작용 쌍 데이터의 특징 벡터는
RNA 압타머-단백질 복합체를 구성하는 압타머 서열과 단백질 서열을 토대로 수집된 데이터; 및
RNA 압타머-단백질 복합체를 구성하는 RNA 압타머와 단백질 사이의 거리를 계산하여 결합 수준을 토대로 구축된 것인,
후보 RNA 압타머 서열을 스크리닝하는 방법.
A method for screening a candidate RNA aptamer sequence that binds to a target protein molecule in a computerized system, the method comprising:
By means of sequence learning, a feature vector of RNA aptamer-protein interaction (API) pair data is constructed based on RNA-protein complex data, and RNA aptamer-protein interaction based on the constructed feature vector training a random forest model to derive action values; and
By the sequence generating means, a random RNA sequence is generated by applying a repeating sequence extraction algorithm constructed based on Monte-carlo tree search (MCTS), and based on the random RNA sequence and the random forest model, generating a candidate RNA aptamer that binds to a target protein molecule from among random RNA sequences,
The characteristic vector of the RNA aptamer-protein interaction pair data in the sequence learning means is
data collected based on the aptamer sequence and protein sequence constituting the RNA aptamer-protein complex; and
It is constructed based on the level of binding by calculating the distance between the RNA aptamer and the protein constituting the RNA aptamer-protein complex,
A method of screening for candidate RNA aptamer sequences.
청구항 1에 있어서, 서열 학습 수단은 RNA 압타머의 뉴클레오타이드 서열 및 표적 단백질의 아미노산 서열을 인코딩 하는 작업을 수행하여 구축된 특징 벡터 값을 정규화 하는 단계를 더 포함하는 것인 후보 RNA 압타머 서열을 스크리닝하는 방법.The method according to claim 1, wherein the sequence learning means screening candidate RNA aptamer sequence further comprising the step of normalizing the constructed feature vector value by performing an operation of encoding the nucleotide sequence of the RNA aptamer and the amino acid sequence of the target protein How to. 청구항 2에 있어서, 상기 표적 단백질의 아미노산 서열을 인코딩 작업은 20개의 아미노산 서열을 일곱개 그룹으로 나누어 인코딩 하는 것인 후보 RNA 압타머의 서열을 스크리닝하는 방법.The method according to claim 2, wherein the encoding operation of the amino acid sequence of the target protein divides and encodes 20 amino acid sequences into seven groups. 청구항 1에 있어서, 상기 서열 생성 수단은
후보 RNA 압타머 서열을 생성하기 위하여 몬테 카를로 트리의 각 노드는 A_, C_, G_, U_, _A, _C, _G 및 _U로 이루어진 군으로부터 선택된 압타머 뉴클레오티드 서열 중 하나를 가지는 것이며,
상기 A_, C_, G_ 및 U_는 부모노드에서 선택된 뉴클레오티드 서열의 앞에 각각 A, C, G 및 U를 추가 생성하는 것이며,
상기 _A, _C, _G 및 _U는 부모노드에서 선택된 뉴클레오티드 서열의 뒤에 각각 A, C, G 및 U를 추가 생성하는 것인 후보 RNA 압타머의 서열을 스크리닝하는 방법.
The method according to claim 1, wherein the means for generating the sequence
In order to generate a candidate RNA aptamer sequence, each node of the Monte Carlo tree has one of the aptamer nucleotide sequences selected from the group consisting of A_, C_, G_, U_, _A, _C, _G and _U,
Wherein A_, C_, G_ and U_ are to add A, C, G and U in front of the nucleotide sequence selected in the parent node, respectively,
Wherein _A, _C, _G and _U are A, C, G, and U, respectively, after the nucleotide sequence selected in the parent node. The method for screening the sequence of a candidate RNA aptamer.
청구항 1에 있어서, 서열 생성 수단은 길이가 N인 RNA 압타머 서열을 생성하기 위하여 깊이가 N인 몬테 카를로 트리를 가지는 것인 후보 RNA 압타머의 서열을 스크리닝하는 방법.The method according to claim 1, wherein the sequence generating means has a Monte Carlo tree of depth N to generate an RNA aptamer sequence of length N. 청구항 1에 있어서, 반복 서열 추출 알고리즘은 하기의 단계를 포함하는 것인 후보 RNA 압타머의 서열을 스크리닝하는 방법:
몬테 카를로 트리 탐색트리의 루트노드(root nod) UCT(Upper Confidence bounds applied to Trees) 점수가 가장 큰 노드를 따라 이동하는 선택단계;
이동 중 탐색 트리의 끝에 도달 시 자식 노드의 하나를 무작위로 생성하는 확장단계;
생성된 자식 노드에서 깊이 N인 리프 노드까지 무작위로 탐색하는 시뮬레이션 단계;
미리 선택된 RNA 압타머 후보 뉴클레오티드 서열이 있다면 상기 염기서열에 트리 탐색 경로를 토대로 생성된 압타머 후보 뉴클레오티드 서열을 추가하고, 미리 선택된 RNA 압타머 후보뉴클레오티드 서열이 없다면 트리 탐색 경로를 토대로 생성된 압타머 후보 뉴클레오티드 서열을 추가하여 RNA 압타머 서열을 생성하는 단계;
학습된 랜덤 포레스트 모델에 생성된 RNA 압타머 서열을 입력하여 RNA 압타머-단백질 상호작용 값을 계산하는 단계;
상기 생성된 RNA 압타머 서열 및 계산된 RNA 압타머-단백질 상호작용 값을 저장하는 단계;
트리 경로 내 노드들의 UCT 점수를 RNA 압타머-단백질 상호작용 값을 적용하여 갱신하는 역전파 단계;
상기 선택단계 내지 역전파 단계를 반복하는 반복단계; 및
루트 노드의 자식 노드 중 UCT 점수가 높은 노드를 선택하여 후보 RNA 압타머 서열로 생성하는 종료단계를 포함하며,
상기 UCT 점수는 하기의 식으로 계산하고,
Figure pat00009

i는 노드 식별자이며, Si는 RNA 압타머-단백질 상호작용 값이며, ni는 i번째 노드에 방문한 횟수이며, Ni는 i번째 노드의 부모 노드의 방문횟수이며, C는
Figure pat00010
또는 0이다.
The method according to claim 1, wherein the repeat sequence extraction algorithm comprises the steps of:
a selection step of moving along the root node of the Monte Carlo tree search tree and the node having the highest UCT (Upper Confidence bounds applied to Trees) score;
an expansion step of randomly generating one of the child nodes when the end of the search tree is reached during movement;
A simulation step of randomly searching from the generated child node to a leaf node having a depth of N;
If there is a preselected RNA aptamer candidate nucleotide sequence, the aptamer candidate nucleotide sequence generated based on the tree search path is added to the base sequence, and if there is no preselected RNA aptamer candidate nucleotide sequence, an aptamer candidate generated based on the tree search path adding a nucleotide sequence to generate an RNA aptamer sequence;
calculating the RNA aptamer-protein interaction value by inputting the generated RNA aptamer sequence to the learned random forest model;
storing the generated RNA aptamer sequence and the calculated RNA aptamer-protein interaction value;
Back propagation step of updating the UCT score of the nodes in the tree path by applying the RNA aptamer-protein interaction value;
a repeating step of repeating the selection step to the back propagation step; and
a termination step of selecting a node with a high UCT score among child nodes of the root node and generating a candidate RNA aptamer sequence,
The UCT score is calculated by the following formula,
Figure pat00009

i is the node identifier, S i is the RNA aptamer-protein interaction value, n i is the number of visits to the i-th node, N i is the number of visits to the parent node of the i-th node, and C is
Figure pat00010
or 0.
청구항 5에 있어서, N은 30 내지 100인 것인 후보 RNA 압타머의 서열을 스크리닝하는 방법.The method of claim 5, wherein N is 30 to 100. The method for screening the sequence of a candidate RNA aptamer. 청구항 1 내지 7 중 어느 한 항의 방법을 실행시키기 위한 프로그램이 기록되어 있는 컴퓨터에서 판독 가능한 기록 매체.A computer-readable recording medium in which a program for executing the method of any one of claims 1 to 7 is recorded. RNA-단백질 복합체 데이터에 기초하여 RNA 압타머-단백질 상호작용(Aptamer-Protein Interaction; API) 쌍 데이터의 특징 벡터를 구축하고, 구축된 특징 벡터를 토대로 RNA압타머-단백질 상호작용 값을 도출하도록 랜덤 포레스트 모델을 훈련시키는 서열 학습부; 및
무작위 RNA 서열을 몬테 카를로 트리 서치(Monte-carlo tree search: MCTS)를 기반으로 구성된 반복 서열 추출 알고리즘을 적용하여 생성하고, 상기 무작위 RNA 서열과 상기 랜덤 포레스트 모델을 토대로, 상기 무작위 RNA 서열 중에서 표적 단백질 분자와 결합하는 후보 RNA 압타머를 생성하는 서열 생성부를 포함하고,
상기 서열 학습부에서 RNA 압타머-단백질 상호작용 쌍 데이터의 특징 벡터는
RNA 압타머-단백질 복합체를 구성하는 압타머 서열과 단백질 서열을 토대로 수집된 데이터; 및
RNA 압타머-단백질 복합체를 구성하는 RNA 압타머와 단백질 사이의 거리를 계산하여 결합 수준을 토대로 구축된 것인, 표적 단백질 분자와 결합하는 후보 RNA 압타머 서열 스크리닝 장치.
Random to construct a feature vector of RNA aptamer-protein interaction (API) pair data based on RNA-protein complex data, and derive RNA aptamer-protein interaction values based on the constructed feature vector a sequence learning unit for training the forest model; and
A random RNA sequence is generated by applying a repetitive sequence extraction algorithm constructed based on Monte-carlo tree search (MCTS), and based on the random RNA sequence and the random forest model, a target protein among the random RNA sequences and a sequence generator that generates a candidate RNA aptamer that binds to the molecule;
The characteristic vector of the RNA aptamer-protein interaction pair data in the sequence learning unit is
data collected based on the aptamer sequence and protein sequence constituting the RNA aptamer-protein complex; and
A candidate RNA aptamer sequence screening device that binds to a target protein molecule, which is constructed based on the level of binding by calculating the distance between the RNA aptamer and the protein constituting the RNA aptamer-protein complex.
청구항 9에 있어서, 서열 학습부는
RNA 압타머의 뉴클레오티오 서열; 및 표적 단백질의 아미노산 서열;을 인코딩 하는 작업을 수행하여 구축된 특징 벡터 값을 정규화하는 계산부를 더 포함하는 것인 후보 RNA 압타머 서열 스크리닝 장치.
The method according to claim 9, The sequence learning unit
the nucleothio sequence of the RNA aptamer; And the amino acid sequence of the target protein; Candidate RNA aptamer sequence screening device further comprising a calculation unit for normalizing the value of the feature vector constructed by performing the encoding operation.
청구항 10에 있어서, 상기 계산부는 표적 단백질의 아미노산 서열을 인코딩 작업을 20개의 아미노산 서열을 일곱개 그룹으로 나누어 인코딩 하는 것인 후보 RNA 압타머 서열 스크리닝 장치.The apparatus of claim 10, wherein the calculation unit encodes the amino acid sequence of the target protein by dividing 20 amino acid sequences into seven groups. 청구항 9에 있어서, 상기 서열 생성부는
후보 RNA 압타머 서열을 생성하기 위하여 몬테 카를로 트리의 각 노드는 A_, C_, G_, U_, _A, _C, _G 및 _U로 이루어진 군으로부터 선택된 압타머 뉴클레오티드 서열 중 하나를 가지는 것이며,
상기 A_, C_, G_ 및 U_는 부모노드에서 선택된 뉴클레오티드 서열의 앞에 각각 A, C, G 및 U를 추가 생성하는 것이며,
상기 _A, _C, _G 및 _U는 부모노드에서 선택된 뉴클레오티드 서열의 뒤에 각각 A, C, G 및 U를 추가 생성하는 것인 후보 RNA 압타머 서열 스크리닝 장치.
The method according to claim 9, wherein the sequence generating unit
In order to generate a candidate RNA aptamer sequence, each node of the Monte Carlo tree has one of the aptamer nucleotide sequences selected from the group consisting of A_, C_, G_, U_, _A, _C, _G and _U,
Wherein A_, C_, G_ and U_ are to add A, C, G and U in front of the nucleotide sequence selected in the parent node, respectively,
Wherein _A, _C, _G and _U are candidate RNA aptamer sequence screening apparatus that additionally generates A, C, G and U after the nucleotide sequence selected in the parent node, respectively.
청구항 1에 있어서, 상기 서열 생성부는 길이가 N인 RNA 압타머 서열을 생성하기 위하여 깊이가 N인 몬테 카를로 트리를 가지는 것인 후보 RNA 압타머 서열 스크리닝 장치.The apparatus of claim 1, wherein the sequence generator has a Monte Carlo tree having a depth of N to generate an RNA aptamer sequence having a length of N. 청구항 1에 있어서, 서열 생성부는 하기의 단계를 수행하는 반복 서열 추출 알고리즘이 적용된 것인, 후보 RNA 압타머 서열 스크리닝 장치:
몬테 카를로 트리 탐색트리의 루트노드(root nod) UCT(Upper Confidence bounds applied to Trees) 점수가 가장 큰 노드를 따라 이동하는 선택단계;
이동 중 탐색 트리의 끝에 도달 시 자식 노드의 하나를 무작위로 생성하는 확장단계;
생성된 자식 노드에서 깊이 N인 리프 노드까지 무작위로 탐색하는 시뮬레이션 단계;
미리 선택된 RNA 압타머 후보 뉴클레오티드 서열이 있다면 상기 뉴클레오티드 서열에 트리 탐색 경로를 토대로 생성된 압타머 후보 염기서열을 추가하고, 미리 선택된 RNA 압타머 후보 뉴클레오티드 서열이 없다면 트리 탐색 경로를 토대로 생성된 압타머 후보 뉴클레오티드 서열을 추가하여 RNA 압타머 서열을 생성하는 단계;
학습된 랜덤 포레스트 모델에 생성된 RNA 압타머 서열을 입력하여 RNA 압타머-단백질 상호작용 값을 계산하는 단계;
상기 생성된 RNA 압타머 서열 및 계산된 RNA 압타머-단백질 상호작용 값을 저장하는 단계;
트리 경로 내 노드들의 UCT 점수를 RNA 압타머-단백질 상호작용 값을 적용하여 갱신하는 역전파 단계;
상기 선택단계 내지 역전파 단계를 반복하는 반복단계; 및
루트 노드의 자식 노드 중 UCT 점수가 높은 노드를 선택하여 후보 RNA 압타머 서열로 생성하는 종료단계를 포함하며,
상기 UCT 점수는 하기의 식으로 계산하고,
Figure pat00011

i는 노드 식별자이며, Si는 RNA 압타머-단백질 상호작용 값이며, ni는 i번째 노드에 방문한 횟수이며, Ni는 i번째 노드의 부모 노드의 방문횟수이며, C는
Figure pat00012
또는 0이다.
The method according to claim 1, Candidate RNA aptamer sequence screening apparatus to which the sequence generator is applied with a repetitive sequence extraction algorithm performing the following steps:
a selection step of moving along the root node of the Monte Carlo tree search tree and the node having the highest UCT (Upper Confidence bounds applied to Trees) score;
an expansion step of randomly generating one of the child nodes when the end of the search tree is reached during movement;
A simulation step of randomly searching from the generated child node to a leaf node having a depth of N;
If there is a preselected RNA aptamer candidate nucleotide sequence, an aptamer candidate base sequence generated based on the tree search path is added to the nucleotide sequence, and if there is no preselected RNA aptamer candidate nucleotide sequence, an aptamer candidate generated based on the tree search path adding a nucleotide sequence to generate an RNA aptamer sequence;
calculating the RNA aptamer-protein interaction value by inputting the generated RNA aptamer sequence to the learned random forest model;
storing the generated RNA aptamer sequence and the calculated RNA aptamer-protein interaction value;
Back propagation step of updating the UCT score of the nodes in the tree path by applying the RNA aptamer-protein interaction value;
a repeating step of repeating the selection step to the back propagation step; and
a termination step of selecting a node with a high UCT score among child nodes of the root node and generating a candidate RNA aptamer sequence,
The UCT score is calculated by the following formula,
Figure pat00011

i is the node identifier, S i is the RNA aptamer-protein interaction value, n i is the number of visits to the i-th node, N i is the number of visits to the parent node of the i-th node, and C is
Figure pat00012
or 0.
청구항 9에 있어서, N은 30 내지 100인 것인 후보 RNA 압타머 서열 스크리닝 장치.

The method according to claim 9, N is 30 to 100 candidate RNA aptamer sequence screening device.

KR1020210176118A 2020-12-11 2021-12-09 Method and appartus for screening RNA aptamer using Monte Carlo tree search approach KR20220083620A (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20200173580 2020-12-11
KR1020200173580 2020-12-11

Publications (1)

Publication Number Publication Date
KR20220083620A true KR20220083620A (en) 2022-06-20

Family

ID=82250178

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210176118A KR20220083620A (en) 2020-12-11 2021-12-09 Method and appartus for screening RNA aptamer using Monte Carlo tree search approach

Country Status (1)

Country Link
KR (1) KR20220083620A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116825199A (en) * 2023-02-21 2023-09-29 王全军 Method and system for screening siRNA sequence to reduce off-target effect

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
BMC Bioinformatics volume 17, Article number: 225 (2016) (Zhang et al., 2016)
IEEE/ACM Transactions on Computational Biology and Bioinformatics, Sept.-Oct. 2020, pp. 1476-1482, vol. 17 (Lee and Han, 2019)
PLoS One, 9(1), e86729, 2014 (Li et al., 2014)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116825199A (en) * 2023-02-21 2023-09-29 王全军 Method and system for screening siRNA sequence to reduce off-target effect

Similar Documents

Publication Publication Date Title
Schmiedel et al. Determining protein structures using deep mutagenesis
Zhang et al. ASTRAL-III: increased scalability and impacts of contracting low support branches
Hacker et al. Features of genomic organization in a nucleotide-resolution molecular model of the Escherichia coli chromosome
Zakov et al. An algorithmic approach for breakage-fusion-bridge detection in tumor genomes
US11398297B2 (en) Systems and methods for using machine learning and DNA sequencing to extract latent information for DNA, RNA and protein sequences
Kinz-Thompson et al. Precisely and accurately inferring single-molecule rate constants
Sun et al. Computational tools for aptamer identification and optimization
Ahmed et al. Prediction of polyadenylation signals in human DNA sequences using nucleotide frequencies
Shen et al. MAGUS+ eHMMs: improved multiple sequence alignment accuracy for fragmentary sequences
KR20220083620A (en) Method and appartus for screening RNA aptamer using Monte Carlo tree search approach
Chen et al. Integration of spatial and single-cell data across modalities with weakly linked features
Sahraeian et al. PicXAA-R: efficient structural alignment of multiple RNA sequences using a greedy approach
Yin et al. MIXnorm: normalizing RNA-seq data from formalin-fixed paraffin-embedded samples
US20220344006A1 (en) Computer implemented method to optimize physical-chemical properties of biological sequences
CN111048145B (en) Method, apparatus, device and storage medium for generating protein prediction model
CN116631499A (en) Method for generating aptamer based on conditional discrete diffusion model
Wang et al. MRPGA: motif detecting by modified random projection strategy and genetic algorithm
Mazzanti et al. Biasing RNA coarse-grained folding simulations with small-angle X-ray scattering data
KR102171681B1 (en) Computer readable media recording program of consructing potential rna aptamers bining to target protein using machine learning algorithms and process of constructing potential rna aptamers
Dib et al. Coev-web: a web platform designed to simulate and evaluate coevolving positions along a phylogenetic tree
Pinfield et al. Anomalous small angle X-ray scattering simulations: Proof of concept for distance measurements for nanoparticle-labelled biomacromolecules in solution
Horesh et al. RNAspa: a shortest path approach for comparative prediction of the secondary structure of ncRNA molecules
Binet et al. Comparative Study of Single-stranded Oligonucleotides Secondary Structure Prediction Tools
Ninio et al. Phylogeny reconstruction: increasing the accuracy of pairwise distance estimation using Bayesian inference of evolutionary rates
Golabi et al. Development of a new sequential block finding strategy for detection of conserved sequences in riboswitches