KR100537636B1 - 유사서열 추출을 통한 전사인자 결합부위 예측 장치 및 그방법 - Google Patents

유사서열 추출을 통한 전사인자 결합부위 예측 장치 및 그방법 Download PDF

Info

Publication number
KR100537636B1
KR100537636B1 KR10-2003-0097044A KR20030097044A KR100537636B1 KR 100537636 B1 KR100537636 B1 KR 100537636B1 KR 20030097044 A KR20030097044 A KR 20030097044A KR 100537636 B1 KR100537636 B1 KR 100537636B1
Authority
KR
South Korea
Prior art keywords
sequence
transcription factor
factor binding
binding site
sequences
Prior art date
Application number
KR10-2003-0097044A
Other languages
English (en)
Other versions
KR20050065884A (ko
Inventor
임명은
심정섭
정명근
박선희
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR10-2003-0097044A priority Critical patent/KR100537636B1/ko
Publication of KR20050065884A publication Critical patent/KR20050065884A/ko
Application granted granted Critical
Publication of KR100537636B1 publication Critical patent/KR100537636B1/ko

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Wood Science & Technology (AREA)
  • Biomedical Technology (AREA)
  • Organic Chemistry (AREA)
  • Biotechnology (AREA)
  • General Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Zoology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Microbiology (AREA)
  • Plant Pathology (AREA)
  • Molecular Biology (AREA)
  • Biochemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

본 발명은 유사서열 추출을 통한 전사인자 결합부위 예측 장치 및 그 방법에 관한 것으로, 특히 입력 서열에 대한 전처리 후 접미사 배열을 구성하고 생성된 접미사 배열에 대한 LCP 정보에 의해 여러 서열에서 공통으로 존재하는 서열을 추출하여 국부 정렬 기법을 이용하여 전사인자 결합부위 후보 서열들을 추출함으로써, 전사인자 결합부위 예측에 따른 시간과 비용을 효율적으로 줄일 수 있는 유사서열 추출을 통한 전사인자 결합부위 예측 장치 및 그 방법에 관한 것이다.
본 발명의 유사서열 추출을 통한 전사인자 결합부위 예측 장치는, 입력된 서열들을 전처리, 접미사 배열 생성 및 국부 정렬하여 대상 서열에서 예측된 전사인자 결합부위들을 출력하기 위한 전사인자 결합부위 예측기; 및 상기 전사인자 결합부위 예측기로부터 출력된 전사인자 결합부위 서열들을 저장하기 위한 결합부위 데이터베이스를 포함하여 이루어진다.

Description

유사서열 추출을 통한 전사인자 결합부위 예측 장치 및 그 방법{Apparatus for predicting transcription factor binding sites based on similar sequences and method thereof}
본 발명은 유사서열 추출을 통한 전사인자 결합부위 예측 장치 및 그 방법에 관한 것으로, 특히 입력 서열에 대한 전처리 후 접미사 배열을 구성하고 생성된 접미사 배열에 대한 LCP 정보에 의해 여러 서열에서 공통으로 존재하는 서열을 추출하여 국부 정렬 기법을 이용하여 전사인자 결합부위 후보 서열들을 추출함으로써, 전사인자 결합부위 예측에 따른 시간과 비용을 효율적으로 줄일 수 있는 유사서열 추출을 통한 전사인자 결합부위 예측 장치 및 그 방법에 관한 것이다.
최근에는, 인간 게놈 프로젝트 수행 이후 유전체의 서열이 밝혀지면서 유전자 발현에 관여하는 전사조절인자 관련 분야에 대한 관심이 증대되고 있다. 전사조절에 대한 연구를 통해 유전자의 위치와 기능을 상세히 분석하고, 생체 조건에 따라 유전자의 발현 정도를 살펴봄으로써, 유전자의 다양한 발현 가능성에 대한 연구를 진행할 수 있다. 상기 전사인자 결합부위에 대한 연구는 이미 완료된 인간 염색체 지도와 대용량 실험인 DNA칩에서 얻어진 발현정보들과 더불어 유전자 기능 예측을 위해 매우 중요한 연구 분야이다.
이러한 중요성에도 불구하고, 전사인자의 결합부위가 유전자에 비해 상대적으로 짧고 위치가 일정하지 않기 때문에, 실험실에서의 전사인자 결합부위 예측은 시간과 비용이 많이 소요되며 알려지지 않은 부위에 대한 예측이 어려운 문제점이 있었다.
이를 보완하기 위해 in silico 상에서 다양한 접근이 진행되어 왔다. 알려진 일정분야의 데이터로 수리적, 통계적 모델을 만들어서 유사성을 검색하는 'search by signal' 방법과 염기서열 클래스 전체적인 특성으로 예측하는 'search by content' 방법 등이 이에 속한다.
그러나, 전술한 종래의 생물학적 실험 및 큐레이션을 통한 방법들은 접근 방법이 매우 한정적이며, 알려지지 않은 부위에 대한 예측이 어렵다는 단점을 지닌다. 또한, 통계적 방법이나 특징 기반의 방법들은 시스템의 학습을 위해 다량의 통계적 자료를 필요로 하거나, 염기서열의 특성을 미리 인지하고 있어야 하는 등 사전에 많은 정보를 필요로 하는 문제점이 있다.
본 발명은 전술한 문제점을 해결하기 위하여 안출된 것으로서, 본 발명의 목적은 별도의 학습 과정 없이 빠른 시간 내에 결합 부위를 예측할 수 있도록 염기 서열들이 입력될 경우, 이를 전처리, 접미사 배열 생성 및 국부 정렬을 수행하여 데이터베이스에 저장할 수 있도록 구성된 유사서열 추출을 통한 전사인자 결합부위 예측 장치를 제공하는데 있다.
본 발명의 다른 목적은 입력 서열에 대한 전처리 후 접미사 배열을 구성하고 생성된 접미사 배열에 대한 LCP 정보에 의해 여러 서열에서 공통으로 존재하는 서열을 추출하여 국부 정렬 기법을 이용하여 전사인자 결합부위 후보 서열들을 추출함으로써, 전사인자 결합부위 예측에 따른 시간과 비용을 효율적으로 줄일 수 있는 유사서열 추출을 통한 전사인자 결합부위 예측 방법을 제공하는데 있다.
전술한 목적을 달성하기 위하여 본 발명의 유사서열 추출을 통한 전사인자 결합부위 예측 장치는, 입력된 서열들을 전처리, 접미사 배열 생성 및 국부 정렬하여 대상 서열에서 예측된 전사인자 결합부위들을 출력하기 위한 전사인자 결합부위 예측기; 및 상기 전사인자 결합부위 예측기로부터 출력된 전사인자 결합부위 서열들을 저장하기 위한 결합부위 데이터베이스를 포함하여 이루어진다.
전술한 구성에서, 상기 전사인자 결합부위 예측기는, 상기 입력된 서열들을 하나의 긴 서열로 연결하는 전처리를 수행하기 위한 서열 전처리부; 상기 서열 전처리부로부터 전처리된 전체 서열에 대한 접미사들을 오름차순으로 정렬하고, 상기 정렬된 결과를 배열 형태로 유지하기 위한 접미사 배열 생성처리부; 및 상기 접미사 배열 생성처리부로부터 생성된 접미사 배열의 각 항을 비교하여 LCP 배열을 생성하고, 상기 생성된 LCP 배열내의 LCP 서열들을 기설정된 길이와 비율에 따라 여과시키며, 상기 여과된 각 LCP 서열들과 전체 입력 서열들에 대한 국부 정렬을 수행한 후의 정렬 스코어를 계산하여 그 결과값에 따라 예측된 전사인자 결합부위들을 출력하기 위한 국부 정렬처리부를 포함하여 이루어짐이 바람직하다.
그리고, 유사서열 추출을 통한 전사인자 결합부위 예측방법에 있어서, (a) 입력된 서열들을 전처리 수행하는 단계; (b) 상기 전처리된 전체 서열에 대해 접미사 배열을 생성하는 단계; (c) 상기 생성된 접미사 배열의 각 항을 비교하여 LCP배열을 생성하는 단계; (d) 상기 생성된 LCP배열의 각 LCP 서열의 길이 및 비율이 기설정된 기준치이상일 경우, 국부 정렬을 이용한 근사 매칭을 수행하는 단계; 및 (e) 상기 국부 정렬된 서열들의 정렬 스코어를 계산하여 기설정된 임계치이상일 경우, 해당 서열을 전사인자 결합부위의 후보로 예측하고, 미리 마련된 데이터베이스에 저장하는 단계를 포함하여 이루어진 것을 특징으로 한다.
이하 본 발명의 바람직한 실시예를 첨부된 도면을 참조하여 상세히 설명한다. 본 실시예는 본 발명의 권리범위를 한정하는 것은 아니고, 단지 예시로 제시된 것이다.
도 1은 본 발명의 일 실시예에 따른 유사서열 추출을 통한 전사인자 결합부위 예측 장치를 나타낸 전체적인 블록 구성도이다.
도 1에 도시한 바와 같이, 본 발명에 따른 유사서열 추출을 통한 전사인자 결합부위 예측 장치는, 크게 입력 서열(100)을 전처리, 접미사 배열 생성 및 국부 정렬하여 대상 서열에서 예측된 전사인자 결합부위들을 출력하기 위한 전사인자 결합부위 예측기(200) 및 전사인자 결합부위 예측기(200)로부터 출력된 전사인자 결합부위 서열들을 저장하기 위한 결합부위 데이터베이스(300)를 포함하여 이루어진다.
전술한 구성에서, 입력 서열(100)은 전사인자 결합부위를 찾을 대상으로 동일한 전사인자 결합부위가 있을 것이라 추측되는 염기 서열들이다.
전사인자 결합부위 예측기(200)는, 상기 입력된 서열들을 하나의 긴 서열로 연결하는 전처리를 수행하기 위한 서열 전처리부(210)와; 서열 전처리부(210)로부터 전처리된 전체 서열에 대한 접미사들을 오름차순으로 정렬하고, 상기 정렬된 결과를 배열 형태로 유지하기 위한 접미사 배열 생성처리부(220)와; 접미사 배열 생성처리부(220)로부터 생성된 접미사 배열의 각 항을 비교하여 LCP 배열을 생성하고, 상기 생성된 LCP 배열내의 LCP 서열의 길이와 비율을 기설정된 기준치와 비교하여 그 결과에 따라 공통 서열을 추출하고, 상기 추출된 공통 서열과 전체 입력 서열에 대한 국부 정렬을 수행한 후, 상기 국부 정렬된 서열들의 정렬 스코어를 계산하여 그 결과값에 따라 예측된 전사인자 결합부위들을 출력하기 위한 국부 정렬처리부(230)로 구성되어 있다.
결합부위 데이터베이스(300)에 저장된 전사인자 결합부위는 추후에 미지의 서열이 입력될 경우 그 서열내의 전사인자 결합부위를 탐색하는데 이용될 수 있다.
이하에는 전술한 구성을 가지는 본 발명의 유사서열 추출을 통한 전사인자 결합부위 예측 방법에 대해서 상세하게 설명한다.
도 2는 본 발명의 일 실시예에 따른 유사서열 추출을 통한 전사인자 결합부위 예측 방법을 설명하기 위한 전체적인 흐름도이다.
도 2에 도시한 바와 같이, 먼저 단계S100에서는 입력된 서열들을 하나의 긴 서열로 연결하는 전처리 작업을 수행한다. 즉, 상기 전처리 작업은 후술하는 접미사 배열이 단일 서열 내에 존재하는 패턴을 찾기 위한 자료구조이기 때문에, 여러 서열 내에 존재하는 공통된 패턴을 찾기 위해서 필요한 작업이다.
한편, 상기 연결된 서열과 서열사이에 아스키(ASCII) 문자들로 구성된 특수문자(예컨대, #1, #2,…, #n, 도 3참조)를 삽입한다. 여기서, 상기 특수문자는 상기 연결된 서열 내에서 발견된 패턴이 속하는 입력 서열의 위치를 구분하여 각 패턴이 나타난 서열들의 빈도를 식별하는 역할을 수행한다.
다음, 단계S200에서는 상기 전처리된 전체 서열에 대해 접미사 배열을 생성하는 작업을 수행한다. 여기서, 상기 접미사 배열은 연결된 전체 서열에 대한 접미사들을 오름차순으로 정렬하여 정렬된 결과를 배열 형태로 유지한다(도 4b참조).
상기 접미사 배열이 생성되면, 단계S300으로 진행하여 상기 생성된 접미사 배열의 각 항을 비교하여 LCP 배열을 생성한다. 이때, 상기 LCP(Longest Common Prefix)는 접미사 배열의 특정 구간 내에 존재하는 공통이 되는 가장 긴 접두사로 공통 패턴 발견을 위해 서열들을 비교하는 목적으로 활용된다. 따라서, 본 발명의 일실시예에 따른 LCP는 접미사 배열의 인접한 두 항목의 최장 공통 접두사를 의미하는 것으로 한정한다.
상기 LCP 배열이 생성되면, 각 LCP 서열의 길이와 LCP가 출현한 입력 서열들의 번호를 찾을 수 있다. 이러한 두 인자는 LCP 서열이 결합부위 후보가 되기 위한 가능성이 있는지를 검증하기 위한 인자로 활용된다.
다음, 단계S400에서는 상기 생성된 LCP 배열의 각 LCP 서열의 길이가 기설정된 기준길이(이하,“LEN”라 정의함) 이상인가를 판단하여 이상이 아니면 그대로 종료시키고, 그렇지 않고 각 LCP 서열의 길이가 LEN 이상일 경우에는 단계S500으로 진행하여 상기 생성된 LCP 배열의 각 LCP 서열의 비율이 기설정된 기준비율(이하,“RTO”라 정의함) 이상인가를 판단한다.
여기서, 상기 서열의 길이를 평가인자로 정한 것은 일반적인 결합부위의 길이가 20bp 미만이므로 이를 반영하기 위함이며, 상기 입력 서열들에 대한 출현 비율을 정한 것은 반복되는 패턴이 입력 서열들에서 많이 나타날수록 가능성이 높을 것임을 반영하기 위함이다.
본 발명의 검증을 위해 RTO와 LEN을 변화시켜가며 실험하였고, 그 실험 결과는 다음과 같은 표 1을 얻을 수 있다.
Positive probability value(PPV)
bp % 100 95 90 85 80 75 70 65 60 55
4 30.9 30.9 30.0 35.3 29.4 29.6 30.0 30.2 27.5 27.6
5 18.2 18.2 14.6 17.5 13.0 16.9 7.6 18.1 15.9 16.7
6 0 0 0 0 15.2 14.3 13.3 13.3 10.9 12.1
7 0 0 0 0 25.0 25.0 25.0 25.0 10.4 10.0
8 0 0 0 0 0 0 0 0 8.6 8.2
9 0 0 0 0 0 0 0 0 7.3 7.3
여기서, 전사인자 결합부위 예측 결과를 검증하기 위해서, 예측 되어진 결과에서 실제로 올바른 예측 비율을 나타내는 Positive probability value(PPV)를 계산하여 얻었다(, TP: True positive, FP: False positive).
실제로 추정된 전사인자 결합부위의 길이 LEN이 4bp 이상이면서 RTO가 85% 이상인 경우에서도 30% 이상의 PPV 값을 나타내고 있다. 그러나, LEN을 4bp로 설정항 경우, FP(false positive)의 증가로 인해 실제 실험을 통한 검증이 매우 어려워진다. 프로그램을 수행하여 분석해 본 결과 LEN은 5~7bp 일 경우에 의미 있는 성능을 보였고, RTO는 65 ~ 85%일 경우 적절한 성능을 보이는 것으로 판명되었다.
그러나, 대상 종류에 따라 인자의 최적화된 값을 변경될 여지가 있으며, 입력 데이터 별로 다양한 테스트를 통해 최적화된 인자값을 결정할 수 있을 것이다.
한편, 상기 단계S500에서의 판단 결과, 상기 생성된 LCP배열의 각 LCP 서열의 비율이 기설정된 RTO 이상이 아니면 그대로 종료시키고, 그렇지 않고 상기 생성된 LCP 배열의 각 LCP 서열의 비율이 기설정된 RTO 이상일 경우에는 단계S600으로 진행하여 국부 정렬을 이용한 근사 매칭(approximate matching) 기법을 수행한다.
즉, 상기 근사 매칭 기법에서는 여과된 각 LCP 서열들과 전체 입력 서열들에 대한 국부 정렬을 수행하는데, 이는 서열 내 염기의 삽입, 삭제 등에 의해 일어날 수 있는 손실에 의해 발견되지 않은 서열에 대해 국부 정렬을 이용하여 근사 매칭을 수행하여 발견 확률을 높이고자 하는 것이다.
다음, 단계S700에서는 상기 국부 정렬된 서열들의 정렬 스코어를 계산하여 기설정된 임계치(threshold) 이상인가를 판단하여 이상이 아니면 그대로 종료시키고, 그렇지 않고 상기 국부 정렬된 서열들의 정렬 스코어를 계산하여 기설정된 임계치 이상일 경우에는 단계S800으로 진행하여 해당 서열을 전사인자 결합부위의 후보로 예측하고, 예측 결과 각 입력 서열별로 존재할 가능성이 높은 결합부위들이 열거되며 추후에 사용하기 위해 결합부위 데이터베이스(300)에 저장한다.
도 3은 본 발명의 일 실시예에 따른 유사서열 추출을 통한 전사인자 결합부위 예측 방법을 전체적으로 설명하기 위한 도면이다.
도 3에 도시한 바와 같이, 입력 서열은 n개의 염기 서열들(A)로써, 이 서열들 내에는 공통의 전사인자 결합부위가 존재하리라고 생각되는 서열들이다. 입력서열들을 전처리 후 연결하면 하나의 긴 서열이 생성된다(B). 각 서열에 대해 특수문자가 삽입되므로 총 n개의 특수문자가 삽입된다.
상기 연결된 서열에 대해 접미사 배열을 생성하면, (C)과 같은 형태의 배열이 생성된다. (C)에서는 전체 배열 중 'AGCTC'라는 공통 접두사를 가지는 서열들에 대한 예를 보인다. 접두사들이 포함된 서열은 특수문자에 의해 어떤 입력 서열에 속하는지 알 수 있다. 즉, 본 도면에서는 입력 서열 번호를 (C)의 오른쪽에 나타내었다. 배열에서 인접한 접두사들을 비교하여 (D)와 같은 LCP 들을 얻을 수 있다.
(C)예의 경우 'AGCTCG'와 'AGCTC' 등이 얻어진다. 그 후 생성된 LCP들에 대해 이들의 길이와 전체 입력 서열에 나타난 빈도수를 얻어 미리 지정된 인자 LEN, RTO와 비교하여(E) 조건을 만족할 경우 국부 정렬을 실행한다.
(F)의 예는 조건을 만족하는 LCP들 중 'AGCTC'에 대한 국부 정렬을 수행하는 모습이다. 여과된 각 LCP들을 대상으로 각각 전체 입력 서열들과의 국부 정렬을 실행한다. 정렬 결과 스코어 값이 임계치 이상일 경우(G) 해당 부분을 결합부위 후보로 선택한다. (H)에서는 LCP 'AGCTC'에 대한 국부 정렬을 수행한 결과 예측된 결합부위 후보들이 굵은 글씨로 표현되었다. 'AGCTC' 이외에 'AGCC', 'AACTC' 등이 발견된 것을 볼 수 있다. 여러 개의 입력 서열로부터 여러 개의 결합부위 서열이 예측될 수 있으며 이들은 결합부위 데이터베이스(300)에 저장된다.
도 4a 및 도4b는 본 발명의 일 실시예에 따른 유사서열 추출을 통한 전사인자 결합부위 예측 방법 중 접미사 배열 생성 과정을 설명하기 위한 도면으로서, 도 4a는 본 발명에 적용된 접미사 배열 생성 과정을 설명하기 위한 흐름도이고, 도 4b는 본 발명에 적용된 예제 서열에 대한 접미사 배열 생성 결과를 나타낸 도면이다.
도 4a 및 도 4b에 도시한 바와 같이, 상기 단계S200에서의 접미사 배열 생성을 위한 알고리즘은 Karkkainen 과 Sanders가 2003년에 논문을 통해 소개한 알고리즘이 사용된다.
즉, 상기 알고리즘은 divide and conquer 기법을 이용하여 주어진 문자열에 대한 접미사 배열을 선형시간에 생성하는 알고리즘이다. 이전의 알고리즘이 문자열을 2 부분으로 나누어 각각에 대해 접미사 배열을 생성한 뒤 병합하는 형식인데 반해 본 발명의 알고리즘은 문자열에 mod 연산을 취하여 3부분으로 나누고 2부분에 대해 정렬을 수행한 뒤 1부분을 정렬하고 이를 병합하는 방식으로 이전의 방식에 비해 병합 단계가 매우 단순하다는 이점을 지닌다.
Karkkainen 과 Sanders의 접미사 배열 생성 과정은 도 4a에 표현되어 있으며, 먼저 (I)와 같이 입력서열이 주어지면, 서열의 각 접미사들에 위치를 3으로 나눈 나머지(mod 3 연산 결과)가 2와 0인 위치들에 대해 염기를 세 개씩 묶어서 새로운 서열을 만든다(J). 마지막 부분이 3의 배수가 아닌 경우, 임의 기호 '0'을 수에 맞게 입력한 후 연산을 취한다. 이 기호는 연산에 어떠한 영향도 미치지 않는다. 이렇게 묶인 서열들에 대해 사전 순서대로 정렬하여 번호를 부여한다(K).
동일한 서열은 같은 번호를 부여하며, 정렬된 서열 내에서 모두 고유한 번호를 가질 때까지 정렬을 반복한다. 고유한 번호를 갖는 배열이 완성된 결과는 (L)과 같다. Mod 3 연산 결과가 0, 2인 위치의 접미사들은 (L)을 통해 쉽게 정렬된다.
다음으로 mod 3 연산 결과가 1인 위치의 접미사들을 정렬한다(M). 이는 mod 3 연산 결과가 1인 위치는 mod 3 연산 결과가 2인 위치의 바로 앞이라는 점을 이용하여 쉽게 구할 수 있다. 이제 두 정렬된 배열을 하나로 병합하는 과정을 거치면 전체 접미사 배열을 구할 수 있다(N). (I)에 주어진 서열에 대해 본 알고리즘으로 접미사 배열을 생성한 결과는 도 4b와 같다.
도 5는 본 발명의 일 실시예에 따른 유사서열 추출을 통한 전사인자 결합부위 예측 방법 중 근사 매칭을 위한 국부 정렬을 나타낸 개념도이다.
도 5에 도시한 바와 같이, 상기 단계S600에서의 국부 정렬은 두 서열 내부에 존재하는 부분 서열의 상동성을 검사하기 위해 사용하는 정렬 방법으로 동적 프로그래밍 기법을 이용한 매트릭스 상에서 스코어에 대해 임계치 혹은 최대값을 기준으로 생성된 자취를 역으로 되짚어가면서 상동성을 검색하는 기법을 말한다. 본 발명에서는 기본적으로 널리 사용되는 Smith Waterman 알고리즘을 이용하였다.
패턴 발견을 위해 단순 매칭 방법만을 적용할 경우 삽입, 삭제 등이 일어난 경우에 대해 정확한 예측을 할 수 없다. 6개의 입력 서열에서 (O) 서열이 결합부위로 예측되었으나 실제 결합부위의 경우 이 서열에 삽입, 삭제가 일어나 반드시 이 서열과 동일하지 않을 수 있다. 만약, (P) 서열이 결합부위 서열일 경우 단순 매칭에 의한 방법은 무의미한 예측 결과를 산출하게 되는 것이다.
(O) 서열과 입력 서열들에 대해 국부 정렬을 수행하여 상동성이 높은 (P)서열을 결합부위로 예측할 수 있도록 하는 것이 근사 매칭 방법을 이용하여 얻을 수 있는 효과이다.
전술한 본 발명에 따른 유사서열 추출을 통한 전사인자 결합부위 예측 장치 및 그 방법에 대한 바람직한 실시예에 대하여 설명하였지만, 본 발명은 이에 한정되는 것이 아니고 특허청구범위와 발명의 상세한 설명 및 첨부한 도면의 범위 안에서 여러 가지로 변형하여 실시하는 것이 가능하고 이 또한 본 발명에 속한다.
이상에서 설명한 바와 같은 본 발명의 유사서열 추출을 통한 전사인자 결합부위 예측 장치 및 그 방법에 따르면, 입력 서열에 대한 전처리 후 접미사 배열을 구성하고 생성된 접미사 배열에 대한 LCP 정보에 의해 여러 서열에서 공통으로 존재하는 서열을 추출하여 국부 정렬 기법을 이용하여 전사인자 결합부위 후보 서열들을 추출함으로써, 대량의 학습 데이터로 학습단계를 거치고 학습된 내용으로 예측을 수행하는 종래의 통계기반 기법에 비해 적은 데이터를 필요로 하며 빠른 수행 결과를 얻을 수 있으며, 전사인자 결합부위 예측에 따른 시간과 비용을 효율적으로 줄일 수 있는 이점이 있다.
또한, 본 발명에 의해 예측된 결합 부위 서열들은 전사인자 별로 데이터베이스를 구축함으로써, 후에 알려지지 않은 서열에 대한 결합부위를 예측할 필요가 있을 경우에 유용하게 사용될 수 있는 이점이 있다.
도 1은 본 발명의 일 실시예에 따른 유사서열 추출을 통한 전사인자 결합부위 예측 장치를 나타낸 전체적인 블록 구성도,
도 2는 본 발명의 일 실시예에 따른 유사서열 추출을 통한 전사인자 결합부위 예측 방법을 설명하기 위한 전체적인 흐름도,
도 3은 본 발명의 일 실시예에 따른 유사서열 추출을 통한 전사인자 결합부위 예측 방법을 전체적으로 설명하기 위한 도면,
도 4a 및 도4b는 본 발명의 일 실시예에 따른 유사서열 추출을 통한 전사인자 결합부위 예측 방법 중 접미사 배열 생성 과정을 설명하기 위한 도면으로서, 도 4a는 본 발명에 적용된 접미사 배열 생성 과정을 설명하기 위한 흐름도이고, 도 4b는 본 발명에 적용된 예제 서열에 대한 접미사 배열 생성 결과를 나타낸 도면이다.
도 5는 본 발명의 일 실시예에 따른 유사서열 추출을 통한 전사인자 결합부위 예측 방법 중 근사 매칭을 위한 국부 정렬을 나타낸 개념도이다.
*** 도면의 주요 부분에 대한 부호 설명 ***
100 : 입력 서열, 200 : 전사인자 결합부위 예측기,
210 : 서열 전처리부, 220 : 접미사 배열 생성처리부,
230 : 국부 정렬처리부, 300 : 결합부위 데이터베이스(DB)

Claims (3)

  1. 입력된 서열들을 전처리, 접미사 배열 생성 및 국부 정렬하여 대상 서열에서 예측된 전사인자 결합부위들을 출력하기 위한 전사인자 결합부위 예측기; 및
    상기 전사인자 결합부위 예측기로부터 출력된 전사인자 결합부위 서열들을 저장하기 위한 결합부위 데이터베이스로 이루어진, 유사서열 추출을 통한 전사인자 결합부위 예측 장치.
  2. 제 1항에 있어서, 상기 전사인자 결합부위 예측기는,
    상기 입력된 서열들을 하나의 긴 서열로 연결하는 전처리를 수행하기 위한 서열 전처리부;
    상기 서열 전처리부로부터 전처리된 전체 서열에 대한 접미사들을 오름차순으로 정렬하고, 상기 정렬된 결과를 배열 형태로 유지하기 위한 접미사 배열 생성처리부; 및
    상기 접미사 배열 생성처리부로부터 생성된 접미사 배열의 각 항을 비교하여 최장 공통 접두사(LCP) 배열을 생성하고, 상기 생성된 최장 공통 접두사(LCP) 배열내의 최장 공통 접두사(LCP) 서열의 길이와 비율을 기설정된 기준치와 비교하여 그 결과에 따라 공통 서열을 추출하고, 상기 추출된 공통 서열과 전체 입력 서열에 대한 국부 정렬을 수행한 후, 상기 국부 정렬된 서열들의 정렬 스코어를 계산하여 그 결과값에 따라 예측된 전사인자 결합부위들을 출력하기 위한 국부 정렬처리부로 이루어진, 것을 특징으로 하는 유사서열 추출을 통한 전사인자 결합부위 예측 장치.
  3. 유사서열 추출을 통한 전사인자 결합부위 예측방법에 있어서,
    (a) 입력된 서열들을 전처리 수행하는 단계;
    (b) 상기 전처리된 전체 서열에 대해 접미사 배열을 생성하는 단계;
    (c) 상기 생성된 접미사 배열의 각 항을 비교하여 최장 공통 접두사(LCP) 배열을 생성하는 단계;
    (d) 상기 생성된 최장 공통 접두사(LCP) 배열의 각 최장 공통 접두사(LCP) 서열의 길이 및 비율이 기설정된 기준치이상일 경우, 국부 정렬을 이용한 근사 매칭을 수행하는 단계; 및
    (e) 상기 국부 정렬된 서열들의 정렬 스코어를 계산하여 기설정된 임계치이상일 경우, 해당 서열을 전사인자 결합부위의 후보로 예측하고, 미리 마련된 데이터베이스에 저장하는 단계를 포함하여 이루어진 것을 특징으로 하는 유사서열 추출을 통한 전사인자 결합부위 예측 방법.
KR10-2003-0097044A 2003-12-26 2003-12-26 유사서열 추출을 통한 전사인자 결합부위 예측 장치 및 그방법 KR100537636B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR10-2003-0097044A KR100537636B1 (ko) 2003-12-26 2003-12-26 유사서열 추출을 통한 전사인자 결합부위 예측 장치 및 그방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR10-2003-0097044A KR100537636B1 (ko) 2003-12-26 2003-12-26 유사서열 추출을 통한 전사인자 결합부위 예측 장치 및 그방법

Publications (2)

Publication Number Publication Date
KR20050065884A KR20050065884A (ko) 2005-06-30
KR100537636B1 true KR100537636B1 (ko) 2005-12-20

Family

ID=37257034

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2003-0097044A KR100537636B1 (ko) 2003-12-26 2003-12-26 유사서열 추출을 통한 전사인자 결합부위 예측 장치 및 그방법

Country Status (1)

Country Link
KR (1) KR100537636B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11732381B2 (en) 2020-12-15 2023-08-22 The Board Of Trustees Of The Leland Stanford Junior University Systems and methods to identify transcription factor activation domains and uses thereof

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100813008B1 (ko) * 2006-12-06 2008-03-13 한국전자통신연구원 유전자 발현 데이터와 전사인자 바인딩 정보를 이용한유전자 모듈 예측 장치 및 그 방법
CN112349349A (zh) * 2020-11-06 2021-02-09 西安奥卡云数据科技有限公司 一种基于Spark Streaming的转录因子结合位点识别发现方法及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030068617A1 (en) * 2001-04-09 2003-04-10 Jorng-Tzong Horng Method for predicting regulatory elements in repetitive sequences using transcription factor binding sites

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030068617A1 (en) * 2001-04-09 2003-04-10 Jorng-Tzong Horng Method for predicting regulatory elements in repetitive sequences using transcription factor binding sites

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Bioinformatics. 2001 Nov;17(11):1019-26 *
Bioinformatics. 2003 Oct;19 Suppl 2:II50-II56 *
In Silico Biol. 1998;1(1):21-8 *
Nucleic Acids Res. 2002 Sep 1;30(17):3809-17 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11732381B2 (en) 2020-12-15 2023-08-22 The Board Of Trustees Of The Leland Stanford Junior University Systems and methods to identify transcription factor activation domains and uses thereof

Also Published As

Publication number Publication date
KR20050065884A (ko) 2005-06-30

Similar Documents

Publication Publication Date Title
US6681186B1 (en) System and method for improving the accuracy of DNA sequencing and error probability estimation through application of a mathematical model to the analysis of electropherograms
Sakakibara et al. Stochastic context-free grammers for tRNA modeling
US8095526B2 (en) Efficient retrieval of variable-length character string data
JP3672242B2 (ja) パターン検索方法、パターン検索装置、コンピュータプログラム及び記憶媒体
US20110264377A1 (en) Method and system for analysing data sequences
US20140188396A1 (en) Oligomer sequences mapping
CN109545283B (zh) 一种基于序列模式挖掘算法的***发生树构建方法
Dotan et al. Effect of tokenization on transformers for biological sequences
KR100537636B1 (ko) 유사서열 추출을 통한 전사인자 결합부위 예측 장치 및 그방법
CN107563148B (zh) 一种基于离子索引的整体蛋白质鉴定方法与***
CN103294932A (zh) 用于碱基序列分析的参考序列处理***及方法
US20040153307A1 (en) Discriminative feature selection for data sequences
Zhang et al. SMOTIF: efficient structured pattern and profile motif search
CN102841988A (zh) 一种对核酸序列信息进行匹配的***和方法
Kawulok Approximate string matching for searching DNA sequences
Kang et al. Mining frequent contiguous sequence patterns in biological sequences
JPH1040257A (ja) 文字配列比較方法、およびそれを用いたアセンブル方法
Li et al. Seeding with minimized subsequence
Psomopoulos et al. A finite state automata based technique for protein classification rules induction
CN114155910B (zh) 一种癌症体细胞突变功能影响预测方法
CN111324638B (zh) 基于AR_TSM的时间序列motif关联规则挖掘方法
JP4568861B2 (ja) 遺伝子発現プロファイル比較装置
KR102380935B1 (ko) 유전체 영역 검색 시스템 및 방법
CN112825267B (zh) 确定小核酸序列集合的方法及其应用
JP2004234297A (ja) 生物学的な配列情報処理装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20121129

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20130730

Year of fee payment: 19