KR100537636B1

KR100537636B1 - 유사서열 추출을 통한 전사인자 결합부위 예측 장치 및 그방법

Info

Publication number: KR100537636B1
Application number: KR10-2003-0097044A
Authority: KR
Inventors: 임명은; 심정섭; 정명근; 박선희
Original assignee: 한국전자통신연구원
Priority date: 2003-12-26
Filing date: 2003-12-26
Publication date: 2005-12-20
Also published as: KR20050065884A

Abstract

본 발명은 유사서열 추출을 통한 전사인자 결합부위 예측 장치 및 그 방법에 관한 것으로, 특히 입력 서열에 대한 전처리 후 접미사 배열을 구성하고 생성된 접미사 배열에 대한 LCP 정보에 의해 여러 서열에서 공통으로 존재하는 서열을 추출하여 국부 정렬 기법을 이용하여 전사인자 결합부위 후보 서열들을 추출함으로써, 전사인자 결합부위 예측에 따른 시간과 비용을 효율적으로 줄일 수 있는 유사서열 추출을 통한 전사인자 결합부위 예측 장치 및 그 방법에 관한 것이다.

본 발명의 유사서열 추출을 통한 전사인자 결합부위 예측 장치는, 입력된 서열들을 전처리, 접미사 배열 생성 및 국부 정렬하여 대상 서열에서 예측된 전사인자 결합부위들을 출력하기 위한 전사인자 결합부위 예측기; 및 상기 전사인자 결합부위 예측기로부터 출력된 전사인자 결합부위 서열들을 저장하기 위한 결합부위 데이터베이스를 포함하여 이루어진다.

Description

유사서열 추출을 통한 전사인자 결합부위 예측 장치 및 그 방법{Apparatus for predicting transcription factor binding sites based on similar sequences and method thereof}

최근에는, 인간 게놈 프로젝트 수행 이후 유전체의 서열이 밝혀지면서 유전자 발현에 관여하는 전사조절인자 관련 분야에 대한 관심이 증대되고 있다. 전사조절에 대한 연구를 통해 유전자의 위치와 기능을 상세히 분석하고, 생체 조건에 따라 유전자의 발현 정도를 살펴봄으로써, 유전자의 다양한 발현 가능성에 대한 연구를 진행할 수 있다. 상기 전사인자 결합부위에 대한 연구는 이미 완료된 인간 염색체 지도와 대용량 실험인 DNA칩에서 얻어진 발현정보들과 더불어 유전자 기능 예측을 위해 매우 중요한 연구 분야이다.

이러한 중요성에도 불구하고, 전사인자의 결합부위가 유전자에 비해 상대적으로 짧고 위치가 일정하지 않기 때문에, 실험실에서의 전사인자 결합부위 예측은 시간과 비용이 많이 소요되며 알려지지 않은 부위에 대한 예측이 어려운 문제점이 있었다.

이를 보완하기 위해 in silico 상에서 다양한 접근이 진행되어 왔다. 알려진 일정분야의 데이터로 수리적, 통계적 모델을 만들어서 유사성을 검색하는 'search by signal' 방법과 염기서열 클래스 전체적인 특성으로 예측하는 'search by content' 방법 등이 이에 속한다.

그러나, 전술한 종래의 생물학적 실험 및 큐레이션을 통한 방법들은 접근 방법이 매우 한정적이며, 알려지지 않은 부위에 대한 예측이 어렵다는 단점을 지닌다. 또한, 통계적 방법이나 특징 기반의 방법들은 시스템의 학습을 위해 다량의 통계적 자료를 필요로 하거나, 염기서열의 특성을 미리 인지하고 있어야 하는 등 사전에 많은 정보를 필요로 하는 문제점이 있다.

본 발명은 전술한 문제점을 해결하기 위하여 안출된 것으로서, 본 발명의 목적은 별도의 학습 과정 없이 빠른 시간 내에 결합 부위를 예측할 수 있도록 염기 서열들이 입력될 경우, 이를 전처리, 접미사 배열 생성 및 국부 정렬을 수행하여 데이터베이스에 저장할 수 있도록 구성된 유사서열 추출을 통한 전사인자 결합부위 예측 장치를 제공하는데 있다.

본 발명의 다른 목적은 입력 서열에 대한 전처리 후 접미사 배열을 구성하고 생성된 접미사 배열에 대한 LCP 정보에 의해 여러 서열에서 공통으로 존재하는 서열을 추출하여 국부 정렬 기법을 이용하여 전사인자 결합부위 후보 서열들을 추출함으로써, 전사인자 결합부위 예측에 따른 시간과 비용을 효율적으로 줄일 수 있는 유사서열 추출을 통한 전사인자 결합부위 예측 방법을 제공하는데 있다.

전술한 목적을 달성하기 위하여 본 발명의 유사서열 추출을 통한 전사인자 결합부위 예측 장치는, 입력된 서열들을 전처리, 접미사 배열 생성 및 국부 정렬하여 대상 서열에서 예측된 전사인자 결합부위들을 출력하기 위한 전사인자 결합부위 예측기; 및 상기 전사인자 결합부위 예측기로부터 출력된 전사인자 결합부위 서열들을 저장하기 위한 결합부위 데이터베이스를 포함하여 이루어진다.

전술한 구성에서, 상기 전사인자 결합부위 예측기는, 상기 입력된 서열들을 하나의 긴 서열로 연결하는 전처리를 수행하기 위한 서열 전처리부; 상기 서열 전처리부로부터 전처리된 전체 서열에 대한 접미사들을 오름차순으로 정렬하고, 상기 정렬된 결과를 배열 형태로 유지하기 위한 접미사 배열 생성처리부; 및 상기 접미사 배열 생성처리부로부터 생성된 접미사 배열의 각 항을 비교하여 LCP 배열을 생성하고, 상기 생성된 LCP 배열내의 LCP 서열들을 기설정된 길이와 비율에 따라 여과시키며, 상기 여과된 각 LCP 서열들과 전체 입력 서열들에 대한 국부 정렬을 수행한 후의 정렬 스코어를 계산하여 그 결과값에 따라 예측된 전사인자 결합부위들을 출력하기 위한 국부 정렬처리부를 포함하여 이루어짐이 바람직하다.

그리고, 유사서열 추출을 통한 전사인자 결합부위 예측방법에 있어서, (a) 입력된 서열들을 전처리 수행하는 단계; (b) 상기 전처리된 전체 서열에 대해 접미사 배열을 생성하는 단계; (c) 상기 생성된 접미사 배열의 각 항을 비교하여 LCP배열을 생성하는 단계; (d) 상기 생성된 LCP배열의 각 LCP 서열의 길이 및 비율이 기설정된 기준치이상일 경우, 국부 정렬을 이용한 근사 매칭을 수행하는 단계; 및 (e) 상기 국부 정렬된 서열들의 정렬 스코어를 계산하여 기설정된 임계치이상일 경우, 해당 서열을 전사인자 결합부위의 후보로 예측하고, 미리 마련된 데이터베이스에 저장하는 단계를 포함하여 이루어진 것을 특징으로 한다.

이하 본 발명의 바람직한 실시예를 첨부된 도면을 참조하여 상세히 설명한다. 본 실시예는 본 발명의 권리범위를 한정하는 것은 아니고, 단지 예시로 제시된 것이다.

도 1은 본 발명의 일 실시예에 따른 유사서열 추출을 통한 전사인자 결합부위 예측 장치를 나타낸 전체적인 블록 구성도이다.

도 1에 도시한 바와 같이, 본 발명에 따른 유사서열 추출을 통한 전사인자 결합부위 예측 장치는, 크게 입력 서열(100)을 전처리, 접미사 배열 생성 및 국부 정렬하여 대상 서열에서 예측된 전사인자 결합부위들을 출력하기 위한 전사인자 결합부위 예측기(200) 및 전사인자 결합부위 예측기(200)로부터 출력된 전사인자 결합부위 서열들을 저장하기 위한 결합부위 데이터베이스(300)를 포함하여 이루어진다.

전술한 구성에서, 입력 서열(100)은 전사인자 결합부위를 찾을 대상으로 동일한 전사인자 결합부위가 있을 것이라 추측되는 염기 서열들이다.

전사인자 결합부위 예측기(200)는, 상기 입력된 서열들을 하나의 긴 서열로 연결하는 전처리를 수행하기 위한 서열 전처리부(210)와; 서열 전처리부(210)로부터 전처리된 전체 서열에 대한 접미사들을 오름차순으로 정렬하고, 상기 정렬된 결과를 배열 형태로 유지하기 위한 접미사 배열 생성처리부(220)와; 접미사 배열 생성처리부(220)로부터 생성된 접미사 배열의 각 항을 비교하여 LCP 배열을 생성하고, 상기 생성된 LCP 배열내의 LCP 서열의 길이와 비율을 기설정된 기준치와 비교하여 그 결과에 따라 공통 서열을 추출하고, 상기 추출된 공통 서열과 전체 입력 서열에 대한 국부 정렬을 수행한 후, 상기 국부 정렬된 서열들의 정렬 스코어를 계산하여 그 결과값에 따라 예측된 전사인자 결합부위들을 출력하기 위한 국부 정렬처리부(230)로 구성되어 있다.

결합부위 데이터베이스(300)에 저장된 전사인자 결합부위는 추후에 미지의 서열이 입력될 경우 그 서열내의 전사인자 결합부위를 탐색하는데 이용될 수 있다.

이하에는 전술한 구성을 가지는 본 발명의 유사서열 추출을 통한 전사인자 결합부위 예측 방법에 대해서 상세하게 설명한다.

도 2는 본 발명의 일 실시예에 따른 유사서열 추출을 통한 전사인자 결합부위 예측 방법을 설명하기 위한 전체적인 흐름도이다.

도 2에 도시한 바와 같이, 먼저 단계S100에서는 입력된 서열들을 하나의 긴 서열로 연결하는 전처리 작업을 수행한다. 즉, 상기 전처리 작업은 후술하는 접미사 배열이 단일 서열 내에 존재하는 패턴을 찾기 위한 자료구조이기 때문에, 여러 서열 내에 존재하는 공통된 패턴을 찾기 위해서 필요한 작업이다.

한편, 상기 연결된 서열과 서열사이에 아스키(ASCII) 문자들로 구성된 특수문자(예컨대, #1, #2,…, #n, 도 3참조)를 삽입한다. 여기서, 상기 특수문자는 상기 연결된 서열 내에서 발견된 패턴이 속하는 입력 서열의 위치를 구분하여 각 패턴이 나타난 서열들의 빈도를 식별하는 역할을 수행한다.

다음, 단계S200에서는 상기 전처리된 전체 서열에 대해 접미사 배열을 생성하는 작업을 수행한다. 여기서, 상기 접미사 배열은 연결된 전체 서열에 대한 접미사들을 오름차순으로 정렬하여 정렬된 결과를 배열 형태로 유지한다(도 4b참조).

상기 접미사 배열이 생성되면, 단계S300으로 진행하여 상기 생성된 접미사 배열의 각 항을 비교하여 LCP 배열을 생성한다. 이때, 상기 LCP(Longest Common Prefix)는 접미사 배열의 특정 구간 내에 존재하는 공통이 되는 가장 긴 접두사로 공통 패턴 발견을 위해 서열들을 비교하는 목적으로 활용된다. 따라서, 본 발명의 일실시예에 따른 LCP는 접미사 배열의 인접한 두 항목의 최장 공통 접두사를 의미하는 것으로 한정한다.

상기 LCP 배열이 생성되면, 각 LCP 서열의 길이와 LCP가 출현한 입력 서열들의 번호를 찾을 수 있다. 이러한 두 인자는 LCP 서열이 결합부위 후보가 되기 위한 가능성이 있는지를 검증하기 위한 인자로 활용된다.

다음, 단계S400에서는 상기 생성된 LCP 배열의 각 LCP 서열의 길이가 기설정된 기준길이(이하,“LEN”라 정의함) 이상인가를 판단하여 이상이 아니면 그대로 종료시키고, 그렇지 않고 각 LCP 서열의 길이가 LEN 이상일 경우에는 단계S500으로 진행하여 상기 생성된 LCP 배열의 각 LCP 서열의 비율이 기설정된 기준비율(이하,“RTO”라 정의함) 이상인가를 판단한다.

여기서, 상기 서열의 길이를 평가인자로 정한 것은 일반적인 결합부위의 길이가 20bp 미만이므로 이를 반영하기 위함이며, 상기 입력 서열들에 대한 출현 비율을 정한 것은 반복되는 패턴이 입력 서열들에서 많이 나타날수록 가능성이 높을 것임을 반영하기 위함이다.

본 발명의 검증을 위해 RTO와 LEN을 변화시켜가며 실험하였고, 그 실험 결과는 다음과 같은 표 1을 얻을 수 있다.

Positive probability value(PPV)

bp %	100	95	90	85	80	75	70	65	60	55
4	30.9	30.9	30.0	35.3	29.4	29.6	30.0	30.2	27.5	27.6
5	18.2	18.2	14.6	17.5	13.0	16.9	7.6	18.1	15.9	16.7
6	0	0	0	0	15.2	14.3	13.3	13.3	10.9	12.1
7	0	0	0	0	25.0	25.0	25.0	25.0	10.4	10.0
8	0	0	0	0	0	0	0	0	8.6	8.2
9	0	0	0	0	0	0	0	0	7.3	7.3

여기서, 전사인자 결합부위 예측 결과를 검증하기 위해서, 예측 되어진 결과에서 실제로 올바른 예측 비율을 나타내는 Positive probability value(PPV)를 계산하여 얻었다(, TP: True positive, FP: False positive).

실제로 추정된 전사인자 결합부위의 길이 LEN이 4bp 이상이면서 RTO가 85% 이상인 경우에서도 30% 이상의 PPV 값을 나타내고 있다. 그러나, LEN을 4bp로 설정항 경우, FP(false positive)의 증가로 인해 실제 실험을 통한 검증이 매우 어려워진다. 프로그램을 수행하여 분석해 본 결과 LEN은 5~7bp 일 경우에 의미 있는 성능을 보였고, RTO는 65 ~ 85%일 경우 적절한 성능을 보이는 것으로 판명되었다.

그러나, 대상 종류에 따라 인자의 최적화된 값을 변경될 여지가 있으며, 입력 데이터 별로 다양한 테스트를 통해 최적화된 인자값을 결정할 수 있을 것이다.

한편, 상기 단계S500에서의 판단 결과, 상기 생성된 LCP배열의 각 LCP 서열의 비율이 기설정된 RTO 이상이 아니면 그대로 종료시키고, 그렇지 않고 상기 생성된 LCP 배열의 각 LCP 서열의 비율이 기설정된 RTO 이상일 경우에는 단계S600으로 진행하여 국부 정렬을 이용한 근사 매칭(approximate matching) 기법을 수행한다.

즉, 상기 근사 매칭 기법에서는 여과된 각 LCP 서열들과 전체 입력 서열들에 대한 국부 정렬을 수행하는데, 이는 서열 내 염기의 삽입, 삭제 등에 의해 일어날 수 있는 손실에 의해 발견되지 않은 서열에 대해 국부 정렬을 이용하여 근사 매칭을 수행하여 발견 확률을 높이고자 하는 것이다.

다음, 단계S700에서는 상기 국부 정렬된 서열들의 정렬 스코어를 계산하여 기설정된 임계치(threshold) 이상인가를 판단하여 이상이 아니면 그대로 종료시키고, 그렇지 않고 상기 국부 정렬된 서열들의 정렬 스코어를 계산하여 기설정된 임계치 이상일 경우에는 단계S800으로 진행하여 해당 서열을 전사인자 결합부위의 후보로 예측하고, 예측 결과 각 입력 서열별로 존재할 가능성이 높은 결합부위들이 열거되며 추후에 사용하기 위해 결합부위 데이터베이스(300)에 저장한다.

도 3은 본 발명의 일 실시예에 따른 유사서열 추출을 통한 전사인자 결합부위 예측 방법을 전체적으로 설명하기 위한 도면이다.

도 3에 도시한 바와 같이, 입력 서열은 n개의 염기 서열들(A)로써, 이 서열들 내에는 공통의 전사인자 결합부위가 존재하리라고 생각되는 서열들이다. 입력서열들을 전처리 후 연결하면 하나의 긴 서열이 생성된다(B). 각 서열에 대해 특수문자가 삽입되므로 총 n개의 특수문자가 삽입된다.

상기 연결된 서열에 대해 접미사 배열을 생성하면, (C)과 같은 형태의 배열이 생성된다. (C)에서는 전체 배열 중 'AGCTC'라는 공통 접두사를 가지는 서열들에 대한 예를 보인다. 접두사들이 포함된 서열은 특수문자에 의해 어떤 입력 서열에 속하는지 알 수 있다. 즉, 본 도면에서는 입력 서열 번호를 (C)의 오른쪽에 나타내었다. 배열에서 인접한 접두사들을 비교하여 (D)와 같은 LCP 들을 얻을 수 있다.

(C)예의 경우 'AGCTCG'와 'AGCTC' 등이 얻어진다. 그 후 생성된 LCP들에 대해 이들의 길이와 전체 입력 서열에 나타난 빈도수를 얻어 미리 지정된 인자 LEN, RTO와 비교하여(E) 조건을 만족할 경우 국부 정렬을 실행한다.

(F)의 예는 조건을 만족하는 LCP들 중 'AGCTC'에 대한 국부 정렬을 수행하는 모습이다. 여과된 각 LCP들을 대상으로 각각 전체 입력 서열들과의 국부 정렬을 실행한다. 정렬 결과 스코어 값이 임계치 이상일 경우(G) 해당 부분을 결합부위 후보로 선택한다. (H)에서는 LCP 'AGCTC'에 대한 국부 정렬을 수행한 결과 예측된 결합부위 후보들이 굵은 글씨로 표현되었다. 'AGCTC' 이외에 'AGCC', 'AACTC' 등이 발견된 것을 볼 수 있다. 여러 개의 입력 서열로부터 여러 개의 결합부위 서열이 예측될 수 있으며 이들은 결합부위 데이터베이스(300)에 저장된다.

도 4a 및 도4b는 본 발명의 일 실시예에 따른 유사서열 추출을 통한 전사인자 결합부위 예측 방법 중 접미사 배열 생성 과정을 설명하기 위한 도면으로서, 도 4a는 본 발명에 적용된 접미사 배열 생성 과정을 설명하기 위한 흐름도이고, 도 4b는 본 발명에 적용된 예제 서열에 대한 접미사 배열 생성 결과를 나타낸 도면이다.

도 4a 및 도 4b에 도시한 바와 같이, 상기 단계S200에서의 접미사 배열 생성을 위한 알고리즘은 Karkkainen 과 Sanders가 2003년에 논문을 통해 소개한 알고리즘이 사용된다.

즉, 상기 알고리즘은 divide and conquer 기법을 이용하여 주어진 문자열에 대한 접미사 배열을 선형시간에 생성하는 알고리즘이다. 이전의 알고리즘이 문자열을 2 부분으로 나누어 각각에 대해 접미사 배열을 생성한 뒤 병합하는 형식인데 반해 본 발명의 알고리즘은 문자열에 mod 연산을 취하여 3부분으로 나누고 2부분에 대해 정렬을 수행한 뒤 1부분을 정렬하고 이를 병합하는 방식으로 이전의 방식에 비해 병합 단계가 매우 단순하다는 이점을 지닌다.

Karkkainen 과 Sanders의 접미사 배열 생성 과정은 도 4a에 표현되어 있으며, 먼저 (I)와 같이 입력서열이 주어지면, 서열의 각 접미사들에 위치를 3으로 나눈 나머지(mod 3 연산 결과)가 2와 0인 위치들에 대해 염기를 세 개씩 묶어서 새로운 서열을 만든다(J). 마지막 부분이 3의 배수가 아닌 경우, 임의 기호 '0'을 수에 맞게 입력한 후 연산을 취한다. 이 기호는 연산에 어떠한 영향도 미치지 않는다. 이렇게 묶인 서열들에 대해 사전 순서대로 정렬하여 번호를 부여한다(K).

동일한 서열은 같은 번호를 부여하며, 정렬된 서열 내에서 모두 고유한 번호를 가질 때까지 정렬을 반복한다. 고유한 번호를 갖는 배열이 완성된 결과는 (L)과 같다. Mod 3 연산 결과가 0, 2인 위치의 접미사들은 (L)을 통해 쉽게 정렬된다.

다음으로 mod 3 연산 결과가 1인 위치의 접미사들을 정렬한다(M). 이는 mod 3 연산 결과가 1인 위치는 mod 3 연산 결과가 2인 위치의 바로 앞이라는 점을 이용하여 쉽게 구할 수 있다. 이제 두 정렬된 배열을 하나로 병합하는 과정을 거치면 전체 접미사 배열을 구할 수 있다(N). (I)에 주어진 서열에 대해 본 알고리즘으로 접미사 배열을 생성한 결과는 도 4b와 같다.

도 5는 본 발명의 일 실시예에 따른 유사서열 추출을 통한 전사인자 결합부위 예측 방법 중 근사 매칭을 위한 국부 정렬을 나타낸 개념도이다.

도 5에 도시한 바와 같이, 상기 단계S600에서의 국부 정렬은 두 서열 내부에 존재하는 부분 서열의 상동성을 검사하기 위해 사용하는 정렬 방법으로 동적 프로그래밍 기법을 이용한 매트릭스 상에서 스코어에 대해 임계치 혹은 최대값을 기준으로 생성된 자취를 역으로 되짚어가면서 상동성을 검색하는 기법을 말한다. 본 발명에서는 기본적으로 널리 사용되는 Smith Waterman 알고리즘을 이용하였다.

패턴 발견을 위해 단순 매칭 방법만을 적용할 경우 삽입, 삭제 등이 일어난 경우에 대해 정확한 예측을 할 수 없다. 6개의 입력 서열에서 (O) 서열이 결합부위로 예측되었으나 실제 결합부위의 경우 이 서열에 삽입, 삭제가 일어나 반드시 이 서열과 동일하지 않을 수 있다. 만약, (P) 서열이 결합부위 서열일 경우 단순 매칭에 의한 방법은 무의미한 예측 결과를 산출하게 되는 것이다.

(O) 서열과 입력 서열들에 대해 국부 정렬을 수행하여 상동성이 높은 (P)서열을 결합부위로 예측할 수 있도록 하는 것이 근사 매칭 방법을 이용하여 얻을 수 있는 효과이다.

전술한 본 발명에 따른 유사서열 추출을 통한 전사인자 결합부위 예측 장치 및 그 방법에 대한 바람직한 실시예에 대하여 설명하였지만, 본 발명은 이에 한정되는 것이 아니고 특허청구범위와 발명의 상세한 설명 및 첨부한 도면의 범위 안에서 여러 가지로 변형하여 실시하는 것이 가능하고 이 또한 본 발명에 속한다.

이상에서 설명한 바와 같은 본 발명의 유사서열 추출을 통한 전사인자 결합부위 예측 장치 및 그 방법에 따르면, 입력 서열에 대한 전처리 후 접미사 배열을 구성하고 생성된 접미사 배열에 대한 LCP 정보에 의해 여러 서열에서 공통으로 존재하는 서열을 추출하여 국부 정렬 기법을 이용하여 전사인자 결합부위 후보 서열들을 추출함으로써, 대량의 학습 데이터로 학습단계를 거치고 학습된 내용으로 예측을 수행하는 종래의 통계기반 기법에 비해 적은 데이터를 필요로 하며 빠른 수행 결과를 얻을 수 있으며, 전사인자 결합부위 예측에 따른 시간과 비용을 효율적으로 줄일 수 있는 이점이 있다.

또한, 본 발명에 의해 예측된 결합 부위 서열들은 전사인자 별로 데이터베이스를 구축함으로써, 후에 알려지지 않은 서열에 대한 결합부위를 예측할 필요가 있을 경우에 유용하게 사용될 수 있는 이점이 있다.

도 1은 본 발명의 일 실시예에 따른 유사서열 추출을 통한 전사인자 결합부위 예측 장치를 나타낸 전체적인 블록 구성도,

도 2는 본 발명의 일 실시예에 따른 유사서열 추출을 통한 전사인자 결합부위 예측 방법을 설명하기 위한 전체적인 흐름도,

도 3은 본 발명의 일 실시예에 따른 유사서열 추출을 통한 전사인자 결합부위 예측 방법을 전체적으로 설명하기 위한 도면,

*** 도면의 주요 부분에 대한 부호 설명 ***

100 : 입력 서열, 200 : 전사인자 결합부위 예측기,

210 : 서열 전처리부, 220 : 접미사 배열 생성처리부,

230 : 국부 정렬처리부, 300 : 결합부위 데이터베이스(DB)

Claims

입력된 서열들을 전처리, 접미사 배열 생성 및 국부 정렬하여 대상 서열에서 예측된 전사인자 결합부위들을 출력하기 위한 전사인자 결합부위 예측기; 및

상기 전사인자 결합부위 예측기로부터 출력된 전사인자 결합부위 서열들을 저장하기 위한 결합부위 데이터베이스로 이루어진, 유사서열 추출을 통한 전사인자 결합부위 예측 장치.
제 1항에 있어서, 상기 전사인자 결합부위 예측기는,

상기 입력된 서열들을 하나의 긴 서열로 연결하는 전처리를 수행하기 위한 서열 전처리부;

상기 서열 전처리부로부터 전처리된 전체 서열에 대한 접미사들을 오름차순으로 정렬하고, 상기 정렬된 결과를 배열 형태로 유지하기 위한 접미사 배열 생성처리부; 및

상기 접미사 배열 생성처리부로부터 생성된 접미사 배열의 각 항을 비교하여 최장 공통 접두사(LCP) 배열을 생성하고, 상기 생성된 최장 공통 접두사(LCP) 배열내의 최장 공통 접두사(LCP) 서열의 길이와 비율을 기설정된 기준치와 비교하여 그 결과에 따라 공통 서열을 추출하고, 상기 추출된 공통 서열과 전체 입력 서열에 대한 국부 정렬을 수행한 후, 상기 국부 정렬된 서열들의 정렬 스코어를 계산하여 그 결과값에 따라 예측된 전사인자 결합부위들을 출력하기 위한 국부 정렬처리부로 이루어진, 것을 특징으로 하는 유사서열 추출을 통한 전사인자 결합부위 예측 장치.
유사서열 추출을 통한 전사인자 결합부위 예측방법에 있어서,

(a) 입력된 서열들을 전처리 수행하는 단계;

(b) 상기 전처리된 전체 서열에 대해 접미사 배열을 생성하는 단계;

(c) 상기 생성된 접미사 배열의 각 항을 비교하여 최장 공통 접두사(LCP) 배열을 생성하는 단계;

(d) 상기 생성된 최장 공통 접두사(LCP) 배열의 각 최장 공통 접두사(LCP) 서열의 길이 및 비율이 기설정된 기준치이상일 경우, 국부 정렬을 이용한 근사 매칭을 수행하는 단계; 및

(e) 상기 국부 정렬된 서열들의 정렬 스코어를 계산하여 기설정된 임계치이상일 경우, 해당 서열을 전사인자 결합부위의 후보로 예측하고, 미리 마련된 데이터베이스에 저장하는 단계를 포함하여 이루어진 것을 특징으로 하는 유사서열 추출을 통한 전사인자 결합부위 예측 방법.