KR100858081B1 - 유전정보 코딩장치 및 방법 - Google Patents

유전정보 코딩장치 및 방법 Download PDF

Info

Publication number
KR100858081B1
KR100858081B1 KR1020030009420A KR20030009420A KR100858081B1 KR 100858081 B1 KR100858081 B1 KR 100858081B1 KR 1020030009420 A KR1020030009420 A KR 1020030009420A KR 20030009420 A KR20030009420 A KR 20030009420A KR 100858081 B1 KR100858081 B1 KR 100858081B1
Authority
KR
South Korea
Prior art keywords
genetic information
base
code
present
orthogonal
Prior art date
Application number
KR1020030009420A
Other languages
English (en)
Other versions
KR20040073734A (ko
Inventor
남윤순
장병탁
오장민
최승학
이규상
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020030009420A priority Critical patent/KR100858081B1/ko
Priority to US10/778,807 priority patent/US20040161790A1/en
Publication of KR20040073734A publication Critical patent/KR20040073734A/ko
Priority to US11/956,570 priority patent/US7599800B2/en
Application granted granted Critical
Publication of KR100858081B1 publication Critical patent/KR100858081B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/20Polymerase chain reaction [PCR]; Primer or probe design; Probe optimisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99943Generating database or data structure, e.g. via user interface

Abstract

유전정보 코딩장치 및 방법이 개시된다. 정렬부는 데이터입력부를 통해 입력된 변이위치를 기준으로 샘플유전정보, 정상프로브유전정보, 및 돌연변이프로브유전정보를 정렬한다. 코드저장부에는 변이위치를 중심으로 각각의 유전정보의 상위 및 하위 베이스 영역에 존재하는 각각의 염기에 대해 부여되는 제1직교코드 및 변이위치에 존재하는 염기에 대해 부여되는 제2직교코드가 저장된다. 코딩부는 정렬된 유전정보들을 구성하는 베이스에 대해 최상위 베이스로부터 순차적으로 각각의 유전정보를 구성하는 염기에 대해 제1직교코드를 부여하고 각각의 유전정보에서의 염기의 존재여부를 나타내는 플래그를 제1직교코드에 부가하여 제1코드열을 생성하며, 변이위치에 존재하는 염기에 대해 제2직교코드를 부여하고 샘플유전정보의 종류를 나타내는 플래그를 제2직교코드에 부가하여 제2코드열을 생성한다. 이에 의해, 기존의 데이터를 적용하여 현재 프로토콜에 적합한 예측모델을 구성함으로써, DNA 칩 혼성화 결과를 신속하고 정확하게 예측할 수 있으므로 칩에 사용되는 프로브의 선정에 소요되는 시간 및 비용을 절감할 수 있다.
유전정보, 프로브, 신경망, 변이, 혼성화

Description

유전정보 코딩장치 및 방법{Apparatus for coding gene information and method of the same}
도 1은 DNA 칩의 원리를 도시한 도면,
도 2는 본 발명에 따라 코드화된 유전정보를 입력으로 하는 신경망의 구성을 도시한 도면,
도 3은 본 발명에 따른 유전정보 코딩장치의 상세한 구성을 도시한 블록도,
도 4는 본 발명의 일 실시예에 따른 입력된 변이위치를 기준으로 정렬된 유전정보를 도시한 도면,
도 5는 본 발명의 다른 실시예에 따른 입력된 변이위치를 기준으로 정렬된 유전정보를 도시한 도면,
도 6은 본 발명에 따른 유전정보 코딩방법에 대한 일 실시예의 수행과정을 도시한 흐름도, 그리고,
도 7은 학습된 신경망을 82개의 테스트 집합에 적용하여 테스트한 결과를 도시한 도면이다.
본 발명은 유전정보 코딩장치 및 방법에 관한 것으로, 보다 상세하게는, 신경망 시스템에 입력되는 유전정보를 코딩하기 위한 장치 및 방법에 관한 것이다.
현재 DNA 칩 혼성화 결과를 예측하기 위해 솔루션에서 DNA 혼성화에 대한 써모다이나믹(thermodynamic) 예측모델을 많이 사용하고 있다. 국제공개번호 제WO/01/194611호에는 적어도 하나의 열로 표현되는 혼성화 변수, 정정 데이터, 및 혼성화상태를 나타내는 데이터를 수신하고, 수신된 혼성화 변수, 정정 데이터, 혼성화상태를 나타내는 데이터 및 제공받은 열 파라미터를 기초로 총 혼성화 열을 포함하는 혼성화 열을 계산함으로써, 핵산 혼성화 열 예측 방법이 개시되어 있다.
그러나, 솔루션에서 DNA 혼성화는 칩과 같은 표면위에서의 혼성화와는 반응이 다르므로 기존에 사용되는 써모다이나믹 예측모델은 칩에서의 예측모델로는 적당하지 않다. 또한, 써모다이나믹 예측모델은 프로토콜의 차이를 반영할 수 없다.
본 발명이 이루고자 하는 기술적 과제는, 다양한 프로토콜에서의 DNA 혼성화 결과를 예측할 수 있도록 신경망에 입력되는 유전정보를 코딩하기 위한 장치 및 방법을 제공하는 데 있다.
상기의 기술적 과제를 달성하기 위한, 본 발명에 따른 유전정보 코딩장치는, 샘플유전정보, 정상프로브유전정보, 돌연변이프로브유전정보 및 상기 각각의 유전정보에 대한 변이위치를 입력받는 데이터입력부; 상기 변이위치를 기준으로 상기 샘플유전정보, 상기 정상프로브유전정보, 및 상기 돌연변이프로브유전정보를 정렬 하는 정렬부; 상기 변이위치를 중심으로 상위 및 하위 베이스 영역에 존재하는 각각의 염기에 대해 부여되는 제1직교코드 및 상기 변이위치에 존재하는 염기에 대해 부여되는 제2직교코드가 저장되는 코드저장부; 및 상기 정렬된 유전정보들을 구성하는 베이스에 대해 최상위 베이스로부터 순차적으로 각각의 베이스에 대응되는 위치에 존재하는 상기 각각의 유전정보를 구성하는 염기에 대해 상기 제1직교코드를 부여하고 상기 각각의 유전정보에서의 상기 염기의 존재여부를 나타내는 플래그를 상기 부여된 제1직교코드에 부가하여 제1코드열을 생성하고, 상기 변이위치에 존재하는 염기에 대해 상기 제2직교코드를 부여하여 상기 부여된 제2직교코드에 상기 샘플유전정보의 종류를 나타내는 플래그를 부여하여 제2코드열을 생성하는 코딩부;를 갖는다.
상기의 다른 기술적 과제를 달성하기 위한, 본 발명에 따른 유전정보 코딩방법은, 샘플유전정보, 정상프로브유전정보, 돌연변이프로브유전정보 및 상기 각각의 유전정보에 대한 변이위치를 입력받는 단계; 상기 변이위치를 기준으로 상기 샘플유전정보, 상기 정상프로브유전정보, 및 상기 돌연변이프로브유전정보를 정렬하는 단계; 및 상기 정렬된 유전정보들을 구성하는 베이스에 대해 최상위 베이스로부터 순차적으로 각각의 베이스에 대응되는 위치에 존재하는 상기 각각의 유전정보를 구성하는 염기에 대해 상기 제1직교코드를 부여하고 상기 각각의 유전정보에서의 상기 염기의 존재여부를 나타내는 플래그를 상기 부여된 제1직교코드에 부가하여 제1코드열을 생성하고, 상기 변이위치에 존재하는 염기에 대해 상기 제2직교코드를 부여하여 상기 부여된 제2직교코드에 상기 샘플유전정보의 종류를 나타내는 플래그를 부여하여 제2코드열을 생성하는 단계;를 포함한다.
이에 의해, 기존의 데이터를 적용하여 현재 프로토콜에 적합한 예측모델을 구성함으로써, DNA 칩 혼성화 결과를 신속하고 정확하게 예측할 수 있으므로 칩에 사용되는 프로브의 선정에 소요되는 시간 및 비용을 절감할 수 있다.
이하에서 첨부된 도면들을 참조하여 본 발명에 따른 유전정보 코딩장치 및 방법의 바람직한 실시예를 상세하게 설명한다.
도 1은 DNA 칩의 원리를 도시한 도면이다.
복수의 프로브가 장착된 DNA 칩에 샘플을 위치시키면, 샘플은 자신의 염기서열과 상보적인 관계의 염기서열을 갖는 프로브에 결합한다. 프로브와 샘플의 결합(혼성화) 정도는 밝기로 나타난다. 이러한 DNA 칩에서는 적절한 프로브의 선택이 DNA 칩의 성능을 결정하는 중요한 요소이다. DNA 칩에 사용되는 프로브는 실험에 의해 결정하고 있으나 이는 상당한 시간과 비용을 요구한다.
본 발명은 DNA 칩에 사용되는 프로브를 결정하기 위한 유전정보 코딩장치 및 방법을 제공한다. 본 발명에 따른 유전정보 코딩장치 및 방법은 도 2에 도시되어 있는 바와 같은 샘플유전정보(sample), 정상프로브(wild-type probe)유전정보, 및 돌연변이프로브(mutant-type probe)유전정보를 입력으로 하고 정상프로브와 돌연변이프로브의 혼성화 강도비 또는 그 변형값을 출력으로 하는 신경망에 적용된다. 즉, 본 발명에 따른 유전정보 코딩장치는 신경망의 입력값인 샘플유전정보, 정상프로브유전정보, 및 돌연변이프로브유전정보를 유전정보의 특성을 반영한 코드에 의해 코드화하여 제공한다. 샘플유전정보, 정상프로브유전정보, 및 돌연변이프로브유 전정보는 아데닌(Adenine), 티민(Thymine), 구아닌(Guanine), 및 시토신(Cytocine)으로 구성된 염기서열이다.
도 3은 본 발명에 따른 유전정보 코딩장치의 상세한 구성을 도시한 블록도이다.
도 3을 참조하면, 본 발명에 따른 유전정보 코딩장치(300)는, 데이터입력부(310), 정렬부(320), 코드저장부(330), 및 코딩부(340)를 구비한다.
데이터입력부(310)는 외부장치 또는 사용자로부터 샘플유전정보(sample), 정상프로브유전정보(wild probe), 돌연변이프로브유전정보(mutant probe) 및 상기 각각의 유전정보에 대한 변이위치(mutation position)를 입력받는다.
정렬부(320)는 데이터입력부(310)를 통해 입력된 샘플유전정보, 정상프로브유전정보, 및 돌연변이프로브유전정보를 각각의 유전정보에 대응하는 변이위치를 기준으로 정렬한다. 도 4에는 입력된 변이위치를 기준으로 정렬된 유전정보가 도시되어 있다. 도 4를 참조하면, 샘플유전정보, 정상프로브유전정보, 및 돌연변이프로브유전정보는 각각 16개, 9개, 8개의 베이스로 구성되어 있다. 샘플유전정보를 구성하는 베이스에 대해 상위베이스로부터 순차적으로 X1, X2, …X16의 위치플래그를 부여하면, 유전정보의 변이위치는 X8이 된다.
코드저장부(330)에는 변이위치를 중심으로 상위 및 하위 베이스 영역에 존재하는 각각의 염기에 대해 부여되는 제1직교코드 및 변이위치에 존재하는 염기에 대해 부여되는 제2직교코드가 저장된다.
제1직교코드는 각각의 코드가 서로 직교관계를 가지도록 설정된 코드로서 4비트 또는 5비트로 작성된다. 표 1에는 4비트 및 5비트로 작성된 제1직교코드가 기재되어 있다.
염기 4비트 직교코드 5비트 직교코드
아데닌(A) 1000 10000
티민(T) 0100 01000
구아닌(G) 0010 00100
시토신(C) 0001 00010
제2직교코드는 각각의 코드가 서로 직교관계를 가지도록 설정된 코드로서 12비트로 작성된다. SNP(Single Nucleotide Polymorphism)는 A→T, A→G, A→C, T→A, T→G, G→A, G→T, G→C, C→A, C→T, C→G의 12가지이므로 변이위치에 존재하는 염기는 12비트의 직교코드에 의해 표시할 수 있다. 변이위치에 존재하는 염기에 대한 표 2에는 12비트로 작성된 제2직교코드가 기재되어 있다.
mutant\wild A T G C
A * 000100000000 000000100000 000000000100
T 100000000000 * 000000010000 000000000010
G 010000000000 000010000000 * 000000000001
C 001000000000 000001000000 000000001000 *
코딩부(340)는 정렬된 유전정보를 구성하는 상위 베이스로부터 순차적으로 각각의 베이스에 대응되는 위치에 존재하는 염기에 대해 제1직교코드를 부여하고, 각각의 유전정보에서의 염기의 존재여부를 나타내는 플래그를 제1직교코드에 부가하여 제1코드열을 생성한다. 또한, 코딩부(340)는 변이위치에 존재하는 염기에 대해 제2직교코드를 부여하고, 샘플유전정보의 종류를 나타내는 플래그를 제2직교코드에 부가하여 제2코드열을 생성한다. 이 때, 코딩부(340)는 코딩결과를 입력으로 하는 신경망과의 관계에서 다양한 코딩방법을 통해 유전정보를 코딩한다.
표 1 및 표 2에 기재된 직교코드들은 제1직교코드 및 제2직교코드의 일예이며, 이외에도 다양한 코드에 의해 염기 및 변이정보를 표현할 수 있다. 나아가, 염기 및 변이정보는 각각의 정보를 식별할 수 있는 코드이면 무방하며 굳이 직교코드일 필요는 없다.
도 4에 도시된 바와 같이 정렬된 유전정보들에 대한 코딩부(340)의 코딩과정의 일실시예를 상세하게 살펴보면 다음과 같다. 이하에서 설명하는 실시예에서 유전정보를 구성하는 염기는 4비트의 코드로 코딩된다.
먼저, X1위치에 존재하는 염기는 T이므로, 코딩부(340)는 코드저장부(330)로부터 T에 해당하는 코드를 검색하고 검색된 코드값 '0100'을 X1위치에 할당한다. 다음으로, 검색된 코드값에 각각의 유전정보에서 해당 염기의 존재여부를 나타내는 플래그를 부가한다. 이 때, 플래그는 3비트로 구성되며, 각각의 비트는 샘플유전정보, 정상프로브유전정보, 및 돌연변이프로브유전정보에서의 염기의 존재여부를 나타낸다. X1위치에는 샘플유전정보에만 염기가 존재하므로 부가되는 플래그는 '100'이다. 결과적으로 코딩부(340)는 X1의 위치에 존재하는 염기에 대한 코드열 '0100100'을 출력한다. 코딩부(340)는 동일한 방식으로 X2-X7, X9-X 16의 위치에 존재하는 염기에 대해 코드열을 생성하며, 변이위치인 X8을 제외한 나머지 위치에 대한 코딩결과는 다음과 같다.
X1→0100100, X2→1000100, X3→0100100, X4→0100101, X 5→1000111,
X6→0010111, X7→0010111, X9→1000111, X10→0100111, X 11→0010111,
X12→0010110, X13→1000110, X14→0001100, X15→0010100, X16→0100100
변이위치에 대한 염기의 코딩은 제2직교코드에 의해 수행된다. 변이위치인 X8에 대해 정상프로브유전정보와 돌연변이프로브유전정보는 각각 G와 A이므로, 해당 염기쌍에 대한 제2직교코드는 '000000100000'이다. 다음으로, 변이위치에 대해 부여된 코드값에 샘플유전정보의 종류를 나타내는 플래그를 부가한다. X8위치의 샘플유전정보는 G이므로, 샘플유전정보의 종류는 정상프로브유전정보에 해당된다. 따라서, 코드값 '000000100000'에 샘플유전정보가 정상프로브유전정보임을 나타내는 '1'이 부가되며, 결과적인 코딩결과는 '0000001000001'이 된다.
이상의 코딩과정을 통해 코딩부(340)는 X1-X16의 위치에 존재하는 염기 각각에 대한 코딩결과를 출력한다. 이 때, 코딩부(340)는 변이위치를 나타내는 변이정보를 코딩결과와 함께 신경망에 제공한다.
이하에서, 코딩부(340)에서 수행되는 코딩방법의 다른 실시예에 대해 설명한다. 후술하는 코딩방법에 의해 유전정보를 코드화하면 별도의 변이정보를 신경망에 제공할 필요가 없게 된다.
먼저, 코딩부(340)는 입력된 유전정보들에 대해 변이위치로부터 상위 및 하위 베이스까지의 거리를 파악한다. 이 때, 변이위치로부터 상위 및 하위 베이스까 지의 거리는 베이스의 갯수를 의미한다. 도 5에 도시된 바와 같이 정렬된 유전정보의 경우에 변이위치로부터 상위 및 하위 베이스까지의 거리를 각각 Rt 및 Rb라 하면, 각각의 유전정보에 대한 Rt 및 Rb는 다음과 같다.
샘플유전정보: Rt=2, Rb=9,
정상프로브유전정보: Rt=5, Rb=2,
돌연변이프로브유전정보: Rt=3, Rb=5.
다음으로, 코딩부(340)는 Rt 및 Rb의 값들 중에서 가장 큰 값인 9를 변위위치로부터 상위 및 하위 베이스까지의 거리로 설정한 기본베이스열을 생성한다. 도 5에 도시된 바와 같이 정렬된 유전정보들의 경우 기본베이스열은 모두 19개의 베이스로 구성되며, 10번째 베이스가 변이위치이다.
먼저, 코딩부(340)는 유전정보 중에서 X1위치에 염기가 존재하는가를 확인한다. X1-X4까지는 염기가 존재하는 유전정보가 없으므로 각각의 염기를 4비트의 직교코드로 나타낼 경우에 기본베이스열의 각각의 베이스에 대응하는 코딩결과는 '0000000'이 된다. 여기서, '0000'은 입력된 유전정보 모두 해당 베이스에 대응하는 위치에 염기가 존재하지 않음을 나타내는 코드이다. 이러한 특수코드는 본 발명에 따른 유전정보 코딩장치와 신경망 사이에 미리 정의되어져야 한다. X5-X19까지의 코딩과정은 상술한 바와 동일하므로 상세한 설명은 생략한다.
한편, 각각의 염기에 5비트의 직교코드를 부여하면 입력된 유전정보 모두 해당 베이스에 대응하는 위치에 염기가 존재하지 않음을 나타내는 코드 및 각각의 베이스에 위치하는 염기에 대해 부여되는 코드들이 모두 직교관계를 갖는다는 이점이 있다. 상술한 코딩방식을 적용함에 있어, 기본베이스열을 구성하는 베이스의 개수는 100이하인 것이 바람직하다. 이 경우, 본 발명에 따른 유전정보 코딩장치로부터 출력되는 코딩결과는 염기에 대해 4비트의 코드를 부여할 때 706비트가 된다. 도 5를 참조하여 설명한 코딩방식에 의하면, 염기에 대해 4비트의 코드를 부여하여 코딩한 결과는 139비트의 크기를 갖는다.
도 6은 본 발명에 따른 유전정보 코딩방법에 대한 일 실시예의 수행과정을 도시한 흐름도이다.
도 6을 참조하면, 데이터입력부(310)로 샘플유전정보, 정상프로브유전정보, 및 돌연변이프로브유전정보를 포함하는 유전정보 및 각각의 유전정보에 대한 변이위치가 입력되면(S600), 정렬부(320)는 변이위치를 기준으로 유전정보들을 정렬한다(S610). 코딩부(340)는 정렬된 유전정보들을 구성하는 베이스 중에서 변이위치를 기준으로 최상위 및 최하위에 존재하는 베이스의 위치를 파악하여 코딩범위를 확인한다(S620). 코딩부(340)는 각각의 유전정보에 대해 파악된 코딩범위의 최상위 위치로부터 순차적으로 코딩한다(S630). 코딩부(340)에서의 코딩과정은 위에서 설명한 바와 동일하므로 상세한 설명은 생략한다.
본 발명에 따른 유전정보 코딩장치는 각각의 유전정보(즉, 샘플의 유전정보 및 프로브의 유전정보)를 코드화하여 신경망에 제공한다. 신경망은 유전정보 코딩 장치로부터 입력받은 코드값을 기초로 유전정보를 인식한 후 정상프로브와 돌연변이프로브의 혼성화 강도비 또는 그 변형값을 출력한다.
만약, 정상프로브와 돌연변이프로브의 혼성화 강도비의 로그값을 (-1, 1) 구간으로 스케일링하면 신경망의 출력값 y는 다음의 식에 의해 얻어진다.
Figure 112003005155834-pat00001
여기서, wp는 정상프로브의 혼성화 강도, mp는 돌연변이프로브의 혼성화 강도, max는 정상프로브와 돌연변이프로브의 혼성화 강도비의 로그값 중 최대값, 그리고, min은 정상프로브와 돌연변이프로브의 혼성화 강도비의 로그값 중 최소값이다.
본 발명에 따른 유전정보 코딩장치로부터 입력된 값을 기초로 신경망을 학습시켜 유효한 결과를 출력하는 신경망 모델을 선정할 수 있다. 일예로, 2952개의 데이터 집합에서 훈련데이터 집합으로 2152개, 검증 데이터 집합으로 800개를 선정하여 신경망의 학습데이터로 사용한다. 신경망의 학습방법은 Conjugate gradient기법을 통한 batch learning을 적용한다. 과학습을 방지하기 위해 훈련데이터 집합을 이용하여 최대 에포크까지 신경망을 학습시킨다. 그 후, 검증데이터 집합에 대한 에러 히스토리를 분석하여 가장 낮은 에러를 보이는 에포크까지 재학습시킨다. 그리고, 은닉층의 수와 뉴런의 수를 변경하면서 다양한 신경망 모델을 구성한 후 검증데이터 집합에 대한 에러가 가장 작은 모델을 최종 모델로 선정한다. 최종적으로 선정된 신경망은 검증데이터 집합에 대해서 RMSE가 0.168036인 수행성능을 보였다. 도 7에는 학습된 신경망을 82개의 테스트 데이터 집합에 적용하여 테스트한 결과가 도시되어 있다. 신경망의 RMSE는 0.200939이다.
이상에서 본 발명의 바람직한 실시예에 대해 도시하고 설명하였으나, 본 발명은 상술한 특정의 바람직한 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변형 실시가 가능한 것은 물론이고, 그와 같은 변경은 청구범위 기재의 범위 내에 있게 된다.
본 발명에 따른 유전정보 코딩장치 및 방법에 의하면, 유전정보의 특성을 기초로 신경망에 입력되는 각각의 유전정보를 코드화함으로써, 기존의 데이터를 적용하여 현재 프로토콜에 적합한 예측모델을 구성할 수 있으므로 DNA 칩 혼성화 결과를 신속하고 정확하게 예측할 수 있다.

Claims (18)

  1. 샘플유전정보, 정상프로브유전정보, 돌연변이프로브유전정보 및 상기 각각의 유전정보에 대한 변이위치를 입력받는 데이터입력부;
    상기 변이위치를 기준으로 상기 샘플유전정보, 상기 정상프로브유전정보, 및 상기 돌연변이프로브유전정보를 정렬하는 정렬부;
    상기 변이위치를 중심으로 상위 및 하위 베이스 영역에 존재하는 각각의 염 기에 대해 부여되는 제1직교코드 및 상기 변이위치에 존재하는 염기에 대해 부여되는 제2직교코드가 저장되는 코드저장부; 및
    상기 정렬된 유전정보들을 구성하는 베이스에 대해 최상위 베이스로부터 순차적으로 각각의 베이스에 대응되는 위치에 존재하는 상기 각각의 유전정보를 구성하는 염기에 대해 상기 제1직교코드를 부여하고 상기 각각의 유전정보에서의 상기 염기의 존재여부를 나타내는 플래그를 상기 부여된 제1직교코드에 부가하여 제1코드열을 생성하고, 상기 변이위치에 존재하는 염기에 대해 상기 제2직교코드를 부여하여 상기 부여된 제2직교코드에 상기 샘플유전정보의 종류를 나타내는 플래그를 부여하여 제2코드열을 생성하는 코딩부;를 포함하는 것을 특징으로 하는 유전정보 코딩장치.
  2. 제 1항에 있어서,
    상기 제1직교코드는 각각의 코드가 서로 직교관계를 가지는 4비트 크기의 코드이며,
    상기 염기의 존재여부를 나타내는 플래그는 상기 각각의 유전정보에 대응하는 크기가 1비트인 복수의 하위 플래그로 구성되고, 상기 각각의 하위 플래그는 상기 유전정보에 상기 염기가 존재하면 '1'이 부여되고 상기 염기가 존재하지 않으면 '0'이 부여되는 것을 특징으로 하는 유전정보 코딩장치.
  3. 제 1항에 있어서,
    상기 제1직교코드는 각각의 코드가 서로 직교관계를 가지는 5비트 크기의 코드이며,
    상기 염기의 존재여부를 나타내는 플래그는 상기 각각의 유전정보에 대응하는 크기가 1비트인 복수의 하위 플래그로 구성되고, 상기 각각의 하위 플래그는 상기 유전정보에 상기 염기가 존재하면 '1'이 부여되고 상기 염기가 존재하지 않으면 '0'이 부여되는 것을 특징으로 하는 유전정보 코딩장치.
  4. 제 1항에 있어서,
    상기 제2직교코드는 상기 변이위치에서 상기 정상프로브유전정보와 상기 돌연변이프로브유전정보를 구성하는 염기로 이루어진 순서쌍에 대해 설정되어 있는 12비트의 직교코드열인 것을 특징으로 하는 유전정보 코딩장치.
  5. 제 1항에 있어서,
    상기 코딩부는 상기 유전정보들에 대해 상기 변이위치로부터 상위 및 하위 베이스까지의 거리를 파악하고, 상기 파악된 거리중에서 가장 큰 거리를 상기 변위위치로부터 상위 및 하위 베이스까지의 거리로 설정한 기본베이스열의 상위 베이스로부터 각각의 베이스에 대응되는 상기 유전정보에 대해 순차적으로 코딩하여 상기 제1코드열 및 상기 제2코드열을 생성하는 것을 특징으로 하는 유전정보 코딩장치.
  6. 제 5항에 있어서,
    상기 코딩부는, 상기 변이위치를 중심으로 상위 및 하위 베이스 영역에 대한 코딩시, 상기 기본베이스열을 구성하는 베이스의 위치에 대응하는 상기 각각의 유전정보에 대해 상기 염기가 존재하지 않으면 유전정보가 존재하지 않음을 나타내는 제3코드를 부여하는 것을 특징으로 하는 유전정보 코딩장치.
  7. 제 6항에 있어서,
    상기 제1직교코드는 각각의 코드가 서로 직교관계를 가지는 4비트 크기의 코드이고, 상기 제3코드는 '0000'이며,
    상기 염기의 존재여부를 나타내는 플래그는 상기 각각의 유전정보에 대응하는 크기가 1비트인 복수의 하위 플래그로 구성되고, 상기 각각의 하위 플래그는 상기 유전정보에 상기 염기가 존재하면 '1'이 부여되고 상기 염기가 존재하지 않으면 '0'이 부여되는 것을 특징으로 하는 유전정보 코딩장치.
  8. 제 6항에 있어서,
    상기 제1직교코드 및 제3코드는 각각의 코드가 서로 직교관계를 가지는 5비트 크기의 코드이고,
    상기 염기의 존재여부를 나타내는 플래그는 상기 각각의 유전정보에 대응하는 크기가 1비트인 복수의 하위 플래그로 구성되고, 상기 각각의 하위 플래그는 상기 유전정보에 상기 염기가 존재하면 '1'이 부여되고 상기 염기가 존재하지 않으면 '0'이 부여되는 것을 특징으로 하는 유전정보 코딩장치.
  9. 제 6항에 있어서,
    상기 제2직교코드는 상기 변이위치에서 상기 정상프로브유전정보와 상기 돌연변이프로브유전정보를 구성하는 염기로 이루어진 순서쌍에 대해 설정되어 있는 12비트의 직교코드열인 것을 특징으로 하는 유전정보 코딩장치.
  10. 샘플유전정보, 정상프로브유전정보, 돌연변이프로브유전정보 및 상기 각각의 유전정보에 대한 변이위치를 입력받는 단계;
    상기 변이위치를 기준으로 상기 샘플유전정보, 상기 정상프로브유전정보, 및 상기 돌연변이프로브유전정보를 정렬하는 단계; 및
    상기 정렬된 유전정보들을 구성하는 베이스에 대해 최상위 베이스로부터 순차적으로 각각의 베이스에 대응되는 위치에 존재하는 상기 각각의 유전정보를 구성하는 염기에 대해 상기 제1직교코드를 부여하고 상기 각각의 유전정보에서의 상기 염기의 존재여부를 나타내는 플래그를 상기 부여된 제1직교코드에 부가하여 제1코드열을 생성하고, 상기 변이위치에 존재하는 염기에 대해 상기 제2직교코드를 부여하여 상기 부여된 제2직교코드에 상기 샘플유전정보의 종류를 나타내는 플래그를 부여하여 제2코드열을 생성하는 단계;를 포함하는 것을 특징으로 하는 유전정보 코딩방법.
  11. 제 10항에 있어서,
    상기 제1직교코드는 각각의 코드가 서로 직교관계를 가지는 4비트 크기의 코드이며,
    상기 염기의 존재여부를 나타내는 플래그는 상기 각각의 유전정보에 대응하는 크기가 1비트인 복수의 하위 플래그로 구성되고, 상기 각각의 하위 플래그는 상기 유전정보에 상기 염기가 존재하면 '1'이 부여되고 상기 염기가 존재하지 않으면 '0'이 부여되는 것을 특징으로 하는 유전정보 코딩방법.
  12. 제 10항에 있어서,
    상기 제1직교코드는 각각의 코드가 서로 직교관계를 가지는 5비트 크기의 코드이며,
    상기 염기의 존재여부를 나타내는 플래그는 상기 각각의 유전정보에 대응하는 크기가 1비트인 복수의 하위 플래그로 구성되고, 상기 각각의 하위 플래그는 상기 유전정보에 상기 염기가 존재하면 '1'이 부여되고 상기 염기가 존재하지 않으면 '0'이 부여되는 것을 특징으로 하는 유전정보 코딩방법.
  13. 제 10항에 있어서,
    상기 제2직교코드는 상기 변이위치에서 상기 정상프로브유전정보와 상기 돌연변이프로브유전정보를 구성하는 염기로 이루어진 순서쌍에 대해 설정되어 있는 12비트의 직교코드열인 것을 특징으로 하는 유전정보 코딩방법.
  14. 제 10항에 있어서,
    상기 코딩단계는,
    상기 유전정보들에 대해 상기 변이위치로부터 상위 및 하위 베이스까지의 거리를 파악하는 단계;
    상기 파악된 거리중에서 가장 큰 거리를 상기 변위위치로부터 상위 및 하위 베이스까지의 거리로 설정한 기본베이스열을 생성하는 단계; 및
    상기 기본베이스열의 상위 베이스로부터 각각의 베이스에 대응되는 상기 유전정보를 구성하는 염기에 대해 순차적으로 코드화하여 상기 제1코드열 및 상기 제2코드열을 생성하는 단계;를 포함하는 것을 특징으로 하는 유전정보 코딩방법.
  15. 제 14항에 있어서,
    상기 코딩단계는,
    상기 변이위치를 중심으로 상위 및 하위 베이스 영역에 대한 코딩시, 상기 기본베이스열을 구성하는 베이스의 위치에 대응하는 상기 각각의 유전정보에 대해 상기 염기가 존재하지 않으면 유전정보가 존재하지 않음을 나타내는 제3코드를 부여하고, 상기 기본베이스열을 구성하는 베이스에 대응하는 상기 각각의 유전정보에 대해 상기 염기가 존재하면 각각의 염기는 설정되어 있는 소정의 크기를 갖는 제1직교코드를 부여하며, 상기 각각의 유전정보에서의 상기 염기의 존재여부를 나타내는 플래그를 상기 부여된 제1직교코드 및 상기 부여된 제3코드에 부가하는 제1코딩단계; 및
    상기 변이위치에 해당하는 베이스에 존재하는 염기는 소정의 크기를 갖는 제2직교코드를 부여하고 상기 부여된 제2직교코드에 상기 샘플유전정보의 종류를 나타내는 플래그를 부가하는 제2코딩단계;를 포함하는 것을 특징으로 하는 유전정보 코딩방법.
  16. 제 15항에 있어서,
    상기 제1직교코드는 각각의 코드가 서로 직교관계를 가지는 4비트 크기의 코드이고, 상기 제3코드는 '0000'이며,
    상기 염기의 존재여부를 나타내는 플래그는 상기 각각의 유전정보에 대응하는 크기가 1비트인 복수의 하위 플래그로 구성되고, 상기 각각의 하위 플래그는 상기 유전정보에 상기 염기가 존재하면 '1'이 부여되고 상기 염기가 존재하지 않으면 '0'이 부여되는 것을 특징으로 하는 유전정보 코딩방법.
  17. 제 15항에 있어서,
    상기 제1직교코드 및 상기 제3코드는 각각의 코드가 서로 직교관계를 가지는 5비트 크기의 코드이고,
    상기 염기의 존재여부를 나타내는 플래그는 상기 각각의 유전정보에 대응하는 크기가 1비트인 복수의 하위 플래그로 구성되고, 상기 각각의 하위 플래그는 상기 유전정보에 상기 염기가 존재하면 '1'이 부여되고 상기 염기가 존재하지 않으면 '0'이 부여되는 것을 특징으로 하는 유전정보 코딩방법.
  18. 제 15항에 있어서,
    상기 제2직교코드는 상기 변이위치에서 상기 정상프로브유전정보와 상기 돌연변이프로브유전정보를 구성하는 염기로 이루어진 순서쌍에 대해 설정되어 있는 12비트의 직교코드열인 것을 특징으로 하는 유전정보 코딩방법.
KR1020030009420A 2003-02-14 2003-02-14 유전정보 코딩장치 및 방법 KR100858081B1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020030009420A KR100858081B1 (ko) 2003-02-14 2003-02-14 유전정보 코딩장치 및 방법
US10/778,807 US20040161790A1 (en) 2003-02-14 2004-02-13 Apparatus and method for coding genetic information
US11/956,570 US7599800B2 (en) 2003-02-14 2007-12-14 Apparatus and method for coding genetic information

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020030009420A KR100858081B1 (ko) 2003-02-14 2003-02-14 유전정보 코딩장치 및 방법

Publications (2)

Publication Number Publication Date
KR20040073734A KR20040073734A (ko) 2004-08-21
KR100858081B1 true KR100858081B1 (ko) 2008-09-10

Family

ID=32844834

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020030009420A KR100858081B1 (ko) 2003-02-14 2003-02-14 유전정보 코딩장치 및 방법

Country Status (2)

Country Link
US (2) US20040161790A1 (ko)
KR (1) KR100858081B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2544113A1 (en) * 2011-07-05 2013-01-09 Koninklijke Philips Electronics N.V. Genomic/proteomic sequence representation, visualization, comparison and reporting using a bioinformatics character set and a mapped bioinformatics font

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000063419A1 (en) 1999-04-15 2000-10-26 Virtual Arrays, Inc. Combinatorial chemical library supports having indicia at coding positions and methods of use
KR20000070361A (ko) * 1997-01-21 2000-11-25 제너럴 하스피톨 코포레이션 Rna-단백질 융합물을 이용한 단백질의 선별
JP2001242135A (ja) 1999-10-20 2001-09-07 Shigeori Takenaka 遺伝子の検出用チップ、検出装置、並びに検出方法
US20020177158A1 (en) 1998-12-02 2002-11-28 Peter Lohse DNA-protein fusions and uses thereof

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7783428B2 (en) * 2002-03-01 2010-08-24 Maxygen, Inc. Methods, systems, and software for identifying functional biomolecules
US7158892B2 (en) * 2002-06-28 2007-01-02 International Business Machines Corporation Genomic messaging system
US20040162794A1 (en) * 2003-02-14 2004-08-19 Shackleford J. Barry Storage method and apparatus for genetic algorithm analysis
US8280640B2 (en) * 2003-08-11 2012-10-02 Eloret Corporation System and method for pattern recognition in sequential data

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20000070361A (ko) * 1997-01-21 2000-11-25 제너럴 하스피톨 코포레이션 Rna-단백질 융합물을 이용한 단백질의 선별
US20020177158A1 (en) 1998-12-02 2002-11-28 Peter Lohse DNA-protein fusions and uses thereof
WO2000063419A1 (en) 1999-04-15 2000-10-26 Virtual Arrays, Inc. Combinatorial chemical library supports having indicia at coding positions and methods of use
JP2001242135A (ja) 1999-10-20 2001-09-07 Shigeori Takenaka 遺伝子の検出用チップ、検出装置、並びに検出方法

Also Published As

Publication number Publication date
US20080097737A1 (en) 2008-04-24
US7599800B2 (en) 2009-10-06
US20040161790A1 (en) 2004-08-19
KR20040073734A (ko) 2004-08-21

Similar Documents

Publication Publication Date Title
Schaid et al. From genome-wide associations to candidate causal variants by statistical fine-mapping
JP5479431B2 (ja) バイオマーカー抽出装置および方法
US8280640B2 (en) System and method for pattern recognition in sequential data
Weiss et al. Best Practice Guidelines for the Use of Next‐Generation Sequencing Applications in Genome Diagnostics: A National Collaborative Study of D utch G enome D iagnostic L aboratories
Yuan et al. Probability theory-based SNP association study method for identifying susceptibility loci and genetic disease models in human case-control data
Speed et al. Relatedness in the post-genomic era: is it still useful?
Anastassiou Genomic signal processing
Dawy et al. Gene mapping and marker clustering using Shannon's mutual information
JP2005512015A (ja) 少なくとも1つの順序づけされた制限酵素マップを使用して1つ以上の遺伝子配列マップの検証、アラインメントおよび再順序づけを行うためのシステムおよび方法
Hodges et al. RheoScale: A tool to aggregate and quantify experimentally determined substitution outcomes for multiple variants at individual protein positions
KR100858081B1 (ko) 유전정보 코딩장치 및 방법
US20030236629A1 (en) Method and apparatus for calculating optimized solution of amino acid sequences of multiple-mutated proteins and storage medium storing program for executing the method
Alenazi et al. Bayesian variable selection using partially observed categorical prior information in fine‐mapping association studies
KR20030032395A (ko) 서포트 벡터 머신을 이용한 다중 에스엔피(snp)와질병의 상관관계 분석 방법
CN112017731B (zh) 一种数据处理方法、装置、服务器及计算机可读存储介质
Morohashi et al. Identifying gene regulatory networks from time series expression data by in silico sampling and screening
Da Silva et al. Using purine skews to predict genes in AT-rich poxviruses
Boerner On marker-based parentage verification via non-linear optimization
CN113077849A (zh) 一种大肠杆菌β-内酰胺类获得性耐药表型预测复合工具
Zhang et al. An extended Tajima’s D neutrality test incorporating SNP calling and imputation uncertainties
Banik Effect of the side effect machines in edit metric decoding
Huang et al. Measuring biological complexity in digital organisms
Cawley Statistical models for DNA sequencing and analysis
US20030171875A1 (en) Efficient methods and apparatus for high-throughput processing of gene sequence data
Ahn et al. Deepfunnet: deep learning for gene functional similarity network construction

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20120814

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20130822

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20140822

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20150820

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20160819

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20170817

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20180820

Year of fee payment: 11

FPAY Annual fee payment

Payment date: 20190814

Year of fee payment: 12