KR100431620B1 - 유전자 어휘 분류체계를 이용하여 디엔에이 칩을 분석하기위한 시스템 및 그 방법 - Google Patents

유전자 어휘 분류체계를 이용하여 디엔에이 칩을 분석하기위한 시스템 및 그 방법 Download PDF

Info

Publication number
KR100431620B1
KR100431620B1 KR10-2002-0010826A KR20020010826A KR100431620B1 KR 100431620 B1 KR100431620 B1 KR 100431620B1 KR 20020010826 A KR20020010826 A KR 20020010826A KR 100431620 B1 KR100431620 B1 KR 100431620B1
Authority
KR
South Korea
Prior art keywords
cluster
similarity distance
gene
dna chip
code
Prior art date
Application number
KR10-2002-0010826A
Other languages
English (en)
Other versions
KR20030071225A (ko
Inventor
김양석
허정욱
이성근
Original Assignee
주식회사 이즈텍
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 이즈텍 filed Critical 주식회사 이즈텍
Priority to KR10-2002-0010826A priority Critical patent/KR100431620B1/ko
Priority to AU2003212669A priority patent/AU2003212669A1/en
Priority to PCT/KR2003/000400 priority patent/WO2003072701A1/en
Publication of KR20030071225A publication Critical patent/KR20030071225A/ko
Application granted granted Critical
Publication of KR100431620B1 publication Critical patent/KR100431620B1/ko

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6813Hybridisation assays
    • C12Q1/6834Enzymatic or biochemical coupling of nucleic acids to a solid phase
    • C12Q1/6837Enzymatic or biochemical coupling of nucleic acids to a solid phase using probe arrays or probe chips

Landscapes

  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Genetics & Genomics (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Physiology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 유전자 어휘 분류체계(Gene Ontology; GO)의 계층 구조(hierarchical structure) 모델링을 통해 DNA 칩 또는 마이크로어레이 실험의 유전자 발현 양상(gene expression pattern)을 생물학적으로 분석하기 위한 시스템 및 그 분석 방법에 관한 것이다. 본 발명에 따른 GO를 이용한 DNA 칩 분석 시스템은 DNA 칩 실험 결과의 통계적 클러스터링(clustering) 결과를 입력받아, 각 클러스터에 속하는 유전자들마다 Gene Ontology(GO) 식별자(identifier)를 할당하는 수단; GO 코드 파일을 이용하여 상기 클러스터에 속하는 유전자에 할당된 GO 식별자를 각각 GO 코드로 변환하는 수단; 상기 클러스터의 속하는 유전자들의 GO 코드를 이용하여 유전자들의 평균 유사 거리 및 최대 유사 거리를 구하는 수단; 기본 과정 및 N-단계 선택 과정 중 하나의 방법에 따라 클러스터에 포함된 유전자들과 GO 트리 구조상의 GO 노드들과의 평균 유사 거리 및 최대 유사 거리를 이용하여 최적으로 매칭이 되는 GO 용어를 추출하는 수단; 및 상기 최적으로 매칭이 되는 GO 용어를 이용하여 상기 클러스터의 생물학적 의미를 추출하는 수단을 포함한다.

Description

유전자 어휘 분류체계를 이용하여 디엔에이 칩을 분석하기 위한 시스템 및 그 방법 {A SYSTEM FOR ANALYZING DNA-CHIPS USING GENE ONTOLOGY, AND A METHOD THEREOF}
본 발명은 유전자 어휘 분류체계를 이용하여 DNA 칩을 분석하기 위한 시스템 및 그 방법에 관한 것으로서, 보다 구체적으로, 유전자 어휘 분류체계(Gene Ontology; 이하 'GO'라 한다) 계층 구조(hierarchical structure)의 모델링을 통해 DNA 칩 또는 마이크로어레이(Microarray) 실험의 유전자 발현 양상(gene expression pattern)을 생물학적으로 분석하기 위한 시스템 및 그 분석 방법에 관한 것이다.
1954년 와트슨 및 크릭(Watson and Crick)에 의하여 DNA의 이중 나선 구조가 밝혀진 이래 제한 효소의 발견, 혼성화(hybridization) 기법, PCR (Polymerase chain reaction) 등의 발전은 생명 현상의 분자 수준에서의 이해에 크게 기여하였다. 그러나 복잡한 조절 기능을 갖는 생명 현상을 단편적으로 이해하는 것이 아니라 인간 지놈 프로젝트(Human Genomic Project; HGP)와 같이 전체적 이해를 할 수 있는 실험의 필요성이 대두됨에 따라, 염기서열의 기능을 이해하기 위한 과정이 수행되는 가운데 DNA Chip이 개발되었다. 이러한 HGP와 DNA Chip의 결과를 효율적으로 활용하기 위하여 생물정보학(Bioinformatics)과 기능체 유전학(Functional Genomics)의 연구도 활발하게 진행되고 있다.
바이오 칩은 크게 마이크로어레이 및 마이크로플루이딕스(microfluidics) 칩으로 구분되며, 여기서 마이크로어레이는 수천개 혹은 수만개 이상의 DNA나 단백질 등을 일정 간격으로 배열하여 붙이고, 분석 대상 물질을 처리하여 그 결합 양상을 분석할 수 있는 칩을 말하며, 전술한 DNA 칩 및 단백질 칩 딩이 있으며, 현재까지는 DNA 칩이 가장 널리 사용되고 있는 바이오 칩이라고 볼 수 있다. 또한, 마이크로플루이딕스 칩은 미량의 분석 대상 물질을 흘려보내면서 칩에 집적되어 있는 생물 분자 혹은 센서와 반응하는 양상을 분석할 수 있다.
이러한 DNA 칩은 유리판, 니트로셀룰로스 막(nitrocellulose membrane) 혹은 실리콘 위에 타겟 DNA 또는 cDNA나 올리고뉴클레오티드(oligonucleotide)를 붙인 것이다. 다시 말하면, 이러한 DNA 칩은 작은 면적의 고체 표면에 염기서열이 알려진 cDNA 혹은 올리고뉴클레오티드 탐침(probe)을 정해진 위치에 미세 집적(micro-array)시킨 것을 말한다.
이러한 DNA 칩은 형광물질 혹은 방사선 동위 원소로 표식된 탐침과 혼성화시켜 유전자의 발현 정도, 돌연 변이의 확인, 단일 뉴클레오티드 다형성(single nucleotide polymorphism; SNP), 질병의 진단, 고처리 스크리닝(high-throughput screening; HTS) 등에 사용할 수 있다. 이러한 DNA 칩에 분석하고자 하는 시료 DNA 단편을 결합시키면, DNA 칩에 부착되어 있는 탐침과 시료 DNA 단편상의 염기서열의 상보적 정도에 따라 혼성화 상태를 이루게 되는데, 광학적인 방법 혹은 방사능 화학적 방법 등을 통해 이를 관찰 해석함으로써, 시료 DNA의 염기 서열을 측정할 수 있다. 이러한 DNA 칩을 이용하면 많은 수의 유전자의 발현 정보를 간편하고 신속하게 알 수 있으며, 현재 신약 개발 및 의료 진단용으로 개발 사용되고 있다.
DNA 칩 결과의 분석에는 통계적인 방법과 생물학적인 방법이 병행되고 있다. 이미지 분석을 통하여 나타난 각 유전자들의 발현 정도를 통계적인 방법을 이용하여 공통적인 발현 양상을 보이는 것들을 클러스터링(clustering)을 통하여 묶어 낸다. 여기서 실제 각 유전자의 알려진 기능을 이용하여 해당 클러스터(cluster)에 일반적인 의미를 부여함과 동시에 해당 클러스터의 신뢰도를 생물학적으로 확인하게 된다.
기존의 생물학적 확인 과정은 논문이나 기존의 생물학 정보 데이터베이스 등에서 유전자의 기능을 추출하여 비교하는 방법을 이용한다. 이때 사용되는 데이터베이스들은 NCBI(National Center for Biotechnology Information)의 기본적인 DNA 정보, MIPS(Munich information center for protein sequences) 혹은 CGAP(Cancer genome anatomy project) 등의 기능별 분류(functional category) 정보, 또는 Swiss-Prot의 단백질 정보들을 이용한다. 하지만, 현재까지는 연구자의 수작업을 통해서 많이 이루어지고 있으며, 생물학 용어의 다양성 등으로 인하여 체계적이고 자동화된 분석을 수행하기 어려웠다는 문제점이 있다.
또한, 기존 생물학 정보 데이터베이스의 경우, 단백질의 정보원으로 많이 사용되는 Swiss-Prot은 핵심 단어(keyword)를 이용하여 단백질들의 기능을 잘 분류하였으나, 이들 핵심 단어들 사이에는 정형화된 상관 관계 혹은 상하 관계(hierarchy)가 존재하지 않으며, 이 때문에 DNA 칩의 생물학적 분석에서 자동화에 장애 요인으로 작용한다. 또한, CGAP(Cancer Genome Anatomy Project) 등의특화된 분야별의 그룹 정보들은 해당 분야에서만 적용되는 한계점을 지니며, 또한 그 그룹 자체가 너무 넓은 의미의 기능을 다루게 되므로, 세부적인 기능적 측면에서는 한계점을 지니게 된다는 문제점이 있다.
이에 따른 대안으로서, GO 컨소시엄(Gene Ontology Consortium)에서 제공하는 GO 용어를 이용하는 것이다. 여기서 어휘 분류체계(Ontology)란 간략하게 말하면 생물학 용어 또는 어휘를 분류해 놓은 체계를 말한다. 유전자 어휘 분류체계 컨소시엄은 생물학 용어들의 통합을 목적으로 세워졌으며, 모든 생물 종들에서 유전자의 기능을 설명하는데 있어서 사용되는 공통적으로 사용될 수 있는 통합된 용어들을 제공하며, 현재 일만여개의 용어로 구성되어 있다. 결국, GO는 유전자(Gene) 혹은 유전자에 함축된 키워드들이 각 개체가 되어 그것들 사이의 관계를 연구하는 것을 의미하며, 생물정보학(bioinformatics)에 적용하게 된다.
이러한 GO 용어의 특이점은 각 용어들 사이에 상하 관계의 트리 구조를 가지며, 전체 용어들을 3가지의 큰 범주(category)로 구분된다는 점이다. 즉, 세개의 큰 범주를 가지고 약 10,000개 정도의 용어들이 마치 트리 구조처럼 상하 관계(hierarchy)를 가지고 구성이 되어 있다. 이것을 이용하여 DNA 칩의 분석시 생물학적 의미를 찾기 위한 것으로, GO는 유전자의 기능을 크게 ⅰ) 분자의 기능(molecular function), ⅱ) 생물학적 작용(biological process), 및 ⅲ) 세포 성분(cellular component)의 범주로 나누고, 각각의 범주에 계층적인 통제 어휘(controlled vocabulary)를 확립하였다. 이들 범주는 서로 배타적인 것이 아니며, 한 개의 유전자를 묘사하기 위한 특징들을 나누는 범주이다.
전술한 문제점을 해결하기 위한 본 발명의 목적은 GO 계층 구조의 모델링을 통해 DNA 칩 실험의 유전자 발현 양상에 대해 체계적으로 생물학적 분석을 수행할 수 있도록 유전자 어휘 분류체계를 이용하여 DNA 칩을 분석하기 위한 시스템 및 분석 방법을 제공하기 위한 것이다.
또한, 본 발명의 다른 목적은 GO 용어와 트리 구조를 이용하여 DNA 칩의 실험 결과의 통계적인 클러스터링(clustering)을 통해 생성되는 클러스터(cluster)에 속하는 유전자들의 가장 공통적이며 이상적인 유전자의 기능을 추출하는 방법을 제공하기 위한 것이다.
도 1은 본 발명에 따른 유전자 어휘 분류체계(Gene Ontology)를 이용한 DNA 칩 분석 시스템의 구성도이다.
도 2는 본 발명에 따른 GO 트리 구조의 일례를 도시하는 도면이다.
도 3은 본 발명에 따라 텍스트 구조의 GO 트리를 변형한 일례를 예시하는 도면이다.
도 4는 본 발명에 따라 추출된 GO 코드의 변환 예를 보여주는 도면이다.
도 5는 본 발명에 따른 GO를 이용하여 유사 거리을 구하는 원리를 개략적으로 설명하기 위한 도면이다.
도 6은 노드가 여러개일 경우 최적 교차점을 구하는 일례를 도시한 도면이다.
도 7은 본 발명에 따른 GO를 이용하여 DNA 칩을 분석하는 방법의 동작 흐름도이다.
상기한 목적을 달성하기 위한 수단으로서, 본 발명에 따른 유전자 어휘 분류체계를 이용하여 DNA 칩을 분석하기 위한 시스템은 상기 DNA 칩 실험 결과의 통계적 클러스터링(clustering) 결과를 입력받아, 각 클러스터에 속하는 유전자들마다 Gene Ontology(GO) 식별자(identifier)를 할당하는 수단; GO 코드 파일을 이용하여 상기 클러스터에 속하는 유전자에 할당된 GO 식별자를 각각 GO 코드로 변환하는 수단; 상기 클러스터의 속하는 유전자들의 GO 코드를 이용하여 유전자들의 평균 유사 거리 및 최대 유사 거리를 구하는 수단; 기본 과정 및 N-단계 선택 과정 중 하나의 방법에 따라 클러스터에 포함된 유전자들과 GO 트리 구조상의 GO 노드들과의 평균 유사 거리 및 최대 유사 거리를 이용하여 최적으로 매칭이 되는 GO 용어를 추출하는 수단; 및 상기 최적으로 매칭이 되는 GO 용어를 이용하여 상기 클러스터의 생물학적 의미를 추출하는 수단을 포함하며, 상기 추출된 최적으로 매칭이되는 GO 용어와 이의 GO 코드 및 생물학적 의미를 디스플레이하기 위한 시각화 수단을 추가로 포함할 수 있다.
또한, 상기 시각화 수단은 상기 최적으로 매칭이되는 GO 용어와 이의 GO 코드 및 생물학적 의미의 요약 정보를 테이블 형태로 디스플레이 하거나, 또는 트리 구조 형태의 그래픽 결과를 디스플레이 하는 것을 특징으로 한다.
또한, 상기 유사거리는, 유사거리를Pd(v1,v2), 여기서 v1 및 v2는 노드라고 할 때, 두 노드 v1, v2가 형성하는 최적 교차점(optimal branch)의 코드가 가지는 레벨의 가중치(weight)이며, v1과 v2가 동일한 경우에는 Pd값은 0으로 정의되고;
또한, 주어진 클러스터의 코드들의 조합을 G라고 할 때, 최대 유사거리(max_pd)와 평균 유사거리(aver_pd)를 이용하여 각각의 최적 교차점을 구해지는데, 이때 G={ v1, v2, v3, v4, , vn} 에서 max_pd와 aver_pd는,
max_pd(G) = max { pd(vi, vj) } (단, 1≤i ≤j ≤n)
aver_pd(G) = (집합 G의 모든 pd(vi, vj)의 합) /nC2
= 2 × (집합 G의 모든 pd(vi, vj)의 합) / n(n-1)
로 정의되며, 가능한 코드들의 조합중에서 가장 낮은 점수의 max_pd와 aver_pd를 최종적으로 선택하는 것을 특징으로 한다.
또한, 상기 최대 유사거리(max_pd)는 클러스터를 개략적으로 평가하는데 사용되며, 최적 교차점이 보다 높은 상위의 단계에 위치할수록, 해당 클러스터는 소속 유전자들의 일반적인 공통성을 해치는 부적당(bad)한 클러스터를 포함하고 있을 확률이 높다는 것을 의미하는 것을 특징으로 한다.
또한, 상기 평균 유사거리(aver_pd)는 주어진 클러스터 내에서 GO 코드들이 얼마나 잘 응집되어 있는지, 그리고 얼마나 비슷한 코드들이 얼마나 빈번히 관찰되는지를 나타내는 것을 특징으로 한다.
또한, 상기 기본 과정은 GO 트리 구조상의 모든 노드들에 대하여 최대 유사거리(max_pd) 및 평균 유사거리(aver_pd)를 이용하여 계산하며, 상기 기본 과정의 결과는 주어진 클러스터의 대략적인 생물학적 의미를 보여주며, 상기 N-단계 선택 과정은 GO 트리 구조상에서 선택한 특정 레벨의 GO 노드에 대해 최대 유사거리 및 평균 유사거리를 이용하여 계산한다.
또한, 본 발명에 따른 유전자 어휘 분류체계를 이용하여 DNA 칩을 분석하기 위한 분석 방법은, a) 상기 DNA 칩 실험 결과의 통계적 클러스터링 결과를 각 클러스터마다 GO 식별자를 할당하는 단계; b) GO 코드 파일을 이용하여 상기 클러스터에 속하는 유전자에 할당된 GO 식별자를 각각 GO 코드로 변환하는 단계; c) 상기 클러스터의 속하는 유전자들의 GO 코드를 이용하여 유전자들의 평균 유사 거리 및 최대 유사 거리를 구하는 단계; d) 기본 과정 및 N-단계 선택 과정 중 하나의 방법에 따라 클러스터에 포함된 유전자들과 GO 트리 구조상의 GO 노드들과의 평균 유사 거리 및 최대 유사 거리를 이용하여 최적으로 매칭이 되는 GO 용어를 추출하는 단계; 및 e) 상기 최적으로 매칭이 되는 GO 용어를 이용하여 상기 클러스터의 생물학적 의미를 추출하는 단계을 포함하며, 상기 추출된 최적으로 매칭이되는 GO 용어와 이의 GO 코드 및 생물학적 의미를 디스플레이하는 단계를 더 포함할 수 있다.
이하 첨부된 도면을 참조하여 본 발명에 따른 GO를 이용하여 DNA 칩을 분석하기 위한 시스템과 그 방법의 바람직한 실시예를 설명한다.
도 1은 본 발명에 따른 GO를 이용한 DNA 칩 분석 시스템의 구성도로서, 상기 DNA 칩 실험 결과의 통계적 클러스터링 결과를 입력하는 입력부(110); GO 식별자 인덱스 파일(120)을 이용하여, 상기 입력된 클러스터링 결과에 대해 각 클러스터에 속하는 유전자마다 GO 식별자를 할당하는 GO 식별자 할당부(130); GO 코드 파일을 이용하여 상기 유전자에 할당된 GO 식별자를 각각 GO 코드로 변환하는 GO식별자/GO 코드 변환부(140); 상기 GO 코드에 대해 유사거리 알고리즘(210)에 따른 소정의 과정을 선택하여 필요한 변수를 지정하여 최적 교차점을 추출하는 최적 교차점 추출부(220); 및 상기 추출된 각각의 최적 교차점에 대해 그 생물학적 의미를 추출하는 생물학적 의미 추출부(230)를 포함하여 이루어진다. 또한, 상기 유전자마다 각각 추출된 최적 교차점, 상기 GO 코드, 및 생물학적 의미를 디스플레이하기 위한 디스플레이(310)를 추가로 포함할 수 있다.
본 발명은 GO 용어와 트리 구조를 이용하여 DNA 칩의 실험결과의 통계적인 클러스터링을 통해 생성되는 클러스터에 속하는 유전자들의 가장 공통적이며 이상적인 유전자의 기능을 추출하게 된다.
이를 위해, 각각의 유전자에 대하여 정확한 GO 용어를 할당하고, 트리 구조형태의 GO hierarchy의 구조를 효율적으로 이용하여 최적 교차점을 추출하며, 그리고 최적 교차점 추출 결과를 효율적으로 디스플레이 하게 된다.
도 2는 본 발명에 따른 GO 구조의 일례를 도시하는 도면으로서, 최상위 레벨은 GO 계층, 두 번째 계층은 전술한 분자의 기능(molecular function), 생물학적 작용(biological process), 및 세포 성분(cellular component) 계층에 해당하며, 레벨 3, 4 및 5의 하위 레벨로 각각 트리가 형성되는 것을 도시하고 있다. 도 3은 본 발명에 따라 텍스트 구조의 GO 트리를 변형한 일례를 예시하는 도면으로서, 실질적으로, GO는 트리 구조가 아니고 회로가 없는 유향 그래프(acyclic diagraph)라는 수학적 그래프 형태를 띠게 되며, 본 발명에서 사용하는 유사 알고리즘을 통해 GO 구조를 GO 트리 구조로 바꾸게 된다. 도 3은 이러한 텍스트 구조의 GO 트리를 약간 변형한 일례를 나타낸다. 또한, 도 4는 본 발명에 따라 추출된 GO 코드의 변환 예를 보여주는 도면으로서, 상기 GO 코드 변환부(140)에 의해 변환된 결과를 출력하는 것을 예시하고 있다. 도 4에서 "Output"란에 기재된 숫자들이 GO 코드이며, 도 4에 도시된 바와 같이, GO 코드는 15개의 숫자 조합으로 이루어져 있다. GO 용어는 문자이므로 다른 GO 용어들과 GO 트리 구조상에서 어느 정도 근접해있는지 여부를 판단할 수 없다. 따라서, 본 발명에서는 GO 용어를 미리 설정된 숫자 조합인 GO 코드로 변환하도록 하는 것이다. GO 코드가 15자리인 것은 GO 계층 구조의 레벨이 15레벨이기 때문이며, GO 코드의 첫 번째 자리는 1레벨에서의 값, GO 코드의 두 번째 자리는 2레벨에서의 값을 각각 나타낸다.도 2를 참조하여, GO 노드를 GO 코드로 변환하는 예를 설명하면 다음과 같다. 식별부호 400의 GO 노드는 1레벨에 속하며, 1레벨의 첫 번째 노드이다. 이때 식별부호 400의 GO 노드는 "100000000000000"의 GO 코드로 변환된다. 식별부호 400의 GO 노드는 1레벨의 첫 번째 GO 노드이므로 2번째 자리수부터 15번째 자리수까지의 값은 0이고, 첫 번째 자리수의 값은 1이다.식별부호 402의 GO 노드는 2번째 레벨이며, 식별 부호 400인 GO 노드의 하위 노드이다. 이때, 식별부호 402의 GO 노드는 "110000000000000"의 GO 코드로 변환된다. 식별부호 402의 GO 노드는 2레벨에 속하기 때문에, 3자리부터 15자리까지의 값은 0이다. 또한, 식별부호 400에 해당하는 GO 노드의 자(子)노드이기 때문에, 첫 번째 자리수의 값은 모(母)노드의 값을 그대로 사용한다. 또한, 식별부호 402의 GO 노드는 레벨2에 속하는 식별부호 400의 노드의 하위 노드들 중 첫 번째 노드이므로 2번째 자리수의 값은 1이다.이와 같은 원리로, 식별 부호 404의 GO 노드는 "120000000000000"GO 코드로 변환될 수 있을 것이다.식별 부호 410의 GO 노드는 세 번째 레벨이고, 식별 부호 402의 노드의 자(子)노드이며, 식별 부호 402의 자(子)노드들 중 2번째 노드이다. 따라서, 식별 부호 410의 GO 노드는 "112000000000000"의 GO 코드로 변환될 수 있을 것이다. 같은 원리로, 식별부호 412의 GO 노드는 "121000000000000"의 GO 코드로 변환된다.위와 같은 원리로 GO 노드가 GO 코드로 변환되므로, GO 코드는 GO 노드가 속하는 레벨 및 GO 노드의 모(母)노드에 대한 정보를 포함하고 있다.
본 발명에서, 최적 교차점(optimal branch)이란 트리 구조상에서 가장 많은 수의 유전자들을 아래에 포함하는 노드(node)들 중에 가장 하위에 위치한 노드(node)를 말하며, 그 하위에 포함되는 유전자들의 각각의 기능을 모두 대표할 수 있는 광의의 용어(term)가 된다. 본 발명에서는 GO 트리 구조에서 두 노드 사이의 유사 거리(Pseudo-distance)를 구하게 되는데, 최적 교차점을 구하는 과정은 유사 거리를 계산하기 위한 전 단계이다.두 노드 사이의 최적 교차을 구하는 예를 도 2를 참조하여 설명하면 다음과 같다.식별 부호 408의 노드와 식별 부호 310의 노드를 모두 포함하는 상위 노드는 식별 부호 402의 노드 및 식별 부호 400의 노드가 있다. 전술한 바와 같이, 두 개의 노드를 모두 포함하는 상위 노드들 중 가장 하위 노드를 최적 교차점으로 판단하며, 이중 식별 부호 402의 노드가 가장 하위 노드이므로, 식별부호 408의 노드 및 식별 부호 410의 노드의 최적 교차점은 식별부호 402의 노드이다.GO 코드를 이용할 경우, 최적 교차점은 비교적 쉽게 구해질 수 있다. 도 2에서, 식별부호 408번 노드의 GO 코드는 "111000000000000"이고 식별 부호 410번 노드의 GO 코드는 "112000000000000"이다. 두 개의 GO 코드는 2번째 자리까지 동일하므로, 최적 교차점은 2번째 레벨에 존재하며, 1레벨의 첫 번째 노드(첫번째 자리수가 1이므로)의 자(子)노드들 중 첫 번째 노드(두번째 자리수가 1)가 최적 교차점이라는 것을 알 수 있다. 여러개의 노드의 최적 교차점을 구하는 일례는 도 6에 도시되어 있다. 최적 교차점을 이용하여 유사 거리를 구하는 방법은 후에 상세히 살명한다.
각 유전자별로 정확한 GO 용어를 할당하는 것은, 여러 생물학 데이터베이스의 텍스트 마이닝을 통하여, 유전자별 GO 용어를 할당하게 된다. UniGene, LocusLink, Swiss-Prot, MGI 등의 DNA 혹은 단백질 수준에서의 정보를 직접적인 식별자(ID) 비교와 서열 유사성 검색 방법을 병행하여 사용하며, GO 컨소시엄에서 각 데이터베이스별로 제공되는 유전자 식별자(ID) 변환 파일들을 이용하여 각 유전자별 GO 용어를 할당한다.
여기서, UniGene은 NCBI는 NCBI(National Center for Biotechnology Information)에서 제공하는 DNA 수준에서의 유전자 정보 제공하고, LocusLink는 NCBI의 대표 서열 프로젝트(Reference Sequence Project)로 결과로 각 유전자별 기능 및 대표성을 가지는 서열 정보를 제공하며, Swiss-Prot은 스위스 생물정보학 연구소(Swiss Institute of Bioinformatic)에서 단백질 수준의 정보 제공하며, 그리고 MGI는 쥐(mouse)의 유전체 정보를 제공한다.
본 발명에서는 GO 트리 구조를 효율적으로 이용하여 최적 교차점(optimal branch)을 구하고 최적 교차점을 이용하여 유사 거리를 구한 후, 그것을 이용하여 주어진 클러스터를 대표할 수 있는 GO 용어를 찾게 된다. 즉, 클러스터의 유전자들에 부여된 GO 식별자와 GO 트리 구조의 노드들과의 유사거리를 통해 클러스터를 대표할 수 있는 GO 용어를 찾는 것이다. 이를 해결하기 위하여 먼저 GO 트리 구조상의 각 노드(node)들을 코드화하였다. 이 코드들은 전술한 바와 같이 15개의 숫자 조합으로 구성되었으며, 각각의 숫자는 상위 루트까지의 단계별 위치 정보를 나타낸다. 또한, 각 노드별로 유일한 코드들이 부여됨에 따라서, 동일한 용어(term)들이 트리 구조상에서 여러 곳에 위치하게 되는 경우라도 각각 구분된다.도 5는 본 발명에 따른 GO를 이용하여 유사거리를 구하는 원리를 개략적으로 설명하기 위한 도면이다.
도 5에 도시된 바와 같이, 이들 GO 코드들을 이용하여 유사 거리를 구하기 위해 GO 트리 구조의 각 레벨별로 적절한 가중치(weight)가 부여되어 있다.
Pd(v1,v2)는 두 노드 v1, v2가 형성하는 최적 교차점(optimal branch)의 코드가 가지는 레벨의 가중치(weight)이며, v1과 v2가 동일한 경우에는 Pd값은 0으로 정의된다. 즉,
pd(v1,v2) = v1 및 v2 사이의 최적 교차점 코드의 가중치(단 v1≠v2인 경우)
pd(v1,v2) = 0 (v1 = v2인 경우)
를 가지는 조합을 최종적으로 선택한다.도 5에서 식별 부호 500의 노드와 식별 부호 502의 노드의 최적 교차점은 식별부호 504의 노드이며, 식별부호 504의 노드는 2레벨에 존재하고, 2레벨에 부여된 가중치는 140이다. 따라서, 식별부호 500인 노드와 식별부호 502인 노드의 유사 거리는 140이 된다.
다음에, 주어진 클러스터(cluster)의 코드들의 조합을 G라고 할 때, 최대 유사거리인 Pd(max_Pd)와 평균 유사거리인 Pd(aver_Pd)를 구한다.
G={ v1, v2, v3, v4, , vn} 에서 max_Pd와 aver_Pd는 아래와 같이 정의되며, 가능한 코드들의 조합중에서 가장 낮은 점수의 max_pd와 aver_pd는 다음과 같다.
max_Pd(G) = max { pd(vi, vj) } with 1≤i≤ j ≤n
aver_Pd(G) = (sum of all pd(vi, vj) in set G) /nC2
= 2 * (sum of all pd(vi,vj) in set G) / n(n-1)
여기서, max_pd는 클러스터를 개략적으로 평가하는 사용될 수 있는 척도이다. 만약 최적 교차점이 보다 높은 상위의 단계에 위치할수록, 해당 클러스터는 소속 유전자들의 일반적인 공통성을 해치는 부적당(bad)한 클러스터를 포함하고 있을 가능성이 높게 된다.
상기 Aver_pd는 주어진 클러스터 내에서 GO 코드들이 얼마나 잘 응집되어 있는지 그리고 얼마나 비슷한 코드들이 얼마나 빈번히 관찰되는지를 나타낼 수 있다.
한편, 클러스터를 대표할 수 있는 GO 용어를 찾는 과정에는 크게 기본 과정(Basic Process), N-단계 선택 과정(N-level selective process)이 있을 수 있다.
상기 기본 과정은 GO 트리 구조상의 모든 노드들에 대하여 클러스터의 유전자들과의 max_pd 및 aver_pd를 이용하여 계산한다. 이 기본 과정의 결과 클러스터와 최적으로 매칭이 되는 GO 용어를 찾을 수 있게 되며, 이를 통해 클러스터와 주어진 클러스터의 대략적인 생물학적 의미를 알 수 있게 된다.
또한, 상기 N-단계 선택 과정은 GO 트리 구조상의 모든 노드에 대해 클러스터의 유전자들과의 max_pd 및 aver_pd를 계산하는 것이 아니라, 사용자가 일정 제한점을 지정할 수 있는 것이다. 여기서 N-단계 선택 과정은 max_pd 및 aver_pd를 계산할 GO 트리 구조의 레벨을 미리 지정하여 계산하는 것으로, 특정 단계에서의 최적으로 매칭이 되는 GO 용어를 쉽게 관찰할 수 있으며, 기본과정에서는 알기 힘든 하위 단계에서의 생물학적 의미를 쉽게 유추해 볼 수 있도록 해준다. 특히, N-단계 선택 과정에서는 최상의 코드 조합 이외에도 그 다음 순위의 그룹을 나타낼 수 있다. 이것은 하나의 유전자가 두 개 이상의 기능에 관여할 수도 있는 다양성을 모두 포함할 수 있도록 해준다.
도 7은 본 발명에 따른 GO를 이용하여 DNA 칩을 분석하는 방법의 동작 흐름도로서, DNA 칩을 분석하기 위한 방법에 있어서, 상기 DNA 칩 실험 결과의 통계적 클러스터링(clustering) 결과를 입력받아(S10), 상기 DNA 칩 실험 결과의 통계적 클러스터링(clustering) 결과를 입력받아(S10), 각 클러스터에 속하는 유전자마다 Gene Ontology(GO) 식별자(identifier)를 할당하는 단계(S20); GO 코드 파일을 이용하여 상기 유전자마다 할당된 GO 식별자를 각각 GO 코드로 변환하는 단계(S30); 상기 GO 코드에 대해 유사거리 알고리즘(S40)에 따른 기본 과정(S41), N-단계 선택 과정(S42)중에서 소정의 과정을 선택하고 필요한 변수를 지정하여 최적으로 매칭이 되는 GO 용어를 추출하는 단계(S50); 상기 최적으로 매칭이 되는 GO 용어를 이용하여 그 생물학적 의미를 추출하는 단계(S60); 및 최적으로 매칭이 되는 GO 용어 및 그 GO 코드를 디스플레이 하는 단계(S70)로 이루어진다.
도 7을 참조하여, 본 발명에 따라 GO 구조를 이용한 DNA 칩의 유전자 발현 양상의 생물학적 분석의 전체적인 방법을 설명하면 다음과 같다.
먼저, 유전자 발현 양상의 통계적 클러스터링을 통한 결과에서 각 클러스터에 속하는 유전자별로 GO 식별자 및 코드를 할당하는 과정을 수행하게 된다.
구체적으로, 클러스터링 결과를 입력(S10)하면, 각 유전자별로 GO ID를 여러 데이터베이스의 마이닝(mining)을 통한 미리 GO ID들을 할당해 놓은 파일을 이용하여, 클러스터내의 유전자들에 GO 식별자를 할당하게 된다(S20). 다음에, GO 트리 구조 전체를 코드화 시켜놓은 GO 코드 파일을 이용하여, 클러스터별 유전자 내에 할당된 GO ID들을 GO 코드로 변환하게 된다(S30).
다음에 유사 알고리즘을 이용하여, 기본 과정(S41) 및 N-단계 선택 과정(S42), 중 적절한 과정을 선택하고(S40), 필요한 변수를 지정하게 된다. 이후, 각 과정별 Pd를 이용하여 최적으로 매칭이 되는 GO 용어를 추출하며(S50), 이에 따른 생물학적 의미를 각각 추출하게 된다.
다음에, 각 클러스터별로 추출된 최적 매칭 GO 용어 및 GO 코드를 디스플레이 하게 되는데, 테이블 형태의 각 유전자별 GO 코드 및 최적 매칭 GO 용어 및 상기 생물학적 의미의 요약 정보, 또는 트리 구조 형태의 그래픽 결과를 디스플레이 할 수 있다.
한편, 상기 유사 알고리즘은 다른 바이오 칩인 단백질 칩에도 동일하게 적용될 수 있으며, 도 1 및 도 7과 DNA 칩 대신에 단백질 칩을 분석하게 되고, 그리고 동일한 방식으로 유사거리 알고리즘을 사용하여 유전자 대신 단백질에 대해서도 마찬가지로 적용할 수 있다.
본 발명을 상기 실시예에 의해 구체적으로 설명하였지만, 본 발명은 이에 의해 제한되는 것은 아니고, 당업자의 통상적인 지식의 범위 내에서 그 변형이나 개량이 가능하다.
본 발명에 따르면, GO 계층 구조의 모델링을 통해 DNA 칩 실험의 유전자 발현 양상에 대해 체계적으로 자동화된 생물학적 분석을 수행할 수 있고, 또한 GO 용어와 트리 구조를 이용하여 DNA 칩의 실험 결과의 통계적인 클러스터링을 통해 생성되는 클러스터에 속하는 유전자들의 가장 공통적이며 이상적인 유전자의 기능을 추출할 수 있다.

Claims (18)

  1. DNA 칩을 분석하기 위한 시스템에 있어서,
    상기 DNA 칩 실험 결과의 통계적 클러스터링(clustering) 결과를 입력받아, 각 클러스터에 속하는 유전자들마다 Gene Ontology(GO) 식별자(identifier)를 할당하는 수단;
    GO 코드 파일을 이용하여 상기 클러스터에 속하는 유전자에 할당된 GO 식별자를 각각 GO 코드로 변환하는 수단;
    상기 클러스터의 속하는 유전자들의 GO 코드를 이용하여 유전자들의 평균 유사 거리 및 최대 유사 거리를 구하는 수단; 및
    기본 과정 및 N-단계 선택 과정 중 하나의 방법에 따라 클러스터에 포함된 유전자들과 GO 트리 구조상의 GO 노드들과의 평균 유사 거리 및 최대 유사 거리를 이용하여 최적으로 매칭이 되는 GO 용어를 추출하는 수단; 및
    상기 최적으로 매칭이 되는 GO 용어를 이용하여 상기 클러스터의 생물학적 의미를 추출하는 수단
    을 포함하는 유전자 어휘 분류체계(GO)를 이용한 DNA 칩 분석 시스템.
  2. 제1항에 있어서,
    상기 추출된 최적으로 매칭이되는 GO 용어와 이의 GO 코드 및 생물학적 의미를 디스플레이하기 위한 시각화 수단을 추가로 포함하는 유전자 어휘 분류체계를 이용한 DNA 칩 분석 시스템.
  3. 제2항에 있어서,
    상기 시각화 수단은 상기 최적으로 매칭이되는 GO 용어와 이의 GO 코드 및 생물학적 의미의 요약 정보를 테이블 형태로 디스플레이 하거나, 또는 트리 구조 형태의 그래픽 결과를 디스플레이 하는 것을 특징으로 하는 유전자 어휘 분류체계를 이용한 DNA 칩 분석 시스템.
  4. 삭제
  5. 제1항에 있어서,
    상기 유사거리는,
    유사거리를Pd(v1,v2), 여기서 v1 및 v2는 노드라고 할 때, 두 노드 v1, v2가 형성하는 최적 교차점(optimal branch)의 코드가 가지는 레벨의 가중치(weight)이며, v1과 v2가 동일한 경우에는 Pd값은 0으로 정의되고;
    또한, 주어진 클러스터의 코드들의 조합을 G라고 할 때, 최대 유사거리(max_pd)와 평균 유사거리(aver_pd)를 이용하여 각각의 최적 교차점을 구해지는데, 이때 G={ v1, v2, v3, v4, , vn} 에서 max_pd와 aver_pd는,
    max_pd(G) = max { pd(vi, vj) } (단, 1≤i ≤j ≤n)
    aver_pd(G) = (집합 G의 모든 pd(vi, vj)의 합) /nC2
    = 2 × (집합 G의 모든 pd(vi, vj)의 합) / n(n-1)
    로 정의되며, 가능한 코드들의 조합중에서 가장 낮은 점수의 max_pd와 aver_pd를 최종적으로 선택하는 것을 특징으로 하는 유전자 어휘 분류체계를 이용한 DNA 칩 분석 시스템.
  6. 제5항에 있어서,
    상기 최대 유사거리(max_pd)는 클러스터를 개략적으로 평가하는데 사용되며, 최적 교차점이 보다 높은 상위의 단계에 위치할수록, 해당 클러스터는 소속 유전자들의 일반적인 공통성을 해치는 부적당(bad)한 클러스터를 포함하고 있을 확률이 높다는 것을 의미하는 것을 특징으로 하는 유전자 어휘 분류체계를 이용한 DNA 칩 분석 시스템.
  7. 제5항에 있어서,
    상기 평균 유사거리(aver_pd)는 주어진 클러스터 내에서 GO 코드들이 얼마나잘 응집되어 있는지, 그리고 얼마나 비슷한 코드들이 얼마나 빈번히 관찰되는지를 나타내는 것을 특징으로 하는 유전자 어휘 분류체계를 이용한 DNA 칩 분석 시스템.
  8. 삭제
  9. 제1항에 있어서,
    상기 기본 과정은 GO 트리 구조상의 모든 노드들에 대하여 최대 유사거리(max_pd) 및 평균 유사거리(aver_pd)를 이용하여 계산하며, 상기 기본 과정의 결과는 주어진 클러스터의 대략적인 생물학적 의미를 보여주는 것을 특징으로 하는 유전자 어휘 분류체계를 이용한 DNA 칩 분석 시스템.
  10. 제1항에 있어서,
    상기 N-단계 선택 과정은 GO 트리 구조상에서 선택한 특정 레벨의 GO 노드에 대해 최대 유사거리 및 평균 유사거리를 이용하여 계산하는 것임을 특징으로 하는 유전자 어휘 분류체계를 이용한 DNA 칩 분석 시스템.
  11. 삭제
  12. 삭제
  13. DNA 칩을 분석하기 위한 방법에 있어서,
    a) 상기 DNA 칩 실험 결과의 통계적 클러스터링 결과를 각 클러스터마다 GO 식별자를 할당하는 단계;
    b) GO 코드 파일을 이용하여 상기 클러스터에 속하는 유전자에 할당된 GO 식별자를 각각 GO 코드로 변환하는 단계;
    c) 상기 클러스터의 속하는 유전자들의 GO 코드를 이용하여 유전자들의 평균 유사 거리 및 최대 유사 거리를 구하는 단계;
    d) 기본 과정 및 N-단계 선택 과정 중 하나의 방법에 따라 클러스터에 포함된 유전자들과 GO 트리 구조상의 GO 노드들과의 평균 유사 거리 및 최대 유사 거리를 이용하여 최적으로 매칭이 되는 GO 용어를 추출하는 단계; 및
    e) 상기 최적으로 매칭이 되는 GO 용어를 이용하여 상기 클러스터의 생물학적 의미를 추출하는 단계
    을 포함하는 유전자 어휘 분류체계를 이용한 DNA 칩 분석 방법.
  14. 제13항에 있어서,
    상기 추출된 최적으로 매칭이되는 GO 용어와 이의 GO 코드 및 생물학적 의미를 디스플레이하는 단계를 더 포함하는 유전자 어휘 분류체계를 이용한 DNA 칩 분석 방법.
  15. 제13항에 있어서,
    상기 유사거리는,
    유사거리를Pd(v1,v2), 여기서 v1 및 v2는 노드라고 할 때, 두 노드 v1, v2가 형성하는 최적 교차점(optimal branch)의 코드가 가지는 레벨의 가중치(weight)이며, v1과 v2가 동일한 경우에는 Pd값은 0으로 정의되고;
    또한, 주어진 클러스터의 코드들의 조합을 G라고 할 때, 최대 유사거리(max_pd)와 평균 유사거리(aver_pd)를 이용하여 각각의 최적 교차점을 구해지는데, 이때 G={ v1, v2, v3, v4, , vn} 에서 max_pd와 aver_pd는,
    max_pd(G) = max { pd(vi, vj) } (단, 1≤i ≤j ≤n)
    aver_pd(G) = (집합 G의 모든 pd(vi, vj)의 합) /nC2
    = 2 × (집합 G의 모든 pd(vi, vj)의 합) / n(n-1)
    로 정의되며, 가능한 코드들의 조합중에서 가장 낮은 점수의 max_pd와 aver_pd를 최종적으로 선택하는 것을 특징으로 하는 유전자 어휘 분류체계를 이용한 DNA 칩 분석 방법.
  16. 제15항에 있어서,
    상기 최대 유사거리(max_pd)는 클러스터를 개략적으로 평가하는데 사용되며, 최적 교차점이 보다 높은 상위의 단계에 위치할수록, 해당 클러스터는 소속 유전자들의 일반적인 공통성을 해치는 부적당(bad)한 클러스터를 포함하고 있을 확률이 높다는 것을 의미하는 것을 특징으로 하는 유전자 어휘 분류체계를 이용한 DNA 칩 분석 방법.
  17. 제15항에 있어서,
    상기 평균 유사거리(aver_pd)는 주어진 클러스터 내에서 GO 코드들이 얼마나 잘 응집되어 있는지, 그리고 얼마나 비슷한 코드들이 얼마나 빈번히 관찰되는지를 나타내는 것을 특징으로 하는 유전자 어휘 분류체계를 이용한 DNA 칩 분석 방법
  18. 삭제
KR10-2002-0010826A 2002-02-28 2002-02-28 유전자 어휘 분류체계를 이용하여 디엔에이 칩을 분석하기위한 시스템 및 그 방법 KR100431620B1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR10-2002-0010826A KR100431620B1 (ko) 2002-02-28 2002-02-28 유전자 어휘 분류체계를 이용하여 디엔에이 칩을 분석하기위한 시스템 및 그 방법
AU2003212669A AU2003212669A1 (en) 2002-02-28 2003-02-28 A system for analyzing dna-chips using gene ontology and a method thereof
PCT/KR2003/000400 WO2003072701A1 (en) 2002-02-28 2003-02-28 A system for analyzing dna-chips using gene ontology and a method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR10-2002-0010826A KR100431620B1 (ko) 2002-02-28 2002-02-28 유전자 어휘 분류체계를 이용하여 디엔에이 칩을 분석하기위한 시스템 및 그 방법

Publications (2)

Publication Number Publication Date
KR20030071225A KR20030071225A (ko) 2003-09-03
KR100431620B1 true KR100431620B1 (ko) 2004-05-17

Family

ID=27764625

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2002-0010826A KR100431620B1 (ko) 2002-02-28 2002-02-28 유전자 어휘 분류체계를 이용하여 디엔에이 칩을 분석하기위한 시스템 및 그 방법

Country Status (3)

Country Link
KR (1) KR100431620B1 (ko)
AU (1) AU2003212669A1 (ko)
WO (1) WO2003072701A1 (ko)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050096044A (ko) * 2004-03-29 2005-10-05 주식회사 이즈텍 유전자 기능 분석 방법
US7848890B2 (en) 2004-12-08 2010-12-07 Electronics And Telecommunications Research Institute Method and system for predicting gene pathway using gene expression pattern data and protein interaction data
KR100849497B1 (ko) * 2006-09-29 2008-07-31 한국전자통신연구원 온톨로지 매핑을 이용한 단백질 이름 정규화 방법
KR100836865B1 (ko) * 2006-09-29 2008-06-11 고려대학교 산학협력단 마이크로어레이 실험 정보의 통합 관리 방법 및 그기록매체
KR100897523B1 (ko) * 2006-12-05 2009-05-15 한국전자통신연구원 유전자 상동성 정보를 이용한 유전자 리스트의 생체패스웨이 할당 장치 및 그 방법
KR101067352B1 (ko) * 2009-11-19 2011-09-23 한국생명공학연구원 생물학적 네트워크 분석을 이용한 마이크로어레이 실험 자료의 작용기작, 실험/처리 조건 특이적 네트워크 생성 및 실험/처리 조건 관계성 해석을 위한 알고리즘을 포함한 시스템 및 방법과 상기 방법을 수행하기 위한 프로그램을 갖는 기록매체
KR101151785B1 (ko) * 2010-01-18 2012-05-31 한국기초과학지원연구원 유전자 명명법을 이용한 상동체 유전자의 발굴 방법
CA2740334C (en) 2010-05-14 2015-12-08 National Research Council Order-preserving clustering data analysis system and method
CN102567314B (zh) * 2010-12-07 2015-03-04 中国电信股份有限公司 知识查询装置和方法
CN103366098B (zh) * 2013-07-24 2016-04-20 国家电网公司 一种基于实验资源树的实验能力定量评价方法
CN116150864B (zh) * 2023-04-25 2023-07-04 中国建筑第五工程局有限公司 一种从bim模型中自动生成建筑结构分析模型的方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5887120A (en) * 1995-05-31 1999-03-23 Oracle Corporation Method and apparatus for determining theme for discourse
EP1053460A4 (en) * 1998-01-29 2003-06-04 Yissum Res Dev Co AN AUTOMATIC METHOD FOR CLASSIFYING MOLECULES
US6216134B1 (en) * 1998-06-25 2001-04-10 Microsoft Corporation Method and system for visualization of clusters and classifications

Also Published As

Publication number Publication date
WO2003072701A1 (en) 2003-09-04
KR20030071225A (ko) 2003-09-03
AU2003212669A1 (en) 2003-09-09

Similar Documents

Publication Publication Date Title
Grün et al. Design and analysis of single-cell sequencing experiments
Tefferi et al. Primer on medical genomics part III: microarray experiments and data analysis
Dubitzky et al. Introduction to microarray data analysis
Bennett et al. Toward the $1000 human genome
US20040012633A1 (en) System, method, and computer program product for dynamic display, and analysis of biological sequence data
US20070087368A1 (en) Method, System and Computer Software Providing a Genomic Web Portal for Functional Analysis of Alternative Splice Variants
US20110105346A1 (en) Universal fingerprinting chips and uses thereof
EP2923293B1 (en) Efficient comparison of polynucleotide sequences
WO2009111581A1 (en) Categorization and filtering of scientific data
KR100431620B1 (ko) 유전자 어휘 분류체계를 이용하여 디엔에이 칩을 분석하기위한 시스템 및 그 방법
US20160333402A1 (en) Barcode sequences, and related systems and methods
US20030033290A1 (en) Program for microarray design and analysis
Blank Next-generation analysis of deep sequencing data: bringing light into the black box of SELEX experiments
US20070143031A1 (en) Method of analyzing a bio chip
CN108137642A (zh) 分子质量保证方法在测序中的应用
US20040030504A1 (en) System, method, and computer program product for the representation of biological sequence data
Chen et al. How will bioinformatics impact signal processing research?
CN106702010A (zh) 一种遗传标记组合、个体基因身份证、二维码、试剂盒及其用途
EP2665009A1 (en) Nucleic acid information processing device and processing method thereof
Zubi et al. Sequence mining in DNA chips data for diagnosing cancer patients
US6994965B2 (en) Method for displaying results of hybridization experiment
Curion et al. hadge: a comprehensive pipeline for donor deconvolution in single cell
KR20000059431A (ko) Dna 타이핑을 이용한 데이터베이스로부터의 가족 확인 방법및 이를 위한 다형성 마커의 조합
CN101743320A (zh) 来自基因转录产物检测的具有广泛基础的疾病结合
Tinker Why quantitative geneticists should care about bioinformatics.

Legal Events

Date Code Title Description
A201 Request for examination
A302 Request for accelerated examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20070507

Year of fee payment: 4

LAPS Lapse due to unpaid annual fee