KR102447359B1 - 유전자 연관 관계 통합 기반 신규 질병유전자 예측 장치 및 방법 - Google Patents

유전자 연관 관계 통합 기반 신규 질병유전자 예측 장치 및 방법 Download PDF

Info

Publication number
KR102447359B1
KR102447359B1 KR1020200027783A KR20200027783A KR102447359B1 KR 102447359 B1 KR102447359 B1 KR 102447359B1 KR 1020200027783 A KR1020200027783 A KR 1020200027783A KR 20200027783 A KR20200027783 A KR 20200027783A KR 102447359 B1 KR102447359 B1 KR 102447359B1
Authority
KR
South Korea
Prior art keywords
disease
gene
score
genes
network
Prior art date
Application number
KR1020200027783A
Other languages
English (en)
Other versions
KR20200107840A (ko
Inventor
이관수
김율
Original Assignee
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술원 filed Critical 한국과학기술원
Publication of KR20200107840A publication Critical patent/KR20200107840A/ko
Application granted granted Critical
Publication of KR102447359B1 publication Critical patent/KR102447359B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/30Drug targeting using structural data; Docking or binding prediction
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression

Landscapes

  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Chemical & Material Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Medicinal Chemistry (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

질병유전자 발굴 장치의 동작 방법으로서, 유전자간 관계 정보 및 유전자들이 포함된 기능군 정보를 결합하여 유전자들과 기능들이 연결된 네트워크를 구축하는 단계, 그리고 상기 네트워크에서 신규 질병유전자 후보를 선정하는 분석 주기를 반복하는 단계를 포함한다. 상기 분석 주기는 각 기능군에 포함된 질병유전자들의 통계적 유의성을 기초로, 각 기능군의 질병 유의성 점수를 계산하는 단계, 상기 네트워크에서, 각 유전자가 연관된 기능군들의 질병 유의성 점수를 합하여 각 유전자의 기능 유사성 질병 점수를 계산하는 단계, 각 유전자의 기능 유사성 질병 점수가 반영된 각 유전자의 초기 질병 점수를 네트워크 전파하는 단계, 상기 네트워크 전파를 통해 계산된 유전자들의 질병 점수를 기초로 신규 질병유전자 후보를 선정하는 단계, 그리고 상기 신규 질병유전자 후보를 다음 분석 주기에 사용하는 질병유전자 정보에 추가하는 단계를 포함한다.

Description

유전자 연관 관계 통합 기반 신규 질병유전자 예측 장치 및 방법{Apparatus and method for predicting novel disease genes based on the integration of diverse gene-gene relations}
본 발명은 신규 질병유전자 예측 기술에 관한 것이다
질병유전자는 질병을 조절할 수 있는 유전자로서 약물 표적 후보이다. 따라서, 질병유전자를 예측하는 기술은 효율적인 치료 방법 및 약물 개발을 위해 의약학 산업에 가장 필요로 하는 기술 중 하나이다. 최근 고속 대량 스크리닝(high-throughput screening) 기술의 발전으로, 실험을 통해 약물 표적 후보 또는 질병유전자를 발굴하는 연구가 다수 진행 중이다. 하지만 실험을 통한 발굴 작업은 시간과 비용의 소모가 커서, 예상되는 약물 표적 후보 숫자에 크게 못 미치는 발굴 성과를 보이고 있다. 최근에는 전산 기술을 통하여 질병유전자들을 예측하고 이들을 실험적으로 검증하여 적은 비용과 빠른 시간에 약물 표적 후보들을 발굴하는 방법이 제안되고 있다.
질병유전자 예측 기술들의 원리는 기존에 알려진 질병유전자와의 유사성을 다양한 유전자 연관 관계를 통해 점수화하는 것으로 요약될 수 있다. 이러한 기술들은 크게 기능 유사성 기반 기술과 네트워크 전파 기반 기술로 구분된다. ToppGene과 Endeavour는, 동일 질병에 연관된 유전자들은 세포 내에서 유사한 기능을 갖는다는 가정에서, 알려진 질병유전자와 기능 유사성을 점수화하여 새로운 질병유전자들을 예측한다. 한편, PINTA와 DADA는 동일 질병과 연관된 유전자들은 단백질간 상호작용 등을 통하여 서로 높은 조절관계를 갖는다는 가정에서, 단백질 상호작용으로 연결된 네트워크 상에서 기존에 알려진 질병유전자들의 질병 점수를 전파하여 얻어진 점수를 통해 새로운 질병유전자들을 예측한다.
PRINCE와 HybridRanker는 기능 유사성 기반 기술과 네트워크 전파 기반 기술의 장점을 살리고자 두 기술을 함께 활용하여 질병유전자를 예측한다. 하지만 이 기술들은 기능 유사성 분석과정과 네트워크 전파 분석과정을 각각 실행한 후 나오는 점수들을 단순히 합산해서 질병유전자를 예측한다. 따라서, 이 기술들은, 서로 다른 두 방법에서 나오는 결과를 각 방법의 계산 과정에 상호 반영하여 얻을 수 있는 최적의 성능을 도출하지 못하는 한계가 있다. 또한, 이 기술들은, 현재 증가된 정보 자원들과 비교하여 현저히 낮은 유전자 연관 관계 정보들을 기반으로 구성하고, 연관 관계를 활용한 추론 과정을 한 번의 과정으로 한정하는 구조라서, 민감도와 특이도 향상에 근본적인 한계가 있다.
해결하고자 하는 과제는 유전자의 기능군 정보와 네트워크 특성을 상호 연계하여 계산하고 반복 과정을 통해 발굴된 정보를 재활용하는 신규 질병유전자 예측 장치 및 방법을 제공하는 것이다.
해결하고자 하는 과제는 분석 주기마다 발굴되는 유전자들의 신규 질병 연관 관계를 유전자의 기능군 분석과 네트워크 전파과정에 반복 적용하여 질병유전자의 발굴 가능성을 향상하는 장치 및 방법을 제공하는 것이다.
한 실시예에 따라 적어도 하나의 프로세서에 의해 동작하는 질병유전자 발굴 장치의 동작 방법으로서, 유전자간 관계 정보 및 유전자들이 포함된 기능군 정보를 결합하여 유전자들과 기능들이 연결된 네트워크를 구축하는 단계, 그리고 상기 네트워크에서 신규 질병유전자 후보를 선정하는 분석 주기를 반복하는 단계를 포함한다. 상기 분석 주기는 각 기능군에 포함된 질병유전자들의 통계적 유의성을 기초로, 각 기능군의 질병 유의성 점수를 계산하는 단계, 상기 네트워크에서, 각 유전자가 연관된 기능군들의 질병 유의성 점수를 합하여 각 유전자의 기능 유사성 질병 점수를 계산하는 단계, 각 유전자의 기능 유사성 질병 점수가 반영된 각 유전자의 초기 질병 점수를 네트워크 전파하는 단계, 상기 네트워크 전파를 통해 계산된 유전자들의 질병 점수를 기초로 신규 질병유전자 후보를 선정하는 단계, 그리고 상기 신규 질병유전자 후보를 다음 분석 주기에 사용하는 질병유전자 정보에 추가하는 단계를 포함한다.
이번 주기에서 선정된 상기 신규 질병유전자 후보에 의해, 다음 주기에서 상기 신규 질병유전자 후보가 연관된 기능군들의 질병 유의성 점수가 가변될 수 있다.
상기 분석 주기는 상기 네트워크에 포함된 유전자들 중, 알려진 질병유전자 또는 이전 분석 주기들에서 선정된 질병유전자 후보에 대해, 해당 유전자의 질병 유의성을 사전 질병 점수로 점수화하는 단계를 더 포함할 수 있다. 상기 초기 질병 점수는 각 유전자의 기능 유사성 질병 점수와 사전 질병 점수의 가중합으로 할당될 수 있다.
상기 사전 질병 점수로 점수화하는 단계는 알려진 질병유전자의 사전 질병 점수와 이전 분석 주기들에서 선정된 질병유전자 후보의 사전 질병 점수를 차등 점수화할 수 있다.
각 기능군의 질병 유의성 점수를 계산하는 단계는 각 기능군에 포함된 질병유전자와 일반 유전자의 비율을 기초로 질병 유의성을 계산할 수 있다.
상기 동작 방법은 상기 네트워크 전파를 통해 유의미한 질병 점수를 가지는 유전자가 없는 경우, 상기 분석 주기를 반복하지 않고 종료하는 단계를 더 포함할 수 있다.
상기 네트워크는 복수의 공개된 데이터베이스들에 포함된 유전자간 관계 정보를 결합한 유전자 네트워크, 그리고 기능군들에 연관된 유전자들이 연결된 유전자-기능 네트워크를 포함하고, 적어도 하나의 알려진 질병유전자가 적어도 하나의 기능군에 연관될 수 있다.
다른 실시예에 따라 적어도 하나의 프로세서에 의해 동작하는 질병유전자 발굴 장치의 동작 방법으로서, 유전자들이 연관된 각 기능군에 대해, 해당 기능군에 연관된 질병유전자들의 통계적 유의성을 기초로, 해당 기능군의 질병 유의성 점수를 계산하는 단계, 유전자간 관계 정보로 구축된 유전자 네트워크에서, 각 유전자가 연관된 기능군들의 질병 유의성 점수를 합하여 각 유전자의 기능 유사성 질병 점수를 계산하는 단계, 상기 유전자 네트워크에 포함된 유전자들 중, 알려진 질병유전자 또는 신규 질병유전자 후보에 대해, 해당 유전자의 질병 유의성을 점수화한 사전 질병 점수를 부여하는 단계, 상기 유전자 네트워크에 포함된 유전자들에 대해, 상기 기능 유사성 질병 점수와 상기 사전 질병 점수의 가중합을 해당 유전자의 초기 질병 점수로 할당하는 단계, 그리고 상기 유전자 네트워크에서 각 유전자의 초기 질병 점수를 네트워크 전파하여 계산된 각 유전자의 네트워크 전파 질병 점수를 기초로 신규 질병유전자 후보를 선정하는 단계를 포함한다.
상기 각 유전자의 기능 유사성 질병 점수를 계산하는 단계는 각 기능군의 질병 유의성 점수를 연관된 유전자들에게 할당하고, 각 유전자에 할당된 질병 유의성 p-값들의 로그 합을 정규화하여 상기 기능 유사성 질병 점수를 계산할 수 있다.
상기 사전 질병 점수를 부여하는 단계는 상기 알려진 질병유전자와 상기 신규 질병유전자 후보에 대해, 차등된 사전 질병 점수를 부여할 수 있다.
상기 질병 유의성 점수를 계산하는 단계는 특정 기능군에 연관된 유전자가 이전 분석 주기에서 신규 질병유전자 후보로 선정된 경우, 상기 신규 질병유전자 후보에 의한 통계적 유의성을 반영하여 상기 특정 기능군의 질병 유의성 점수를 계산할 수 있다.
상기 특정 기능군의 질병 유의성 점수가 가변되는 경우, 상기 특정 기능군에 연관된 유전자들의 기능 유사성 질병 점수가 가변될 수 있다.
상기 이전 분석 주기에서 신규 질병유전자 후보로 선정된 유전자는, 상기 이전 분석 주기에서 계산된 기능 유사성 질병 점수 및 사전 질병 점수와 다른 점수가 현재 분석 주기에서 부여되어 상기 이전 분석 주기의 초기 질병 점수와 다른 초기 질병 점수를 전파할 수 있다.
상기 동작 방법은 상기 신규 질병유전자 후보를 다음 분석 주기에 사용하는 질병유전자 정보에 추가하는 단계를 더 포함할 수 있다.
상기 신규 질병유전자 후보를 선정하는 단계는 상기 유전자 네트워크에서, 상기 네트워크 전파에 의해 유의미한 네트워크 전파 질병 점수를 가지는 유전자가 없는 경우, 신규 질병유전자 발굴을 종료하는 단계를 더 포함할 수 있다.
실시예에 따르면, 본 발명의 기술은 유전자 기능군 분석과 네트워크 전파 분석을 서로 연계한 계산을 하여 종래 개별 방법이나 두 방법의 결과를 통계적으로 합산한 통합 방법보다 더 정확한 신규 질병유전자를 발굴할 수 있다.
실시예에 따르면, 분석 주기별로 구해지는 질병 연관 정보를 반복적으로 상호 연계된 기능군 분석과 네트워크 전파 분석에 적용하여 성능 향상에 기여할 수 있다.
질병 마커로 사용될 수 있는 실제 질병유전자와 약물개발에 사용될 수 있는 실제 약물 표적을 이용한 실시예에 따르면, 본 발명의 질병유전자 예측 기술은 질병 상태 판별 및 약물 반응성 예측을 통한 동반진단 마커 후보 발굴과 함께 약물 표적 후보 발굴에 활용될 수 있다.
실시예에 따르면, 헬스 케어와 관련된 의료기기, 웹 기반 건강관리 서비스 등 IT 기반의 하드웨어와 genomics, proteomics, epigenomics 등 분자생물정보에 관련된 BT 기반의 바이오마커 및 약물 표적 컨텐츠의 접목을 가속하여, 보건의료 및 제약산업의 발전에 기여할 수 있다.
도 1은 한 실시예에 따른 질병유전자 발굴 장치의 하드웨어 구성도이다.
도 2는 한 실시예에 따른 질병유전자 발굴 장치의 동작 방법의 흐름도이다.
도 3은 한 실시예에 따른 질병유전자 발굴 장치의 동작을 설명하는 도면이다.
도 4는 한 실시예에 따라 류마티스관절염 질병유전자를 발굴한 결과를 나타내는 도면이다.
도 5와 도 6 각각은 본 발명의 성능을 평가한 결과 그래프이다.
아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 "…부", "…기", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.
도 1은 한 실시예에 따른 질병유전자 발굴 장치의 하드웨어 구성도이다.
도 1을 참고하면, 질병유전자 발굴 장치(100)는 적어도 하나의 프로세서에 의해 본 발명의 동작이 기술된 프로그램을 실행하는 컴퓨팅 장치이다.
질병유전자 발굴 장치(100)의 하드웨어는 적어도 하나의 프로세서(110), 메모리(130), 스토리지(150), 통신 인터페이스(170)을 포함할 수 있고, 버스를 통해 연결될 수 있다. 이외에도 입력 장치 및 출력 장치 등의 하드웨어가 포함될 수 있다. 질병유전자 발굴 장치(100)는 프로그램을 구동할 수 있는 운영 체제를 비롯한 각종 소프트웨어가 탑재될 수 있다.
프로세서(110)는 질병유전자 발굴 장치(100)의 동작을 제어하는 장치로서, 프로그램에 포함된 명령들을 처리하는 다양한 형태의 프로세서일 수 있고, 예를 들면, CPU(Central Processing Unit), MPU(Micro Processor Unit), MCU(Micro Controller Unit), GPU(Graphic Processing Unit) 등 일 수 있다. 메모리(130)는 본 발명의 동작을 실행하도록 기술된 명령들이 프로세서(110)에 의해 처리되도록 해당 프로그램을 로드한다. 메모리(130)는 예를 들면, ROM(read only memory), RAM(random access memory) 등 일 수 있다. 스토리지(150)는 본 발명의 동작을 실행하는데 요구되는 각종 데이터, 프로그램 등을 저장한다. 통신 인터페이스(170)는 유/무선 통신 모듈로서, 유무선 네트워크를 통해 외부 데이터베이스와 연동할 수 있다.
질병유전자 발굴 장치(100)는 유전자 연관 관계를 통합하여 신규 질병유전자를 예측한다. 질병유전자 발굴 장치(100)는 분석 주기(cycle)마다, 질병유전자와 유전자들이 포함된 기능군의 연관성 분석으로 기능군들의 질병 유의성을 계산하고, 이로부터 각 유전자의"기능 유사성 질병 점수"를 계산한다. 또한, 질병유전자 발굴 장치(100)는 각 유전자의 "사전 질병 점수"를 계산한다. 이후, 질병유전자 발굴 장치(100)는 "기능 유사성 질병 점수"와 "사전 질병 점수"가 반영된 각 유전자의 초기 질병 점수를 네트워크 전파하고, 네트워크 전파를 통해 최종적으로 얻어지는 질병 점수를 분석하여 신규 질병유전자 후보를 발굴한다. 질병유전자 발굴 장치(100)는 이전 분석 주기에서 계산된 유전자들의 신규 질병 점수를 다음 분석 주기의 "기능 유사성 질병 점수"와 "사전 질병 점수"계산에 반영하고 네트워크 전파하는 반복 과정을 통해, 기존의 다른 방법들에서 반영할 수 없는 간접적인 유전자 간의 연관성들을 반영한다.
다음에서, 질병유전자 발굴 장치의 동작 방법에 대해 자세히 설명한다.
도 2는 한 실시예에 따른 질병유전자 발굴 장치의 동작 방법의 흐름도이다.
도 2를 참고하면, 질병유전자 발굴 장치(100)는 복수의 공개된 데이터베이스들로부터 수집한 유전자간 관계 정보 및 유전자들이 포함된 기능군 정보들을 결합하여, 유전자들과 기능들이 연결된 네트워크를 구축한다(S110). 네트워크는 노드에 해당하는 유전자들이 관계 정보에 따라 연결되고, 기능군 정보에 따라 유전자들의 적어도 일부가 기능들에 연관된다. 네트워크를 구성하는 유전자들 중에는 기존에 알려진 질병유전자들이 포함되어 있고, 질병유전자는 적어도 하나의 기능군에 포함되어 있다고 가정한다. 질병유전자 발굴 장치(100)는 다양한 데이터베이스들을 이용하여 네트워크를 구축할 수 있는데, 예를 들면, HIPPIE의 단백질간 상호작용 네트워크와 Graphite의 신호전달경로를 수집하고, TRNASFAC, E3Net, PhosphoSitePlus 및 DEPOD 등의 조절 관계 자원을 통해 유전자간 관계를 확장할 수 있다. 그리고, 질병유전자 발굴 장치(100)는 예를 들면, Molecular Signatures Database, Enrichr 및 Gene Ontology로부터 기능군들을 수집할 수 있다. 질병유전자 발굴 장치(100)는 수집한 기능군들에서 유사한 기능군들을 통합할 수 있다.
질병유전자 발굴 장치(100)는 각 기능군이 포함하는 질병유전자들의 통계적 유의성을 기초로 각 기능군의 질병 유의성 점수를 계산한다(S120). 질병유전자는 질병유전자 발굴 장치(100)의 반복 수행 과정 중에 신규로 업데이트될 수 있어서, 각 기능의 질병 유의성은 신규로 포함되는 질병유전자들에 의해 반복되는 분석 주기마다 업데이트될 수 있다.
질병유전자 발굴 장치(100)는, 각 유전자가 연관된 모든 기능군들의 질병 유의성 점수를 합하여 각 유전자의 "기능 유사성 질병 점수"를 계산한다(S130). 질병유전자 발굴 장치(100)는, 각 유전자가 연관된 모든 기능군들의 질병 유의성 점수를 합하여 각 유전자의 질병 점수를 정하고, 이를 정규화하여 각 유전자의 "기능 유사성 질병 점수"를 계산할 수 있다.
또한, 질병유전자 발굴 장치(100)는 "기능 유사성 질병 점수"와 별개로, 각 유전자에 대해 알려지거나 이 장치에 의해 신규로 구해진 질병 유의성을 점수화한 "사전 질병 점수"를 계산한다(S140). 최초의 초기 질병 점수에서 개별 유전자의 "사전 질병 점수"는 기존에 알려진 질병 유의성이 있는지 여부에 의해서만 결정되나, 네트워크 전파 과정을 진행한 후 반복되는 주기에서의 초기 질병 점수는 네트워크 전파에 의해 구해진 질병 유의성이 추가되어 결정된다.
질병유전자 발굴 장치(100)는 유전자별로 "기능 유사성 질병 점수"와 "사전 질병 점수"를 가중합(weighted sum)하여 유전자 네트워크 내 유전자 노드들의 초기 질병 점수를 할당한다(S150).
질병유전자 발굴 장치(100)는 유전자 노드에 할당된 초기 질병 점수를 유전자 네트워크 내에 전파하는 네트워크 전파(network propagation) 방법을 통해 유전자들의 새로운 "네트워크 전파 질병 점수"를 계산한다(S160)."네트워크 전파 질병 점수"는 간단히 질병 점수라고 할 수 있다.
질병유전자 발굴 장치(100)는 유의미한 "네트워크 전파 질병 점수"(예를 들면, p-값 0.05 이하)를 가지는 유전자가 있는지 판단한다(S170).
질병유전자 발굴 장치(100)는 유의미한 네트워크 전파 질병 점수를 가지는 유전자들을 신규 질병유전자 후보로 업데이트하고, 다음 분석 주기에 피드백한다(S180). 질병유전자 발굴 장치(100)는 다음 분석 주기에서 업데이트된 질병유전자 후보 정보를 활용하여 기능군의 질병 유의성, 유전자의 기능 유사성 질병 점수 및 사전 질병 점수를 재계산한다.
질병유전자 발굴 장치(100)는 유의미한 네트워크 전파 질병 점수를 가지는 유전자가 없어서 더 이상 신규 질병유전자 후보가 발굴되지 않으면, 질병유전자 발굴 절차를 종료한다(S190).
이와 같이, 질병유전자 발굴 장치(100)는 기능 유사성 질병 점수와 네트워크 전파 질병 점수를 상호 반영하여 반복적으로 업데이트하며 유전자 질병 점수를 계산하므로, 종래 기술보다 더 정확하고 효율적으로 질병유전자를 발굴할 수 있다.
다음에서, 질병유전자 발굴 장치의 동작에 대해 구체적으로 설명한다.
도 3은 한 실시예에 따른 질병유전자 발굴 장치의 동작을 설명하는 도면이다. 설명을 위해, 유전자(원)간의 연결 관계(실선)를 유전자 네트워크(10)로 부르고, 유전자들과 기능(네모)들의 연관 관계(점선)를 유전자-기능 연관 네트워크(20)으로 부를 수 있고, 유전자 네트워크(10)와 유전자-기능 연관 네트워크(20)를 통칭하여 네트워크(30)라고 할 수 있다.
도 3의 (a)를 참고하면, 질병유전자 발굴 장치(100)는 복수의 공개된 데이터베이스들에 포함된 유전자간 관계 정보들을 이용하여 유전자 네트워크(10)를 구축한다. 유전자 네트워크(10)의 구축에는 다양한 데이터베이스들이 이용될 수 있다. 위에서 기술한 바와 같이, 질병유전자 발굴 장치(100)는 HIPPIE의 단백질간 상호작용 네트워크와 Graphite의 신호전달경로를 수집하고, TRNASFAC, E3Net, PhosphoSitePlus 및 DEPOD 등의 조절 관계 자원을 통해 유전자간 관계를 확장할 수 있다. 이때, 질병유전자 발굴 장치(100)는 유전자쌍이 속한 관계 자원의 수를 해당 유전자쌍의 관계 신뢰도로 정의하여 연관 정도가 정규화된 유전자쌍들을 구성할 수 있다. 이를 통해, 총 15,165 유전자에 대한 379,730개의 연관 관계로 구성된 유전자 네트워크(10)가 구축될 수 있다.
또한, 질병유전자 발굴 장치(100)는 Molecular Signatures Database, Enrichr 및 Gene Ontology와 같은 복수의 공개된 데이터베이스들로부터 같은 기능으로 묶여진 유전자들의 집합인 기능군들을 수집한다. 서로 다른 데이터베이스들에서 수집된 기능군들이 중복될 수 있으므로, 질병유전자 발굴 장치(100)는 수집된 기능군들의 유사성을 기초로 유사한 기능군들을 통합할 필요가 있다. 이를 위해, 질병유전자 발굴 장치(100)는 기능의 종류에 따라 분류된 기능군들에서 유사한 기능군들을 추출하고, 이를 하나의 기능군으로 통합할 수 있다. 예를 들면, 수집된 기능군들은 cellular function, molecular relation, co-localization의 3가지 분류로 범주화될 수 있다. 수집된 기능군들은 질병유전자 발굴 장치(100)에 의해 자동 분류되거나, 수동으로 분류될 수 있다. 질병유전자 발굴 장치(100)는 Jaccard coefficient 등의 유사성 척도를 기준으로, 유사한 기능군 쌍을 하나의 기능군으로 통합할 수 있다. 이를 통해, 질병유전자 발굴 장치(100)는 Molecular Signatures Database, Enrichr 및 Gene Ontology로부터 28,465개 기능군들과 이들에 포함된 유전자 정보를 획득할 수 있고, 각 기능군 내의 유전자(원)들을 해당 기능군의 기능(네모)에 연결하여 유전자-기능 연관 네트워크(20)를 구성할 수 있다.
(b)를 참고하면, 질병유전자 발굴 장치(100)는 기능군에 연관된 질병유전자 정보로부터 유전자-기능 연관 네트워크(20)에 포함된 모든 기능들의 질병 유의성을 계산한다.
예를 들면, 질병유전자 발굴 장치(100)는 기능(21)에 연관된 질병유전자(11, 원-검정색)와 일반 유전자(12, 원-흰색)들의 비율을 기초로 기능(21)의 질병 연관성을 계산할 수 있다. 질병유전자 발굴 장치(100)는 유전자-기능 연관 네트워크(20)에 포함된 전체 기능들의 질병 연관성 값들로부터 기능(21)의 통계적 유의성을 p-value (p-값)으로 계산하여 기능(21)의 질병 유의성을 할당할 수 있다.
각 기능의 질병 유의성 p-값은 수학식 1과 같이 계산될 수 있다. 이때, p-값은 false discovery rate(FDR)에 의해 조정된다.
Figure 112020023639469-pat00001
수학식 1에서, G는 전체 유전자의 개수, S는 전체 질병유전자 개수, M은 기능군 내의 유전자의 개수, k는 기능군 내 질병유전자의 개수이다.
(c)를 참고하면, 질병유전자 발굴 장치(100)는 유전자 네트워크(10)에서 네트워크 전파(network propagation)할 초기 질병 점수 P0(g)를 할당한다. 질병유전자 발굴 장치(100)는 기능의 질병 유의성 p-값(21, 네모-회색)을 해당 기능에 연결된 유전자들에게 할당한다. 이 때, 각 유전자는 다수의 기능군과 연관될 수 있으므로. 각 유전자의 "기능 유사성 질병 점수"는 해당 유전자에 연관된 기능들의 질병 유의성 p-값을 종합하여 계산한다. 유전자의 "기능 유사성 질병 점수"는 유전자에 연관된 기능들의 질병 유의성 p-값의 로그 합으로 정의될 수 있다. 질병유전자 발굴 장치(100)는 최소-최대 정규화를 통해, 유전자들의 기능 유사성 질병 점수를 [0, 1] 범위로 조정할 수 있다. 유전자의 "기능 유사성 질병 점수" Sf(g)는 수학식 2와 같이 표현될 수 있다.
Figure 112020023639469-pat00002
Figure 112020023639469-pat00003
종래의 네트워크 전파 기반 방법은 질병유전자에 대해 기존에 알려진 질병 유의성이 있는 유전자 정보만을 반영하여 각 유전자 노드의 초기 질병 점수를 할당하고 네트워크 전파하여 최종 질병 점수를 구한다. 반면, 본 발명의 질병유전자 발굴 장치(100)는 사전에 알려진 질병유전자 점수와 함께, 이 장치의 네트워크 전파 과정으로부터 반복하여 구해지는 신규 질병유전자 점수와 위에서 보인 기능 유사성 분석 과정에서 반복적으로 구해지는 신규 질병유전자 점수를 모두 포함하여 초기 질병 점수를 조정한다. 특히, 본 발명에서는 질병유전자로 알려지지 않았으나, 기능적으로 질병 연관성이 높은 유전자에게 질병 점수(기능 유사성 질병 점수)를 부여하고 네트워크 전파도 가능하게 한다. 이를 통해 네트워크 구조와 함께 초기값에 영향을 크게 받는 기존의 네트워크 전파 방법의 질병유전자 발굴 한계를 극복할 수 있게 된다.
질병유전자 발굴 장치(100)의 초기 질병 점수 계산 방법은 수학식 3과 같이 표현될 수 있다. 유전자의 초기 질병 점수 P0(g)는 유전자의 "기능 유사성 질병 점수" Sf(g)와 "사전 질병 점수" Sp(g)의 가중 합으로 정의될 수 있다. 수학식 3에서,
Figure 112020023639469-pat00004
는 가중치이다.
Figure 112020023639469-pat00005
수학식 3의 사전 질병 점수 Sp(g)는 수학식 4와 같이 정의된다.
Figure 112020023639469-pat00006
수학식 4에서, 사전 질병 점수 Sp(g)는 기존에 알려진 질병유전자(seed gene)에 대해서는 1점, 질병유전자 발굴 장치(100)에서 발굴된 신규 질병유전자 후보에 대해서는 [0, 1] 범위내의 점수, 그렇지 않은 유전자에는 0이 할당될 수 있다.
예를 들면, 유전자(11)가 알려진 질병유전자라면, 초기 질병 점수에 사전 질병 점수 1이 반영된다. 유전자(12)는 알려진 질병유전자가 아니고, 기능 유사성 점수를 받지 못하면 초기 질병 점수는 0이 되지만, 이 장치의 첫 번째 발굴 주기 후에는 신규 질병유전자 후보로 선정되어 [0, 1] 범위내의 "사전 질병 점수"가 반영될 수 있고, 업데이트된 기능들의 질병 유의성 p-값들로부터 "기능 유사성 질병 점수"가 반영될 수 있다.
(d)를 참고하면, 질병유전자 발굴 장치(100)는 유전자 네트워크(10)에서 유전자들(예를 들면, 11,12)의 초기 질병 점수 P0(g)를 연결된 유전자로 네트워크 전파한다. 유전자의 초기 질병 점수 P0(g)는 네트워크를 따라 r의 비율로 이웃 유전자에게 순차적으로 반복 전달된다. 이 때, t번째 전파된 질병 점수 Pt(g)는 수학식 5와 같이 정의될 수 있다.
Figure 112020023639469-pat00007
수학식 5에서, W'는 가중치 인접 행렬 W의 정규화된 행렬로서, 수학식 6과 같이 정의된다.
Figure 112020023639469-pat00008
D는 대각 요소 D(i, i)가 W의 i번째 행의 합으로 이루어진 대각 행렬을 의미한다. 네트워크 전파 방법은 수학식 5의 정규화된 가중치 인접 행렬을 이용하는 알고리즘(Vanunu et al.)과 같은 다른 알려진 기술을 이용할 수도 있다. 가중치 인접 행렬 W가 정규화될 때에 각 유전자의 입출력 흐름이 모두 고려되어 정규화되는 점에서, 기존에 개발된 네트워크 전파를 이용한 질병유전자 발굴 방법들의 random walk with restart(RWR) 방법과 차이가 있다.
질병유전자 발굴 장치(100)는 각 분석 주기의 마지막 단계에서 네트워크 전파를 통해 획득한 유전자의 질병 점수를 Z-점수화한 후, 유의미하게 높은 점수(p-값 0.05 이하)를 가지는 유전자를 신규 질병유전자로 선정한다.
질병유전자 발굴 장치(100)는 이렇게 선정된 신규 질병유전자를 이 장치의 질병유전자 정보에 추가한다. 그리고, 질병유전자 발굴 장치(100)는 업데이트된 질병유전자를 이용하여 기능군들의 질병 유의성 점수와 이로부터 구해지는 각 유전자의 "기능 유사성 질병 점수"를 재계산하고, 재계산된 "기능 유사성 질병 점수"가 반영된 각 유전자의 초기 질병 점수를 네트워크 전파하는 절차를 반복한다.
질병유전자 발굴 장치(100)는 추가적인 신규 질병유전자가 선정되지 않을 때까지 이러한 절차를 반복해서 유전자들의 알려진 질병 유의성, 유전자와 세포 기능의 연관성, 유전자들 간의 연관성을 모두 연계하여 질병유전자 후보를 발굴할 수 있다.
도 4는 한 실시예에 따라 류마티스관절염 질병유전자를 발굴한 결과를 나타내는 도면이다.
도 4를 참고하면, 질병유전자 발굴 장치(100)는 각 유전자의 "기능 유사성 질병 점수"를 계산하고, 유전자의 "기능 유사성 질병 점수"와 "사전 질병 점수"가 반영된 초기 질병 점수를 네트워크 전파하여 신규 질병유전자 후보를 발굴하는 분석 주기를 반복한다.
도 4에서, 붉은색은 기존의 알려진 질병유전자 중 선별된 테스트셋이고, 녹색은 기존의 알려진 질병유전자 중에서 테스트셋을 제외한 나머지이며, 파란색은 각 분석 주기에서 선정된 질병유전자 후보이고, 검은색은 그 외 나머지 유전자를 의미한다.
테스트셋은 류마티스관절염 중 실제 약물의 표적이 되는 11종의 유전자이고, 나머지 기존의 알려진 질병유전자들을 입력하여 본 발명을 수행하였을 때 이들 11종의 유전자의 순위변화를 관찰한다.
분석 결과, 약물의 표적으로 알려진 11개의 테스트 유전자들에 대하여 각 분석 주기에서 네트워크 전파 후의 점수가 상승하는 것을 확인할 수 있다. 특히 5번째 분석 주기에서는 테스트 유전자의 점수가 기존의 알려진 질병유전자만큼 점수가 높아지는 것을 확인할 수 있다. 또한, 11개의 테스트 유전자 중 10개의 유전자가 전체 15,000여개의 유전자 중 350위 안에 위치하는 것과 그 중 6개는 100위 이내에 위치하는 것이 확인된다. 이 결과로부터 본 발명의 장치가 반복 주기를 통한 추론과정으로 테스트 유전자와 기존 질병유전자들의 간접적인 연관성을 누적하여 반영함으로써 직접적인 질병 유의성 정보가 제외된 실제 약물 표적의 발굴이 가능해지는 것을 확인할 수 있다.
도 5와 도 6 각각은 본 발명의 성능을 평가한 결과 그래프이다.
본 발명의 성능을 평가하고 기존 방법들과의 차이를 설명하기 위하여, 작동원리에 따라 모듈화된 방법들에 대해 알려진 약물 표적들을 leave-one-out test한다.
먼저 기존에 약물 표적 데이터베이스인 DrugCentral과 알려진 질병유전자 데이터베이스인 DisGeNet으로부터 류마티스관절염, 암, 제2형 당뇨와 관련된 알려진 약물 표적과 질병유전자 정보를 수집한다. 수집된 약물 표적과 질병유전자들에서 표본을 정한 후 한 개의 테스트 유전자를 제외한 나머지 유전자들을 이용하여 테스트 유전자의 질병 유의성을 예측하는 leave-one-out test를 수행한다. 모든 알려진 질병유전자 또는 약물 표적에 대한 leave-one-out test 결과를 ROC 커브로 표현하여 성능을 분석한다.
도 5를 참고하면, 기능군 분석 기반 예측 방법과 네트워크 전파 기반 예측 방법을 각각 수행한 경우와 두 방법이 연계된 방법을 수행한 결과를 비교한 결과, 세가지 질병에서 모두 본 발명에서 개발한 연계된 방법의 성능이 우수함을 알 수 있다.
특히 기존의 질병유전자 정보가 가장 많은 암에 대해서는 ROC커브의 AUC를 비교해 본 결과 p-value 0.05 이하로 매우 유의미하게 성능이 향상됨을 알 수 있다.
도 6을 참고하면, 기존의 방법인 ToppGene, Random with Restart, PRINCE와의 성능 비교 결과이다. 각각의 방법은 순서대로 기능 유사성 기반 방법, 네트워크 전파 기반 방법, 두 방법의 기존 통합 방법을 대표한다. 성능 비교 결과, 본 발명의 질병유전자 예측 능력이 가장 우수함을 알 수 있고, 암에서 특히 p-value 0.05 이하로 매우 유의미한 성능 향상을 확인할 수 있다.
실시예에 따르면, 본 발명의 방법은 기능군 분석과 네트워크 전파 분석을 상호 연계하여 계산하게 함으로써, 두 방법의 결과를 통계적으로 통합하는 기존의 방법보다 성능이 향상됨을 확인할 수 있다. 또한, 상호 연계 계산을 통해 얻어지는 질병 연관 정보를 다시 계산에 반복적으로 적용하는 과정도 성능향상에 기여하는 사실을 확인할 수 있다.
질병 마커로 사용될 수 있는 실제 질병유전자와 약물개발에 사용될 수 있는 실제 약물 표적을 이용한 실시예에 따르면, 본 발명의 질병유전자 예측 기술은 질병 상태 판별 및 약물 반응성 예측을 통한 동반진단 마커 후보 발굴과 함께 약물 표적 후보 발굴에 활용될 수 있다.
또한, 실시예에 따르면, 헬스 케어와 관련된 의료기기, 웹 기반 건강관리 서비스 등 IT 기반의 하드웨어와 genomics, proteomics, epigenomics 등 분자생물정보에 관련된 BT 기반의 바이오마커 및 약물 표적 컨텐츠의 접목을 가속하여, 보건의료 및 제약산업의 발전에 기여할 수 있다.
이상에서 설명한 본 발명의 실시예는 장치 및 방법을 통해서만 구현이 되는 것은 아니며, 본 발명의 실시예의 구성에 대응하는 기능을 실현하는 프로그램 또는 그 프로그램이 기록된 기록 매체를 통해 구현될 수도 있다.
이상에서 본 발명의 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.

Claims (15)

  1. 적어도 하나의 프로세서에 의해 동작하는 질병유전자 발굴 장치의 동작 방법으로서,
    유전자간 관계 정보 및 유전자들이 포함된 기능군 정보를 결합하여 유전자들과 기능들이 연결된 네트워크를 구축하는 단계, 그리고
    상기 네트워크에서 신규 질병유전자 후보를 선정하는 분석 주기를 반복하는 단계를 포함하고,
    상기 분석 주기는
    각 기능군에 포함된 질병유전자들의 통계적 유의성을 기초로, 각 기능군의 질병 유의성 점수를 계산하는 단계,
    상기 네트워크에서, 각 유전자가 연관된 기능군들의 질병 유의성 점수를 합하여 각 유전자의 기능 유사성 질병 점수를 계산하는 단계,
    각 유전자의 기능 유사성 질병 점수가 반영된 각 유전자의 초기 질병 점수를 네트워크 전파하는 단계,
    상기 네트워크 전파를 통해 계산된 유전자들의 질병 점수를 기초로 신규 질병유전자 후보를 선정하는 단계, 그리고
    상기 신규 질병유전자 후보를 다음 분석 주기에 사용하는 질병유전자 정보에 추가하는 단계
    를 포함하는, 동작 방법.
  2. 제1항에서,
    이번 주기에서 선정된 상기 신규 질병유전자 후보에 의해, 다음 주기에서 상기 신규 질병유전자 후보가 연관된 기능군들의 질병 유의성 점수가 가변되는, 동작 방법.
  3. 제1항에서,
    상기 분석 주기는
    상기 네트워크에 포함된 유전자들 중, 알려진 질병유전자 또는 이전 분석 주기들에서 선정된 질병유전자 후보에 대해, 해당 유전자의 질병 유의성을 사전 질병 점수로 점수화하는 단계를 더 포함하고,
    상기 초기 질병 점수는
    각 유전자의 기능 유사성 질병 점수와 사전 질병 점수의 가중합으로 할당되는, 동작 방법.
  4. 제3항에서,
    상기 사전 질병 점수로 점수화하는 단계는
    알려진 질병유전자의 사전 질병 점수와 이전 분석 주기들에서 선정된 질병유전자 후보의 사전 질병 점수를 차등 점수화하는, 동작 방법.
  5. 제1항에서,
    각 기능군의 질병 유의성 점수를 계산하는 단계는
    각 기능군에 포함된 질병유전자와 일반 유전자의 비율을 기초로 질병 유의성을 계산하는, 동작 방법.
  6. 제1항에서,
    상기 네트워크 전파를 통해 유의미한 질병 점수를 가지는 유전자가 없는 경우, 상기 분석 주기를 반복하지 않고 종료하는 단계
    를 더 포함하는, 동작 방법.
  7. 제1항에서,
    상기 네트워크는
    복수의 공개된 데이터베이스들에 포함된 유전자간 관계 정보를 결합한 유전자 네트워크, 그리고 기능군들에 연관된 유전자들이 연결된 유전자-기능 네트워크를 포함하고,
    적어도 하나의 알려진 질병유전자가 적어도 하나의 기능군에 연관되어 있는, 동작 방법.
  8. 적어도 하나의 프로세서에 의해 동작하는 질병유전자 발굴 장치의 동작 방법으로서,
    유전자들이 연관된 각 기능군에 대해, 해당 기능군에 연관된 질병유전자들의 통계적 유의성을 기초로, 해당 기능군의 질병 유의성 점수를 계산하는 단계,
    유전자간 관계 정보로 구축된 유전자 네트워크에서, 각 유전자가 연관된 기능군들의 질병 유의성 점수를 합하여 각 유전자의 기능 유사성 질병 점수를 계산하는 단계,
    상기 유전자 네트워크에 포함된 유전자들 중, 알려진 질병유전자 또는 신규 질병유전자 후보에 대해, 해당 유전자의 질병 유의성을 점수화한 사전 질병 점수를 부여하는 단계,
    상기 유전자 네트워크에 포함된 유전자들에 대해, 상기 기능 유사성 질병 점수와 상기 사전 질병 점수의 가중합을 해당 유전자의 초기 질병 점수로 할당하는 단계, 그리고
    상기 유전자 네트워크에서 각 유전자의 초기 질병 점수를 네트워크 전파하여 계산된 각 유전자의 네트워크 전파 질병 점수를 기초로 신규 질병유전자 후보를 선정하는 단계
    를 포함하는, 동작 방법.
  9. 제8항에서,
    상기 각 유전자의 기능 유사성 질병 점수를 계산하는 단계는
    각 기능군의 질병 유의성 점수를 연관된 유전자들에게 할당하고, 각 유전자에 할당된 질병 유의성 p-값들의 로그 합을 정규화하여 상기 기능 유사성 질병 점수를 계산하는, 동작 방법.
  10. 제8항에서,
    상기 사전 질병 점수를 부여하는 단계는
    상기 알려진 질병유전자와 상기 신규 질병유전자 후보에 대해, 차등된 사전 질병 점수를 부여하는, 동작 방법.
  11. 제8항에서,
    상기 질병 유의성 점수를 계산하는 단계는
    특정 기능군에 연관된 유전자가 이전 분석 주기에서 신규 질병유전자 후보로 선정된 경우, 상기 신규 질병유전자 후보에 의한 통계적 유의성을 반영하여 상기 특정 기능군의 질병 유의성 점수를 계산하는, 동작 방법.
  12. 제11항에서,
    상기 특정 기능군의 질병 유의성 점수가 가변되는 경우, 상기 특정 기능군에 연관된 유전자들의 기능 유사성 질병 점수가 가변되는, 동작 방법.
  13. 제11항에서,
    상기 이전 분석 주기에서 신규 질병유전자 후보로 선정된 유전자는, 상기 이전 분석 주기에서 계산된 기능 유사성 질병 점수 및 사전 질병 점수와 다른 점수가 현재 분석 주기에서 부여되어 상기 이전 분석 주기의 초기 질병 점수와 다른 초기 질병 점수를 전파하는, 동작 방법.
  14. 제8항에서,
    상기 신규 질병유전자 후보를 다음 분석 주기에 사용하는 질병유전자 정보에 추가하는 단계를 더 포함하는, 동작 방법.
  15. 제8항에서,
    상기 신규 질병유전자 후보를 선정하는 단계는
    상기 유전자 네트워크에서, 상기 네트워크 전파에 의해 유의미한 네트워크 전파 질병 점수를 가지는 유전자가 없는 경우, 신규 질병유전자 발굴을 종료하는 단계
    를 더 포함하는, 동작 방법.
KR1020200027783A 2019-03-07 2020-03-05 유전자 연관 관계 통합 기반 신규 질병유전자 예측 장치 및 방법 KR102447359B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020190026332 2019-03-07
KR20190026332 2019-03-07

Publications (2)

Publication Number Publication Date
KR20200107840A KR20200107840A (ko) 2020-09-16
KR102447359B1 true KR102447359B1 (ko) 2022-09-26

Family

ID=72669929

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200027783A KR102447359B1 (ko) 2019-03-07 2020-03-05 유전자 연관 관계 통합 기반 신규 질병유전자 예측 장치 및 방법

Country Status (1)

Country Link
KR (1) KR102447359B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022060139A1 (ko) * 2020-09-17 2022-03-24 에스케이 주식회사 인공지능을 이용한 타겟 발굴 방법 및 시스템

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
I. Lee 외, "Prioritizing candidate disease genes by network-based boosting of genome-wide association data", Genome Research, 21:1109-1121. (2011.05.02.)
J. Piñero 외, "DisGeNET: a comprehensive platform integrating information on human disease-associated genes and variants", Nucleic Acids Research, 45(D1):D833-D839. (2016.10.19.)
L. Cowen 외, "Network propagation: a universal amplifier of genetic associations", Nature Reviews Genetics, 18:551-562. (2017.06.12.)
S-P. Yu 외, "MCLPMDA: A novel method for miRNA-disease association prediction based on matrix completion and label propagation", 23(2):1427-1438. (2018.11.29.)
X. Wang 외, "Network-based methods for human disease gene prediction", Briefings in Functional Genomics, 10(5):280-293. (2011.07.15.)
Y. Zhang 외, "Prioritizing disease genes with an improved dual label propagation framework", BMC Bioinformatics, 19:47. (2018.02.08.)
Z. Razaghi-Moghadam 외, "HybridRanker: Integrating netwrok topology and biomedical knowledge to prioritize cancer candidate genes", Journal of Biomedical Informatics, 64:139-146. (2016.12.)

Also Published As

Publication number Publication date
KR20200107840A (ko) 2020-09-16

Similar Documents

Publication Publication Date Title
Azadifar et al. Graph-based relevancy-redundancy gene selection method for cancer diagnosis
Hwang et al. A heterogeneous label propagation algorithm for disease gene discovery
CN115171779B (zh) 基于图注意力网络和多组学融合的癌症驱动基因预测装置
JP6382459B1 (ja) 細胞系ゲノミクスからの薬物応答の患者特異的予測のためのシステムおよび方法
US20060259246A1 (en) Methods for efficiently mining broad data sets for biological markers
US20160026917A1 (en) Ranking of random batches to identify predictive features
CA2557347A1 (en) Systems and methods for disease diagnosis
EP2387758A1 (en) Evolutionary clustering algorithm
US20070005257A1 (en) Bayesian network frameworks for biomedical data mining
CN114093527B (zh) 一种基于空间相似性约束和非负矩阵分解的药物重定位方法和***
Wang et al. Subtype dependent biomarker identification and tumor classification from gene expression profiles
Zhao et al. Whale optimized mixed kernel function of support vector machine for colorectal cancer diagnosis
CN113488104A (zh) 基于局部和全局的网络中心性分析的癌症驱动基因预测方法及***
KR102447359B1 (ko) 유전자 연관 관계 통합 기반 신규 질병유전자 예측 장치 및 방법
Kumar et al. Integrating Diverse Omics Data Using Graph Convolutional Networks: Advancing Comprehensive Analysis and Classification in Colorectal Cancer
US20220343999A1 (en) Molecular phenotype classification
CN116798653A (zh) 药物相互作用预测方法、装置、电子设备及存储介质
Ram et al. Causal modeling of gene regulatory network
Vishwakarma et al. A weight function method for selection of proteins to predict an outcome using protein expression data
CN113782092A (zh) 一种生存期预测模型的生成方法及装置、存储介质
Floares et al. Mining knowledge and data to discover intelligent molecular biomarkers: prostate cancer i-biomarkers
Tan et al. Combining multiple types of biological data in constraint-based learning of gene regulatory networks
AU2016100563A4 (en) System and method for determining an association of at least one biological feature with a medical condition
Fofanah et al. A generic heart diseases prediction and application of genetic algorithms in healthcare systems: Genetic algorithm and machine learning algorithm approaches
US20170329926A1 (en) System and method for determining an association of at least one biological feature with a medical condition

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant