KR102124193B1 - 기계 학습을 이용한 우울증 또는 자살 위험 예측용 마커 발굴 방법, 우울증 또는 자살 위험 예측용 마커, 및 기계 학습을 이용한 우울증 또는 자살 위험 예측 방법 - Google Patents

기계 학습을 이용한 우울증 또는 자살 위험 예측용 마커 발굴 방법, 우울증 또는 자살 위험 예측용 마커, 및 기계 학습을 이용한 우울증 또는 자살 위험 예측 방법 Download PDF

Info

Publication number
KR102124193B1
KR102124193B1 KR1020170157941A KR20170157941A KR102124193B1 KR 102124193 B1 KR102124193 B1 KR 102124193B1 KR 1020170157941 A KR1020170157941 A KR 1020170157941A KR 20170157941 A KR20170157941 A KR 20170157941A KR 102124193 B1 KR102124193 B1 KR 102124193B1
Authority
KR
South Korea
Prior art keywords
chromosome
depression
human
base
suicide
Prior art date
Application number
KR1020170157941A
Other languages
English (en)
Other versions
KR20190060108A (ko
Inventor
이세민
박종화
정형오
박영준
김정안
김병철
조윤성
Original Assignee
울산과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 울산과학기술원 filed Critical 울산과학기술원
Priority to KR1020170157941A priority Critical patent/KR102124193B1/ko
Publication of KR20190060108A publication Critical patent/KR20190060108A/ko
Application granted granted Critical
Publication of KR102124193B1 publication Critical patent/KR102124193B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/16Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state
    • A61B5/165Evaluating the state of mind, e.g. depression, anxiety
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/72Signal processing specially adapted for physiological signals or for diagnostic purposes
    • A61B5/7271Specific aspects of physiological measurement analysis
    • A61B5/7275Determining trends in physiological measurement data; Predicting development of a medical condition based on physiological measurements, e.g. determining a risk factor
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N1/00Sampling; Preparing specimens for investigation
    • G01N1/28Preparing specimens for investigation including physical details of (bio-)chemical methods covered elsewhere, e.g. G01N33/50, C12Q
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Physics & Mathematics (AREA)
  • Public Health (AREA)
  • Psychiatry (AREA)
  • General Health & Medical Sciences (AREA)
  • Pathology (AREA)
  • Biomedical Technology (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Surgery (AREA)
  • Animal Behavior & Ethology (AREA)
  • Biophysics (AREA)
  • General Physics & Mathematics (AREA)
  • Veterinary Medicine (AREA)
  • Child & Adolescent Psychology (AREA)
  • Social Psychology (AREA)
  • Psychology (AREA)
  • Mathematical Physics (AREA)
  • Developmental Disabilities (AREA)
  • Evolutionary Computation (AREA)
  • Educational Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Hospice & Palliative Care (AREA)
  • Signal Processing (AREA)
  • Physiology (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biochemistry (AREA)
  • Immunology (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)

Abstract

기계 학습을 이용한 우울증 또는 자살 위험 예측용 마커 발굴 방법 및 상기 방법에 따라 발굴된 우울증 또는 자살 위험 예측용 마커에 관한 것이다. 우울증 또는 자살 위험 예측용 마커 발굴 방법에 따르면, 상기 정확도 및 신뢰도가 높은 우울증 또는 자살 위험 예측용 마커를 발굴할 수 있고, 유전자 검사를 통하여 우울증 또는 자살 위험을 조기에 진단 및 그 위험을 예방할 수 있다.

Description

기계 학습을 이용한 우울증 또는 자살 위험 예측용 마커 발굴 방법, 우울증 또는 자살 위험 예측용 마커, 및 기계 학습을 이용한 우울증 또는 자살 위험 예측 방법{Method for screening makers for predicting depressive disorder or suicide risk using machine learning, markers for predicting depressive disorder or suicide risk, method for predicting depressive disorder or suicide risk}
기계 학습을 이용한 우울증 또는 자살 위험 예측용 마커 발굴 방법, 우울증 또는 자살 위험 예측용 마커, 및 기계 학습을 이용한 우울증 또는 자살 위험 예측 방법에 관한 것이다.
우리나라의 자살률은 현재 OECD 국가들 중 가장 높게 관측되고 있다. 최근 조사에 의하면, 자살은 한국인의 사망원인 순위 중 암, 뇌혈관질환, 심장질환 다음을 차지하고 있으며, 지난 몇 해 동안 꾸준히 증가하고 있는 추세에 있다. 이에, 관련분야에서는 자살률이 우리나라에서 이렇게 증가하고 있는 것을 심각한 사회문제로 인식하고, 자살률을 예측하기 위한 노력을 하고 있다. 하지만, 현재의 자살 예측을 위한 연구는, 자살에 영향을 주는 요인으로서 실업률이나 기온 등의 단순하고 단편적인 요인만을 고려하고 있어 예측 결과에 대한 신뢰도가 떨어지는 한계를 갖는다.
자살은 인간의 생존에 대한 본능적인 집착과는 위배되는 것이기 때문에 그간에는 주로 심리적 또는 사회적 원인론이 지지받아 왔으나, 21세기에 들어 유전적 요인이 주요 원인이라는 것이 점차 밝혀지고 있다. 모든 종족에서 자살률이 공통적으로 약 1%로 높게 나타나고 이 자살률이 일정하게 계속 유지되고 있다는 점에 주목하여 진화유전학자들은 우울 증상도 진화과정에서 획득된 형질이고, 우울증이 자살과 명백하게 관련이 있다는 점에서 자살이 유전적으로 진화되어온 정신병리라고 강조하고 있다. 이러한 기본적인 관점을 토대로 가족, 쌍생아 및 입양 연구들에서 자살 행동의 유전적 요인에 대한 증거들을 제시하고 있다. 일부 쌍생아 연구에서는 자살 사고와 자살 행동의 발생에 있어 약 45%가 유전적 요인에 의한다고 제시하고 있다. 특히 치명적인 자살 시도의 경우 유전적 요인이 55%까지 추정되고 있다. 가족 연구에서는 자살 행동의 유전이 자살 행동과 관련된 정신 병리의 유전과 무관하다는 것을 밝혀내었다. 다시 말하면 정신질환 등의 스트레스의 가족간 유전은 자살 행동의 소인의 가족간 유전과는 관련이 없다는 것을 말한다. 이러한 사실들은 자살 행동의 소인과 연관된 유전적 인자가 있다는 것을 시사하고 있다.
현재, 자살 행동에 대한 의미있는 유전적 예측 인자는 부족하다. 따라서, 당업계에서는 자살 위험이 있는 대상체를 확인하기 위한 진단 검정법 및 시험이 요구되고 있다. 이에, 본 발명에서는, 자살에 영향을 주는 보다 실제적인 요인들을 고려하여 신뢰도 높은 자살률을 예측할 수 있는 방안을 제안하고자 한다.
일 양상은 기계 학습을 이용한 우울증 또는 자살 위험 예측용 마커 발굴 방법을 제공한다.
다른 양상은 우울증 또는 자살 위험 예측용 마커를 제공한다.
다른 양상은 기계 학습을 이용한 우울증 또는 자살 위험 예측 방법을 제공한다.
본 발명은 다양한 변환을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 설명하고자 한다. 본 발명의 효과 및 특징, 그리고 그것들을 달성하는 방법은 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 다양한 형태로 구현될 수 있다.
이하의 실시예에서, 제1, 제2 등의 용어는 한정적인 의미가 아니라 하나의 구성 요소를 다른 구성 요소와 구별하는 목적으로 사용된다.
이하의 실시예에서, 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.
이하의 실시예에서, 포함하다 또는 가지다 등의 용어는 명세서상에 기재된 특징, 또는 구성요소가 존재함을 의미하는 것이고, 하나 이상의 다른 특징들 또는 구성요소가 부가될 가능성을 미리 배제하는 것은 아니다.
어떤 실시예가 달리 구현 가능한 경우에 특정한 단계는 설명되는 순서와 다르게 수행될 수도 있다. 예를 들어, 연속하여 설명되는 두 단계는 실질적으로 동시에 수행될 수도 있고, 설명되는 순서와 반대의 순서로 수행될 수도 있다.
도면에서는 설명의 편의를 위하여 구성 요소들이 그 크기가 과장 또는 축소될 수 있다. 예컨대, 도면에서 나타난 각 구성의 크기 및 두께는 설명의 편의를 위해 임의로 나타내었으므로, 본 발명이 반드시 도시된 바에 한정되지 않는다.
일 양상은, 복수의, 우울증을 갖는 개체, 자살 기도 개체 또는 자살 수행 개체의 메틸화 마커 데이터 및 우울증, 자살 기도 또는 자살 수행 여부 데이터를 획득하는 단계; 상기 메틸화 마커 데이터를 가공한 학습용 입력 데이터, 상기 우울증, 자살 기도 또는 자살 수행 여부 데이터를 가공한 학습용 출력 데이터를 기계 학습시켜 테스트 모델을 생성하는 단계; 상기 학습용 입력 데이터 및 학습용 출력 데이터를 상기 테스트 모델에 적용하여 우울증 또는 자살 위험 예측도를 산출하는 단계; 상기 예측도가 미리 정해진 기준값 이상인 메틸화 마커를 선별하는 단계를 포함하는, 기계 학습을 이용한 우울증 또는 자살 위험 예측용 마커 발굴 방법을 제공한다.
도 1을 참조하면, 복수의, 우울증을 갖는 개체, 자살 기도 개체 또는 자살 수행 개체의 메틸화 마커 데이터 및 우울증, 자살 기도 또는 자살 수행 여부 데이터를 획득하는 단계(S10)가 수행된다.
상기 메틸화 마커는 개체의 염색체 내 특정 영역 또는 특정 위치에서 메틸화가 일어나는 염기의 위치를 의미한다. 메틸화 마커는 메틸화 자리와 혼용될 수 있다. 염기 메틸화(methylation)는 염기서열에 변화를 수반하지 않으면서도 DNA 메틸화와 같은 후천적인 수식에 의해 유전자 발현 메커니즘의 변화가 일어나는 현상을 의미한다. DNA 메틸화는 유전자 발현의 억제에 관여한다. 게놈 DNA의 CpG 디뉴클레오티드(dinucleotide) 서열의 시토신에는 메틸화가 일어날 수 있다. CpG 서열은 게놈에서 산발적으로 존재하지만, 특히 CpG 아일랜드(island)라고 불리우는 지역에서 메틸화가 많이 발생할 수 있다. CpG 아일랜드의 메틸화는 일반적으로 크로마틴 응집과 유전자 전사를 억제시킨다. 유전학적으로 DNA 메틸화에 따라 각 개체에 큰 차이를 야기할 수 있다. 따라서, 염색체 내 특정 위치에서의 메틸화 여부는 개체의 우울증 또는 자살 위험을 예측할 수 있는 지표로 사용될 수 있다.
상기 메틸화 마커 데이터는 개체의 염색체 내 시퀀싱 결과, 메틸화된 염기의 염색체 내 위치, 메틸화된 염기의 염색체 내 위치와 관련된 유전자 등, 개체의 유전체에서 DNA 메틸화와 관련된 기록을 포함한다.
상기 자살(suicide)이란 스스로를 죽음에 이르게 하려는 의도를 갖고 행동화하여 이로 인해 의학적 처치를 요하게된 경우로서 그 결과는 자살 기도 또는 자살 수행으로 나타난다. 상기 우울증(depressive disorder)은 우울한 기분 또는 대부분의 활동에서 흥미 또는 즐거움이 상실된 증상, 예를 들면, 수면의 변화, 식욕 및 체중의 변화, 초조, 지체, 피로감, 무가치감 또는 죄책감, 사고력 및 집중력 감소 등이 일정 기간 이상 지속되는 것을 의미한다.
상기 우울증, 자살 기도 또는 자살 수행 여부 데이터는, 과거 또는 현재 우울증으로 진단받은 병적 기록, 자살 시도 경험, 또는 자살 수행에 의한 사망을 의미할 수 있으나, 이에 제한되는 것은 아니다.
상기 메틸화 마커 데이터 및 상기 우울증, 자살 기도 또는 자살 수행 여부 데이터는 한 개 이상의 병원 또는 지역의 개체로부터 획득할 수 있다. 상기 메틸화 마커 데이터는 유전체 또는 DNA의 메틸화를 확인할 수 있는 공지의 방법을 수행하여 획득될 수 있고, 상기 우울증, 자살 기도 또는 자살 수행 여부 데이터는 개체의 문진 또는 설문 결과로부터 획득될 수 있으나, 이에 제한되는 것은 아니다.
상기 개체는 우울증 또는 자살 위험을 예측하기 위한 대상을 의미한다. 상기 개체는 척추동물, 포유동물, 또는 인간(Homo sapiens)을 포함할 수 있다. 예를 들면, 상기 인간은 한국인일 수 있다.
상기 데이터를 획득하는 단계는 k-최근접 이웃 알고리즘(k-nearest neighbor algorithm: knn)을 이용하여 결측치(missing data, NaN)를 추가하는 단계를 포함할 수 있다.
이 후, 상기 메틸화 마커 데이터를 가공한 학습용 입력 데이터, 상기 우울증, 자살 기도 또는 자살 수행 여부 데이터를 가공한 학습용 출력 데이터를 기계 학습시켜 테스트 모델을 생성하는 단계(S20)가 수행된다.
기계 학습(Machine Learning)은 인공지능의 한 종류로서 컴퓨터가 주어진 데이터를 통해 스스로 학습하도록 하는 것을 의미한다. 기계 학습은 데이터의 표현과 이들에 대한 평가를 위한 함수 및 일반화(generalization)를 포함한다. 일반화는 현재 모형이 새로운 데이터에도 그대로 적용되도록 하는 것을 의미한다.
테스트 모델을 생성하는 단계는 기계 학습 기법으로 생성된 상기 메틸화 마커 데이터를 가공한 학습용 입력 데이터와 이러한 복수의 메틸화 마커 데이터 각각에 대응되는 우울증, 자살 기도 또는 자살 수행 여부 데이터를 가공한 학습용 출력 데이터 간의 상관 계수, 즉 양자의 매핑 정보일 수 있다. 학습용 데이터는 학습용 입력 데이터와 학습용 출력 데이터를 포함할 수 있다.
'학습용 입력 데이터'는 기계 학습을 위해 사용되는 데이터로, 복수의, 우울증을 갖는 개체, 자살 기도 개체 또는 자살 수행 개체의 메틸화 마커 데이터로부터 가공되어 획득된다. 예를 들면, 상술한 메틸화 마커 데이터 중에서, 염색체 번호, 메틸화가 일어나는 염색체 내 염기의 위치 등, 분류(classification)가 가능한 값은 라벨링하여 하나의 수학적 값으로 변환시킬 수 있다.
'학습용 출력 데이터'는 테스트 모델을 통해 출력된 값 또는 이를 이용한 우울증 또는 자살 위험 예측 방법의 결과 값과 비교되는 데이터를 의미한다. 이러한 학습용 출력 데이터는 개체의 우울증, 자살 기도 또는 자살 수행 여부 데이터로부터 가공되어 획득된다. 예를 들면, '학습용 출력 데이터'는 과거의 임의의 시점 또는 현재에 우울증으로 진단받은 병적 기록, 자살 시도 경험, 또는 자살 수행에 의한 사망을 나타내는 데이터일 수 있다. 예를 들면, 테스트 모델이 미래의 임의의 시점에 우울증, 자살 기도 또는 자살 수행 여부를 예측하도록 기계 학습 되는 경우, '학습용 출력 데이터'는 우울증, 자살 기도 또는 자살 수행(1) 또는 우울증 없음, 자살 기도 또는 자살 수행 없음(0)과 같이 표현한 바이너리(binary) 데이터일 수 있다.
이와 같은 과정을 통해 메틸화 마커 데이터 및 우울증, 자살 기도 또는 자살 수행 여부 데이터를 수학적으로 처리할 수 있게 가공하여, 학습용 입력 데이터 및 학습용 출력 데이터를 획득할 수 있다.
'테스트 모델'은, 학습용 입력 데이터와 학습용 출력 데이터의 상관 계수를 분석하여 과거, 현재, 또는 미래의 임의의 시점에서의 우울증으로 진단, 자살 시도, 또는 자살 수행에 의한 사망을 예측하는 입출력함수를 의미한다. 이 경우, 테스트 모델은 0 또는 1에 가까운 값을 출력할 수 있으며, 출력 값이 0에 가깝거나 작을수록, 우울증 없거나, 자살 기도 또는 자살 수행이 없을 확률이 높고, 1에 가깝거나 클수록 우울증으로 진단받거나, 자살 시도, 또는 자살 수행으로 사망할 확률이 높다. 따라서 출력 값은 '우울증, 자살 기도 또는 자살 수행'을 나타내는 지표로 해석될 수 있다.
테스트 모델 생성 단계(S20) 이후에는 상기 테스트 모델의 예측 결과를 바탕으로, 상기 학습용 입력 데이터 및 학습용 출력 데이터를 상기 테스트 모델에 적용하여 우울증 또는 자살 위험 예측도를 산출하는 단계(S30)가 수행된다.
상기 예측도는 학습용 입력 데이터 및 학습용 출력 데이터를 바탕으로 테스트 모델을 생성하고, 학습용 입력 데이터 및 학습용 출력 데이터의 일부 또는 전부를 상기 테스트 모델에 적용하였을 때, 우울증, 자살 기도 또는 자살 수행 여부의 예측 가능성, 또는 우울증을 갖는 개체, 자살 기도 또는 자살 수행 개체와 그렇지 않은 개체를 구분하는 정도를 나타낸다.
상기 예측도는 트레이닝 데이터 세트를, 우울증을 갖는 개체, 자살 기도 또는 자살 수행 개체를 포함하는 위험군(Case)와 그렇지 않는 개체인 정상인을 포함하는 대조군(Control)으로 나눈 후, 위험군의 수치 중의 중간값과 대조군의 수치 중의 중간값의 평균을 위험군과 대조군을 가르는 기준값으로 삼고, 그 기준값을 트레이닝 데이터 세트의 위험군과 대조군에 재적용해서 위험군과 대조군을 재구분 할 때, 본래의 위험군과 대조군 구분과 일치하는 정도를 계산하는 방법 등의 알고리즘 및/또는 방식(기법)을 사용할 수 있다.
우울증, 자살 기도 또는 자살 수행 예측에 영향이 적은 변수를 포함하여 기계 학습을 수행하게 되면, 연산량이 증가할 뿐만 아니라 예측에 대한 정확도가 떨어지는 문제가 발생한다. 이에 본 발명에서는 테스트 모델 생성 이후, 학습용 입력 데이터 및 학습용 출력 데이터를 상기 테스트 모델에 적용하여 우울증 또는 자살 위험 예측도를 산출하고, 상기 예측도가 미리 정해진 기준값 이상인 메틸화 마커를 선별하는 단계(S40)가 수행된다.
상기 예측도는 약 50% 이상, 약 55% 이상, 약 60% 이상, 약 65% 이상, 약 70% 이상, 약 75% 이상, 약 80% 이상, 약 85% 이상, 약 90% 이상, 약 95% 이상, 또는 약 100%일 수 있다. 일 실시예 따르면, 예측도가 75% 이상인 메틸화 마커는 선별하여 우울증 또는 자살 위험 예측용 마커로 발굴할 수 있다.
상기 방법은, 복수의, 우울증을 갖는 개체, 자살 기도 개체 또는 자살 수행 개체의 메틸화 마커 데이터 및 우울증, 자살 기도 또는 자살 수행 여부 데이터를 획득하는 단계; 상기 메틸화 마커 데이터를 가공한 검증용 입력 데이터 및 상기 우울증, 자살 기도 또는 자살 수행 여부 데이터를 가공한 검증용 출력 데이터를 획득하는 단계; 상기 검증용 입력 데이터 및 검증용 출력 데이터를 상기 테스트 모델에 적용하여 우울증 또는 자살 위험 재현도를 산출하는 단계; 상기 재현도가 미리 정해진 기준값 이상인 메틸화 마커를 선별하는 단계를 포함할 수 있다.
복수의, 우울증을 갖는 개체, 자살 기도 개체 또는 자살 수행 개체의 메틸화 마커 데이터 및 우울증, 자살 기도 또는 자살 수행 여부 데이터를 획득하는 단계는 전술한 바와 동일하다. 검증용 입력 데이터 및 검증용 출력 데이터는, 학습용 입력 데이터 및 학습용 출력 데이터를 수득한 개체와 동일한 개체로부터 수득할 수 있고, 또한, 다른 개체로부터 수득할 수도 있다.
이어서, 상기 메틸화 마커 데이터 및 우울증, 자살 기도 또는 자살 수행 여부 데이터를 획득하는 단계 이후에는, 검증용 입력 데이터 및 검증용 출력 데이터를 획득하는 단계가 수행된다. 검증용 데이터는 검증용 입력 데이터와 검증용 출력 데이터를 포함할 수 있다.
'검증용 입력 데이터'는 복수의, 우울증을 갖는 개체, 자살 기도 개체 또는 자살 수행 개체의 메틸화 마커 데이터로부터 가공되어 획득된다. 예를 들면, 상술한 메틸화 마커 데이터 중에서, 염색체 번호, 메틸화가 일어나는 염색체 내 염기의 위치 등, 분류가 가능한 값은 라벨링하여 하나의 수학적 값으로 변환시킬 수 있다.
'검증용 출력 데이터'는 테스트 모델을 통해 출력된 값 또는 이를 이용한 우울증 또는 자살 위험 예측 방법의 결과 값과 비교되는 데이터를 의미한다.
이러한 검증용 출력 데이터는 개체의 우울증, 자살 기도 또는 자살 수행 여부 데이터로부터 가공되어 획득된다. 예를 들면, '검증용 출력 데이터'는 과거의 임의의 시점 또는 현재에 우울증으로 진단받은 병적 기록, 자살 시도 경험, 또는 자살 수행에 의한 사망을 나타내는 데이터일 수 있다. 예를 들면, 테스트 모델이 미래의 임의의 시점에 우울증, 자살 기도 또는 자살 수행 여부를 예측하도록 기계 학습되는 경우, '검증용 출력 데이터'는 우울증, 자살 기도 또는 자살 수행(1) 또는 우울증 없음, 자살 기도 또는 자살 수행 없음(0)과 같이 표현한 바이너리(binary) 데이터일 수 있다.
검증용 입력 데이터 및 검증용 출력 데이터를 획득하는 단계 이후에는, 상기 검증용 입력 데이터 및 검증용 출력 데이터를 상기 테스트 모델에 적용하여 우울증 또는 자살 위험 재현도를 산출하는 단계가 수행된다.
상기 검증용 입력 데이터 및 검증용 출력 데이터를 기 생성된 테스트 모델에 적용하여 우울증 또는 자살 위험 재현도를 산출함으로써, 상기 테스트 모델의 성능과 타당성을 평가 및 검증할 수 있다.
상기 재현도는 검증용 입력 데이터 및 검증용 출력 데이터의 일부 또는 전부를 상기 테스트 모델에 적용하였을 때, 우울증, 자살 기도 또는 자살 수행 여부의 예측 가능성, 또는 우울증을 갖는 개체, 자살 기도 또는 자살 수행 개체와 그렇지 않은 개체를 구분하는 정도를 나타낸다.
상기 재현도는 트레이닝 데이터 세트를, 우울증을 갖는 개체, 자살 기도 또는 자살 수행 개체를 포함하는 위험군(Case)와 그렇지 않는 개체인 정상인을 포함하는 대조군(Control)으로 나눈 후, 위험군의 수치 중의 중간값과 대조군의 수치 중의 중간값의 평균을 위험군과 대조군을 가르는 기준값으로 삼고, 그 기준값을 검증용 데이터 세트의 위험군과 대조군에 적용해서 위험군과 대조군을 구분할 때, 본래의 위험군과 대조군 구분과 일치하는 정도를 계산하는 방법 등의 알고리즘 및/또는 방식(기법)을 사용할 수 있다.
상기 재현도는 약 50% 이상, 약 55% 이상, 약 60% 이상, 약 65% 이상, 약 70% 이상, 약 75% 이상, 약 80% 이상, 약 85% 이상, 약 90% 이상, 약 95% 이상, 또는 약 100% 이상일 수 있다. 일 실시예 따르면, 재현도가 50% 이상인 메틸화 마커는 선별하여 우울증 또는 자살 위험 예측용 마커로 발굴할 수 있다.
상기 방법은, 상기 복수의, 우울증을 갖는 개체, 자살 기도 개체 또는 자살 수행 개체의 심리사고 평가척도 데이터를 획득하는 단계; 상기 심리사고 평가척도 데이터와 메틸화 마커 데이터 사이의 상관 계수를 산출하는 단계; 상기 상관 계수가 미리 정해진 기준값 이상인 메틸화 마커를 선별하는 단계를 포함할 수 있다.
귀납처리에 앞서서 관련이 없거나 약한 관련을 가지는 속성을 추출하기 위해 속성과 차원의 관련성을 분석해 낼 수 있다. 구체적인 속성 관련 분석방법으로는 정보이득, 지니계수, 불확실지수, 상관 계수 등이 있다. 상관 계수(Correlation)는 두 변수간의 관계의 강도를 의미하며, 변수 간 높은 상관 계수가 존재한다는 것은 두 변수가 같이 커지거나 작아지는 경향이 있다는 것일 수 있다.
상기 메틸화 마커 데이터는 심리사고 평가척도 데이터와 임의의 상관 관계를 가질 수 있다. 상기 메틸화 마커 데이터와 심리사고 평가척도 데이터의 상관 계수는 약 0.30 이상, 약 0.35 이상, 약 0.40 이상, 약 0.45 이상, 또는 약 0.5 이상일 수 있다.
일 실시예 따르면, 상기 메틸화 마커 데이터와 심리사고 평가척도 데이터의 상관 계수가 0.3 이상인 메틸화 마커를 선별하여 우울증 또는 자살 위험 예측용 마커로 발굴할 수 있다.
한편, 도 1에 도시된 본 발명의 일 실시예에 따른 기계 학습을 이용한 우울증 또는 자살 위험 예측용 마커 발굴 방법은 컴퓨터에서 실행될 수 있는 프로그램으로 작성할 수 있고, 컴퓨터로 읽을 수 있는 기록매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다. 상기 컴퓨터로 읽을 수 있는 기록매체는 마그네틱 저장매체(예를 들면, 롬, 플로피 디스크, 하드 디스크 등), 광학적 판독 매체(예를 들면, 시디롬, 디브이디 등)와 같은 저장매체를 포함한다.
본 발명에 따른 기계 학습을 이용한 우울증 또는 자살 위험 예측용 마커 발굴 방법, 이를 수행하는 장치 및 프로그램에 따르면, 개체의 우울증 또는 자살 위험을 개개인별로 정확하게 예측할 수 있다.
다른 양상은 상기 방법에 따라 발굴된 우울증 또는 자살 위험 예측용 마커를 제공한다.
상기 우울증 또는 자살 위험 예측용 마커는, 인간의 11번째 염색체의 67806358번째 염기, 인간의 14번째 염색체의 102516597번째 염기, 인간의 15번째 염색체의 37172017번째 염기, 인간의 16번째 염색체의 14014009번째 염기, 인간의 16번째 염색체의 88636588번째 염기, 인간의 17번째 염색체의 73009364번째 염기, 인간의 18번째 염색체의 77487338번째 염기, 인간의 19번째 염색체의 40023259번째 염기, 인간의 2번째 염색체의 3423658번째 염기, 인간의 2번째 염색체의 73052175번째 염기, 인간의 20번째 염색체의 42163538번째 염기, 인간의 20번째 염색체의 62460632번째 염기, 인간의 3번째 염색체의 147125005번째 염기, 인간의 4번째 염색체의 85419584번째 염기, 인간의 6번째 염색체의 21524046번째 염기 또는 이들의 조합의 메틸화 여부인 것일 수 있다.
상기 우울증 또는 자살 위험 예측용 마커는, 인간의 11번째 염색체의 67806358번째 염기의 메틸화, 인간의 14번째 염색체의 102516597번째 염기의 비메틸화, 인간의 15번째 염색체의 37172017번째 염기의 비메틸화, 인간의 16번째 염색체의 14014009번째 염기의 메틸화, 인간의 16번째 염색체의 88636588번째 염기의 메틸화, 인간의 17번째 염색체의 73009364번째 염기의 비메틸화, 인간의 18번째 염색체의 77487338번째 염기의 비메틸화, 인간의 19번째 염색체의 40023259번째 염기의 메틸화, 인간의 2번째 염색체의 3423658번째 염기의 비메틸화, 인간의 2번째 염색체의 73052175번째 염기의 비메틸화, 인간의 20번째 염색체의 42163538번째 염기의 비메틸화, 인간의 20번째 염색체의 62460632번째 염기의 비메틸화, 인간의 3번째 염색체의 147125005번째 염기의 메틸화, 인간의 4번째 염색체의 85419584번째 염기의 메틸화, 인간의 6번째 염색체의 21524046번째 염기의 비메틸화 또는 이들의 조합인 것일 수 있다.
상기 자살 위험 예측용 마커는, 인간의 13번째 염색체의 100254805번째 염기, 인간의 15번째 염색체의 53093335번째 염기, 인간의 21번째 염색체의 46351387번째 염기, 인간의 3번째 염색체의 28390646번째 염기, 인간의 10번째 염색체의 44144362번째 염기 또는 이들의 조합의 메틸화 여부인 것일 수 있다.
상기 자살 위험 예측용 마커는, 인간의 13번째 염색체의 100254805번째 염기의 메틸화, 인간의 15번째 염색체의 53093335번째 염기의 메틸화, 인간의 21번째 염색체의 46351387번째 염기의 메틸화, 인간의 3번째 염색체의 28390646번째 염기의 비메틸화, 인간의 10번째 염색체의 44144362번째 염기의 비메틸화 또는 이들의 조합인 것일 수 있다.
상기 자살 위험 예측용 마커는, 우울증 위험과 자살 위험을 특이적으로 구분할 수 있다. 이를 역으로 적용하면, 우울증 위험 예측용 마커로 적용할 수 있다.
다른 양상은 하기 단계를 포함하는 개체의 우울증 또는 자살 위험을 예측하기 위한 정보를 제공하는 방법으로서, 개체의 생물학적 시료로부터 핵산 시료를 수득하는 단계; 및 수득된 핵산 시료로부터 우울증 또는 자살 위험 예측용 마커의 메틸화 여부를 분석하는 단계를 포함하고, 상기 마커는, 인간의 11번째 염색체의 67806358번째 염기, 인간의 14번째 염색체의 102516597번째 염기, 인간의 15번째 염색체의 37172017번째 염기, 인간의 16번째 염색체의 14014009번째 염기, 인간의 16번째 염색체의 88636588번째 염기, 인간의 17번째 염색체의 73009364번째 염기, 인간의 18번째 염색체의 77487338번째 염기, 인간의 19번째 염색체의 40023259번째 염기, 인간의 2번째 염색체의 3423658번째 염기, 인간의 2번째 염색체의 73052175번째 염기, 인간의 20번째 염색체의 42163538번째 염기, 인간의 20번째 염색체의 62460632번째 염기, 인간의 3번째 염색체의 147125005번째 염기, 인간의 4번째 염색체의 85419584번째 염기, 인간의 6번째 염색체의 21524046번째 염기 또는 이들의 조합인 것일 수 있다.
상기 방법은 개체의 생물학적 시료로부터 핵산 시료를 수득하는 단계를 포함한다.
상기 개체는 우울증 또는 자살 위험을 예측하기 위한 대상을 의미한다. 상기 개체는 척추동물, 포유동물, 인간(Homo sapiens), 마우스, 래트, 소, 말, 돼지, 양, 염소, 개, 고양이 등을 포함하는 것일 수 있다. 예를 들면, 상기 인간은 아시아계 인, 또는 한국인일 수 있다. "개체" 및 "대상"는 본 명세서에서 상호교환적으로 사용된다.
상기 생물학적 시료는 생물로부터 수득된 시료를 말한다. 상기 생물학적 시료는, 예를 들면, 혈액, 조직, 소변, 점액, 타액, 눈물, 혈장, 혈청, 객담, 척수액, 흉수, 유두 흡인물, 림프액, 기도액, 장액, 비뇨생식관액, 모유, 림프계 체액, 정액, 뇌척수액, 기관계내 체액, 복수, 낭성 종양 체액, 양수액 또는 이들의 조합인 것일 수 있다. 생물학적 시료는 순수하게 분리된 핵산, 조 분리된 핵산, 핵산을 포함하는 세포 파쇄물, 또는 세포 유리 핵산을 포함하는 것일 수 있다.
생물학적 시료로부터 핵산을 분리하는 방법은 통상의 핵산 분리 방법에 의하여 수행될 수 있다. 예를 들면, 표적 핵산을 중합효소 연쇄 반응(polymerase chain reactionL: PCR), 리가제 연쇄 반응(ligase chain reaction: LCR), 전사 증폭(transcription amplification), 또는 실시간-핵산 서열 기초 증폭(realtime-nucleic acid sequence based amplification: NASBA)을 통하여 증폭하고 이를 정제하여 얻을 수 있다.
상기 방법은 수득된 핵산 시료로부터 마커의 메틸화 여부를 분석하는 단계를 포함한다. 상기 메틸화 여부를 분석하는 단계는, 유전체 또는 DNA의 메틸화를 확인할 수 있는 공지의 방법으로 수행될 수 있다. 예를 들면, 시퀀싱, PCR, 메틸화 특이 PCR(methylation specific PCR), 실시간 메틸화 특이 PCR(real time methylation specific PCR), 메틸화 DNA 특이적 결합 단백질을 이용한 PCR, 정량 PCR, DNA 칩, 파이로 시퀀싱 및 바이설파이트 시퀀싱 또는 이들의 조합에 의해 수행될 수 있다.
상기 시퀀싱은, 체세대 염기 시퀀싱일 수 있는데, "차세대 염기 시퀀싱(next generation sequencing: NGS)은 칩(Chip)기반 그리고 PCR 기반 쌍-말단(paired end) 형식으로 전장 유전체를 조각내고, 상기 조각을 화학적인 반응(hybridization)에 기초하여 초고속으로 시퀀싱을 수행하는 기술을 의미한다. 차세대 염기시퀀싱에 의해 짧은 시간 내에 분석 대상이 되는 시료에 대해 대량의 염기서열 데이터를 생성할 수 있다.
상기 마커에서 메틸화된 DNA의 수가, 1개 이상, 2개 이상, 3개 이상, 4개 이상, 5개 이상, 6개 이상, 7개 이상, 8개 이상, 9개 이상, 10개 이상, 11개 이상, 12개 이상, 13개 이상, 14개 이상인 경우, 우울증 또는 자살 위험이 높다고 판단할 수 있으며, 예측에 대한 정확도가 높아질 수 있다.
다른 양상은, 복수의, 우울증을 갖는 개체, 자살 기도 개체 또는 자살 수행 개체의 메틸화 마커 데이터 및 RNA 발현 마커 데이터 중 적어도 하나, 및 우울증, 자살 기도 또는 자살 수행 여부 데이터를 획득하는 단계; 상기 메틸화 마커 데이터를 가공한 제1학습용 입력 데이터 및 상기 RNA 발현 마커 데이터를 가공한 제2학습용 입력 데이터 중 적어도 하나의 학습용 입력 데이터, 및 상기 우울증, 자살 기도 또는 자살 수행 여부 데이터를 가공한 학습용 출력 데이터를 기계 학습시켜 테스트 모델을 생성하는 단계; 상기 학습용 입력 데이터 및 학습용 출력 데이터를 상기 테스트 모델에 적용하여 우울증 또는 자살 위험 예측도를 산출하는 단계; 상기 예측도가 미리 정해진 기준값 이상인 메틸화 마커 및 상기 예측도가 미리 정해진 기준값 이상인 RNA 발현 마커 중 적어도 하나를 선별하는 단계; 상기 선별된 메틸화 마커 및 상기 선별된 RNA 발현 마커 중 적어도 하나를 학습용 입력 데이터로 하는 우울증 또는 자살 위험 예측용 모델을 생성하는 단계;를 포함하는, 기계 학습을 이용한 우울증 또는 자살 위험 예측 방법을 제공한다.
우울증 또는 자살 위험을 예측하는 것은 개체의 유전적인 게놈, 전사체, 후성 유전체 데이터 등을 포함하는 오믹스 데이터를 입력하면 소정의 알고리즘을 통해 상기 개체의 우울증 또는 자살 시도 또는 자살 수행 가능성을 산출한다는 것을 의미할 수 있다.
상기 메틸화 마커 데이터는 전술한 바와 동일하다. 상기 RNA 발현 마커 데이터는 개체의 염색체 내 시퀀싱 결과, DNA의 RNA로의 전사 여부 등, 개체의 유전체에서 RNA 발현과 관련된 기록을 포함한다.
상기 메틸화 마커 데이터, RNA 발현 마커 데이터는 및 상기 우울증, 자살 기도 또는 자살 수행 여부 데이터는 한 개 이상의 병원 또는 지역의 개체로부터 획득할 수 있다.
상기 메틸화 마커 데이터는 유전체 또는 DNA의 메틸화를 확인할 수 있는 공지의 방법을 수행하여 획득될 수 있고, 상기 RNA 발현 마커 DNA에서 RNA로의 전사 여부를 확인할 수 있는 공지의 방법을 수행하여 획득될 수 있으며, 상기 우울증, 자살 기도 또는 자살 수행 여부 데이터는 개체의 문진 또는 설문 결과로부터 획득될 수 있으나, 이에 제한되는 것은 아니다.
이 후, 상기 메틸화 마커 데이터를 가공한 제1학습용 입력 데이터 및 상기 RNA 발현 마커 데이터를 가공한 제2학습용 입력 데이터 중 적어도 하나의 학습용 입력 데이터, 및 상기 우울증, 자살 기도 또는 자살 수행 여부 데이터를 가공한 학습용 출력 데이터를 기계 학습시켜 테스트 모델을 생성하는 단계가 수행된다.
테스트 모델을 생성하는 단계는 상기 메틸화 마커 데이터를 가공한 제1학습용 입력 데이터와 상기 RNA 발현 마커 데이터를 가공한 제2학습용 입력 데이터 중 적어도 하나에 대응되는 우울증, 자살 기도 또는 자살 수행 여부 데이터를 가공한 학습용 출력 데이터 간의 상관 계수, 즉 양자의 매핑 정보일 수 있다.
'학습용 입력 데이터'는 기계 학습을 위해 사용되는 데이터로, 복수의, 우울증을 갖는 개체, 자살 기도 개체 또는 자살 수행 개체의 메틸화 마커 데이터 및/또는 RNA 발현 마커 데이터로부터 가공되어 획득된다. 학습용 입력 데이는 제1학습용 입력 데이터 및/또는 제2학습용 입력 데이터를 포함할 수 있다. 예를 들면, 상술한 RNA 발현 마커 데이터 중에서, 염색체 번호, 염색체 내 염기의 위치, RNA로의 전사 여부 등 분류가 가능한 값은 라벨링하여 하나의 수학적 값으로 변환시킬 수 있다.
'학습용 출력 데이터'는 테스트 모델을 통해 출력된 값과 비교되는 데이터를 의미한다. 이러한 학습용 출력 데이터는 개체의 우울증, 자살 기도 또는 자살 수행 여부 데이터로부터 가공되어 획득된다. 이는 전술한 바와 동일하다.
이와 같은 과정을 통해 메틸화 마커 데이터, RNA 발현 마커 데이터 및 우울증, 자살 기도 또는 자살 수행 여부 데이터를 수학적으로 처리할 수 있게 가공하여, 학습용 입력 데이터 및 학습용 출력 데이터를 획득할 수 있다.
'테스트 모델'은, 학습용 입력 데이터와 학습용 출력 데이터의 상관 계수를 분석하여 과거, 현재, 또는 미래의 임의의 시점에서의 우울증 진단, 자살 시도, 또는 자살 수행으로의 사망을 예측하는 입출력함수를 의미한다.
테스트 모델 생성 단계 이후에는 상기 테스트 모델의 예측 결과를 바탕으로, 상기 학습용 입력 데이터 및 학습용 출력 데이터를 상기 테스트 모델에 적용하여 우울증 또는 자살 위험 예측도를 산출하는 단계가 수행된다.
상기 예측도에 대하여는 전술한 바와 동일하다.
테스트 모델 생성 이후, 학습용 입력 데이터 및 학습용 출력 데이터를 상기 테스트 모델에 적용하여 우울증 또는 자살 위험 예측도를 산출하고, 상기 예측도가 미리 정해진 기준값 이상인 메틸화 마커 및 상기 예측도가 미리 정해진 기준값 이상인 RNA 발현 마커 중 적어도 하나를 선별하는 단계가 수행된다.
상기 예측도는 약 50% 이상, 약 55% 이상, 약 60% 이상, 약 65% 이상, 약 70% 이상, 약 75% 이상, 약 80% 이상, 약 85% 이상, 약 90% 이상, 약 95% 이상, 또는 약 100% 이상일 수 있다. 일 실시예 따르면, 예측도가 75% 이상인 메틸화 마커는 선별하여 우울증 또는 자살 위험 예측용 마커로 발굴할 수 있다.
상기 선별된 메틸화 마커 및 상기 선별된 RNA 발현 마커 중 적어도 하나를 학습용 입력 데이터로 하는 우울증 또는 자살 위험 예측용 모델을 생성하는 단계가 수행된다. 일 실시예에서는, 랜덤 포레스트(random forests)를 이용하여 선별된 메틸화 마커 및/또는 RNA 발현 마커를 통합한 결과를 랜덤 포레스트에 적용하여 결과 값으로 우울증 또는 자살 위험의 예측도가 높은 것을 확인하였다.
상기 방법은, 상기 복수의, 우울증을 갖는 개체, 자살 기도 개체 또는 자살 수행 개체의 심리사고 평가척도 데이터를 획득하는 단계; 상기 심리사고 평가척도 데이터와 메틸화 마커 데이터 및 RNA 발현 마커 데이터 중 적어도 하나 사이의 상관 계수를 산출하는 단계; 상기 상관 계수가 미리 정해진 기준값 이상인 메틸화 마커 및 상기 상관 계수가 미리 정해진 기준값 이상인 RNA 발현 마커 중 적어도 하나를 선별하는 단계를 포함할 수 있다.
상기 메틸화 마커 데이터 및/또는 RNA 발현 마커 데이터는 심리사고 평가척도 데이터와 임의의 상관 관계를 가질 수 있다. 상기 메틸화 마커 데이터 및/또는 RNA 발현 마커 데이터와 심리사고 평가척도 데이터의 상관 계수는 약 0.30 이상, 약 0.35 이상, 약 0.40 이상, 약 0.45 이상, 또는 약 0.5 이상일 수 있다. 일 실시예 따르면, 상기 메틸화 마커 데이터 및/또는 RNA 발현 마커와 심리사고 평가척도 데이터의 상관 계수가 0.3 이상인 메틸화 마커 및/또는 RNA 발현 마커를 선별하여 우울증 또는 자살 위험 예측용 마커로 최종적으로 선별할 수 있다.
상기 테스트 모델을 생성하는 단계는, 상기 메틸화 마커 데이터를 가공한 제1학습용 입력 데이터의 학습용 입력 데이터, 및 상기 우울증, 자살 기도 또는 자살 수행 여부 데이터를 가공한 학습용 출력 데이터를 기계 학습시켜 테스트 모델을 생성하고, 상기 테스트 모델을 바탕으로, 상기 RNA 발현 마커 데이터를 가공한 제2학습용 입력 데이터, 및 상기 우울증, 자살 기도 또는 자살 수행 여부 데이터를 가공한 학습용 출력 데이터를 기계 학습시켜 기 생성된 테스트 모델을 수정 및 갱신하는 단계가 수행될 수 있다. 이후, 수정 및 갱신된 모델의 입력 변수 집합을 최종 변수 집합으로 선정할 수 있으며, 예를 들면, 수정 및 갱신된 모델의 메틸화 마커를 최종 변수 집합으로 선정할 수 있다.
상기 우울증 또는 자살 위험 예측용 마커 발굴 방법 및/또는 기계 학습을 이용한 우울증 또는 자살 위험 예측 방법은 복수의 학습용 입력 데이터 및/또는 학습용 출력 데이터를 분류하기 위해 Logistic regression, Decision tree, Nearest-neighbor classifier, Kernel discriminate analysis, Neural network, Support Vector Machine, Random forest, Boosted tree 등의 알고리즘 및/또는 방식(기법)을 사용할 수 있다.
상기 우울증 또는 자살 위험 예측용 마커 발굴 방법 및/또는 기계 학습을 이용한 우울증 또는 자살 위험 예측 방법은 우울증 또는 자살 위험을 예측하기 위해 Linear regression, Regression tree, Kernel regression, Support vector regression, Deep Learning 등의 알고리즘 및/또는 방식(기법)을 사용할 수 있다.
또한, 상기 우울증 또는 자살 위험 예측용 마커 발굴 방법 및/또는 기계 학습을 이용한 우울증 또는 자살 위험 예측 방법은 예측도, 재현도, 상관 계수 등의 연산을 위해 Principal component analysis, Non-negative matrix factorization, Independent component analysis, Manifold learning, SVD 등의 알고리즘 및/또는 방식(기법)을 사용할 수 있다.
상기 우울증 또는 자살 위험 예측용 마커 발굴 방법 및/또는 기계 학습을 이용한 우울증 또는 자살 위험 예측 방법은 복수의 메틸화 마커 데이터의 그룹화를 위해 k-means, Hierarchical clustering, mean-shift, self-organizing maps(SOMs) 등의 알고리즘 및/또는 방식(기법)을 사용할 수 있다.
상기 우울증 또는 자살 위험 예측용 마커 발굴 방법 및/또는 기계 학습을 이용한 우울증 또는 자살 위험 예측 방법은 데이터 비교를 위해 Bipartite cross-matching, n-point correlation two-sample testing, minimum spanning tree 등의 알고리즘 및/또는 방식(기법)을 사용할 수 있다.
다만, 전술한 알고리즘 및/또는 방식(기법)은 예시적인 것으로 본 발명의 사상이 이에 한정되는 것은 아니다.
한편, 데이터는 데이터 세트(Data set)일 수 있다. 다시 말하면, 학습용 입력 데이터, 학습용 출력 데이터, 검증용 입력 데이터, 검증용 출력 데이터 등은 행렬(Matrix)과 같이 복수개의 숫자(또는 계수)로 구성된 데이터 세트일 수 있다.
본 발명의 기계 학습을 이용한 우울증 또는 자살 위험 예측용 마커 발굴 방법에 따르면, 정확도 및 신뢰도가 높은 우울증 또는 자살 위험 예측용 마커를 발굴할 수 있고, 유전자 검사를 통하여 우울증 또는 자살 위험을 조기에 진단 및 그 위험을 예방할 수 있다. 물론 이러한 효과에 의해 본 발명의 범위가 한정되는 것은 아니다.
도 1은 일 실시예에 따른 기계 학습을 이용한 우울증 또는 자살 위험 예측용 마커 발굴 방법을 나타낸 순서도이다.
도 2는 선발된 70명을 대상으로 학습용 데이터를 수득하고, 유전자 전체에서 변형된 메틸 시토신의 분포를 분석한 결과이다.
도 3은 예측도 및 재현도가 기준값 이상이고, 심리사고 평가척도와 상관 계수가 기준값 이상인 메틸화 자리를 선별하는 과정 및 그에 따라 선별된 DNA 메틸화 마커를 나타낸다.
도 4는 우울증을 갖는 군 및 자살 기도 또는 자살 수행 군에서의 DNA 메틸화 마커를 나타낸다.
도 5는 우울증 또는 자살 위험 예측용 마커로 선별된 메틸화 마커에서 메틸화 정도를 나타낸 그래프이다.
도 6은 심리사고 평가척도와 연관성이 있는, 메틸화 자리, RNA 발현 결과, 메틸화 자리와 RNA 발현 결과를 통합한 결과 각각을 랜덤 포레스트에 적용하여 결과 값으로 우울증 또는 자살 위험의 예측도를 확인한 결과이다.
도 7은 일 실시예에 따른 기계 학습을 이용한 우울증 또는 자살 위험 예측용 마커 발굴 방법 및 기계 학습을 이용한 우울증 또는 자살 위험 예측 방법을 나타낸 순서도이다.
본 발명은 하기 실시예에 의하여 더욱 구체적으로 설명한다. 그러나, 하기 실시예는 본 발명의 이해를 돕기 위한 것일 뿐, 어떤 의미로든 본 발명의 범위가 이러한 실시예에 의하여 한정되는 것은 아니다.
실시예 1: 1 ) 우울증, 자살 수행 또는 자살 기도 개체로부터, 유전체 메틸화 정보 추출, 2) 심리사고 평가척도와 상관 계수가 기준값 이상, 예측도 및 재현도가 기준값 이상인 메틸화 자리 선별, 및 3) 메틸화 마커 RNA 발현 마커 및 기계 학습을 이용한 우울증 또는 자살 위험 예측
1. 우울증, 자살 수행 또는 자살 기도 개체로부터, 유전체 메틸화 정보 추출, 및 심리사고 평가척도와 상관 계수가 기준값 이상, 예측도 및 재현도가 기준값 이상인 메틸화 자리 선별
도 7은 일 실시예에 따른 기계 학습을 이용한 우울증 또는 자살 위험 예측용 마커 발굴 방법 및 기계 학습을 이용한 우울증 또는 자살 위험 예측 방법을 나타낸 순서도이다. 도 7을 참조하면, 개체로부터 수득한 methylseq 리드(read)를 전환된 hg19 참조 서열에 정렬하고, 염기의 메틸화(methylation) 정보를 추출한다. 상기 정보를 이용하여, 위험군과 정상군에서 메틸화 여부가 다르게 나타난 염색체 자리(Differentially Methylated Site: DMS), 각각의 메틸화 자리에서의 우울증, 자살 기도 또는 자살 수행에 대한 예측도와 재현도, 및 각각의 메틸화 자리와 심리사고 평가척도의 상관 계수(correlation)을 이용를 이용하여, 우울증 또는 자살 위험 예측용 마커를 발굴할 수 있고, 이를 이용하여 개체의 우울증 또는 자살 위험을 예측할 수 있다.
우울증을 갖는 개체 22명, 자살 기도 또는 자살 수행 개체 34명(위험군) 및 그렇지 않는 개체 44명(정상군 또는 대조군), 총 100명을 모집하였다. 그 중 임의로 선발된 70명을 대상으로 학습용 데이터를 수득하였으며, 나머지 30명을 대상으로 검증용 데이터를 수득하였다.
상기 100명의 대상자로부터 말초 혈액을 채취하고, 이어서, QiAmp DNA 키트(Qiagen, Germany)를 이용하여, 상기 혈액으로부터 유전체 DNA(genomic DNA: gDNA)을 수득하였다. 이어서, 바이설파이트(bisulfite)를 이용한 시퀀싱(Reduced representation bisulfite sequencing: RRBS)(Illumina)을 수행하였다. 수득된 시퀀싱 데이터를 NGSQcToolKit를 이용하여 품질 점수(quality control)가 20 이상인 리드만을 필터링하여, methylseq 리드(read)를 수득하였다. 인간 참조 게놈(Human reference genome)(hg19)은 bismark_genome_preparation 프로그램으로 전환(convert)하였다. methylseq 리드를 bismark 정렬(align)을 이용하여 전환된 hg19 참조 서열에 정렬하였다(http://genome.ucsc.edu). 정렬(Alignment) 결과로부터 MethylExtract를 이용하여 메틸화(methylation) 정보를 추출하였다.
70명의 메틸화 정보를 이용하여, 위험군과 정상군에서 메틸화 여부가 다르게 나타난 염색체 자리(Differentially Methylated Site: DMS)를, 게놈 전반적인 DNA 메틸화 프로파일의 분석을 위한 포괄적인 R 패키지인 methylKit 및 Wilcoxon 테스트를 이용하여 추출하였다.
이어서, 각각의 메틸화 자리에서의 자살 기도 또는 자살 수행에 대한 예측도와 재현도를 계산하였다. 예측도는 70명의 메틸화 정보를 트레이닝 데이터 세트(training data set)로 하여 테스트 모델을 생성하고, 상기 트레이닝 테이터 세트를 상기 테스트 모델에 적용하였을 때, 위험군과 대조군이 구분되는 정도(0 내지 1)를 나타낸다. 재현도는 나머지 30명을 대상으로 검증용 데이터를 수득하고, 메틸화 정보를 생성된 테스트 모델에 적용하였을 때, 위험군과 대조군이 구분되는 정도(0 내지 1)를 나타낸다.
구체적으로, 트레이닝 데이터 세트를 위험군(Case)와 대조군(Control)으로 나눈 후, 위험군의 수치 중의 중간값과 대조군의 수치 중의 중간값의 평균을 위험군과 대조군을 가르는 기준값으로 삼는다. 그 기준값을 트레이닝 데이터 세트의 위험군과 대조군에 재적용해서 위험군과 대조군을 재구분 할 때, 본래의 위험군과 대조군 구분과 일치하는 정도를 계산하여 나온 값을 예측도로 삼는다. 그 기준값을 검증용 데이터 세트에 위와 같은 방법으로 계산하여 나온 값을 재현도로 삼는다.
또한, 메틸화 정보와 심리사고 평가척도 점수를 기초로 Spearman 상관 계수(correlation)를 이용하여 메틸화 자리와 심리사고 평가척도 점수 간의 상관 계수를 구하였다.
도 2는 선발된 70명을 대상으로 학습용 데이터를 수득하고, 유전자 전체에서 메틸화된 염기의 분포를 분석한 결과이다. chr는 염색체 번호, Annotation은 해당 위치가 어떤 유전자의 어떤 영역에 위치하는지를 나타낸다. Rho_HAM21, HAM17, SSI는 심리사고 평가척도(우울증: HAM21, HAM17; 자살: SSI)와의 상관 계수를 나타낸다. Pval_HAM21, HAM17, SSI는 심리사고 평가척도와의 상관 계수의 유의도을 나타낸다. Pval_MethylKit와 Pval_Willcoxon은 각각의 메틸화 자리에서 위험군과 대조군이 구분되는 정도의 유의도를 나타낸다. Prediction 과 Replication은 각각 예측도와 재현도를 나타낸다.
도 3은, 도 2의 표로부터 예측도 및 재현도가 기준값 이상이고, 심리사고 평가척도와 상관 계수가 기준값 이상인 메틸화 자리를 선별하는 과정 및 그에 따라 선별된 DNA 메틸화 마커를 나타낸다.
도 3의 A을 참조하면, 예측도가 50% 이상인 메틸화 자리를 계수한 결과 31,739 개이며, 그 중 각각의 심리사고 평가척도와 연관성이 있는 메틸화 자리를 선별 및 계수하였다. 이 때, 연관성이 있는 메틸화 자리는 Rho_HAM21, HAM17, 및 SSI 각각과 상관 계수가 0.3 이상(Rho≥0.3), 상관 계수의 유의도가 0.05 미만(p-value<0.05)인 것을 선별하였다. 그 결과, HAM21에 대하여 5,524개, HAM17에 대하여 5,633개, SSI에 대하여 5,292개 이었다. 모든 심리사고 평가척도와 연관성이 있는 메틸화 자리의 수는 2,287개이었다.
그 중에서, 예측도가 75% 이상인 메틸화 자리 15개를 선별하여, 도 3의 B에 나타내었다. 도 3의 B에 나타낸 바와 같이, 상기 15종의 메틸화 마커는 자살 기도 또는 자살 시도, 또는 우울증의 위험을 높은 정확도 및 신뢰도로 예측할 수 있다. 도 3의 B에서, chr는 염색체 번호, site는 염색체 상의 위치, gene은 해당 위치가 어떠한 유전자와 연관되어 있는지, >methylation은 해당 위치에서 위험군과 정상군 중에 어떠한 군에 더 많이 메틸화가 되어 있는지, region은 해당 위치가 연관된 유전자의 어떠한 영역에 위치하는지를 나타낸다. 도 3의 C는 도 3의 A 및 B를 그래프로 나타낸 것이다.
도 5는 우울증 또는 자살 위험 예측용 마커로 선별된 메틸화 마커에서 메틸화 정도를 나타낸 그래프이다. 도 5의 A는 메틸화 자리인 인간의 16번째 염색체의 14014009번째 염기에 대하여, 우울증을 갖는 개체, 자살 기도 또는 자살 수행 개체에서 메틸화 정도를 나타낸 그래프이다. 도 5의 A에 나타낸 바와 같이, 우울증을 갖는 개체, 자살 기도 또는 자살 수행 개체는 정상군에 비하여, 16번째 염색체의 14014009번째 염기에서 메틸화가 정도가 현저하게 높았다.
2. 자살 수행 또는 자살 기도와 특이적으로 관련된 메틸화 자리 선별
우울증과 자살 기도 또는 자살 수행의 위험은 다른 유전적인 요인에 의해 유발될 수 있으므로, 1과 동일한 방법으로, 우울증과 자살 기도 또는 자살 수행을 구분할 수 있는 메틸화 마커를 추가 확인하였다.
도 4는 우울증을 갖는 군 및 자살 기도 또는 자살 수행 군에서의 DNA 메틸화 마커를 나타낸다.
도 4의 A을 참조하면, 자살 기도 또는 자살 수행에 대한 예측도가 50% 이상인 메틸화 자리를 계수한 결과 35,778개이며, 그 중 각각의 심리사고 평가척도와 연관성이 있는 메틸화 자리를 선별 및 계수하였다. 그 결과, HAM21에 대하여 322개, HAM17에 대하여 337개, SSI에 대하여 532개이었다. 모든 심리사고 평가척도와 연관성이 있는 메틸화 자리의 수는 122개이었다. 그 중에서, 예측도가 80% 이상이고, 각각의 심리사고 평가척도와 연관성이 있는 메틸화 자리의 수는 5개이었다. 도 4의 A에 나타낸 바와 같이, 상기 종의 메틸화 마커는 자살 기도 또는 자살 시도의 위험과 우울증의 위험을 특이적으로 구분하여, 높은 정확도 및 신뢰도로 예측할 수 있다. 도 4의 B는 도 4의 A를 그래프로 나타낸 것이다.
도 5는 우울증 또는 자살 위험 예측용 마커로 선별된 메틸화 마커에서 메틸화 정도를 나타낸 그래프이다. 도 5의 B는 메틸화 자리인 인간의 10번째 염색체의 44144362번째 염기에 대하여, 우울증을 갖는 군 및 자살 기도 또는 자살 수행 군에서 메틸화 정도를 나타낸 그래프이다. 도 5의 B에 나타낸 바와 같이, 우울증을 갖는 개체는, 자살 기도 또는 자살 수행 개체에 비하여, 10번째 염색체의 44144362번째 염기에서 메틸화 정도가 현저하게 높았다. 한편, 자살 기도 또는 자살 수행 개체는, 인간의 13번째 염색체의 100254805번째 염기의 메틸화, 인간의 15번째 염색체의 53093335번째 염기의 메틸화, 인간의 21번째 염색체의 46351387번째 염기의 메틸화, 인간의 3번째 염색체의 28390646번째 염기의 비메틸화, 및 인간의 10번째 염색체의 44144362번째 염기의 비메틸화를 갖는 것을 알 수 있다.
3. 메틸화 마커 RNA 발현 마커 및 기계 학습을 이용한 우울증 또는 자살 위험 예측
3종의 심리사고 평가척도와 연관성이 있는(상관 계수가 0.35 이상) 메틸화 자리(86개)를 이용하여, 기계학습 방법 중 하나인 랜덤 포레스트(random forests)에 적용하였다. 1에서 우울증 또는 자살 위험이 있는 위험군과 정상군에 대한 결과를 확인하였으므로, 지도식 학습(Supervised Learning) 방법을 적용하여, 우울증 또는 자살 위험에 대한 예측도를 확인하였다. 상기 검증 방법은, 여러 검증 방법 중 적은 샘플 수에 유용한 leave-one-out cross validation 방법을 적용하였다.
1에서 수행한 메틸화 자리 및 기계 학습을 이용한 우울증 또는 자살 위험 예측용 마커 발굴 방법을, RNA 발현 데이터에 적용하였다. 또한, 3종의 심리사고 평가척도와 연관성이 있는(상관 계수 0.35 이상) RNA 발현 데이터(28개)를 지도 랜덤 포레스트(Supervised random forests)에 적용하였다.
메틸화 자리, RNA 발현 데이터, 및 Wilcoxon signed-rank 테스트 결과를 이용하여 지도 랜덤 포레스트(Supervised random forests)에 적용하였다.
도 6은 심리사고 평가척도와 연관성이 있는, 메틸화 자리, RNA 발현 결과, 메틸화 자리와 RNA 발현 결과를 통합한 데이터 각각을 랜덤 포레스트에 적용하여 결과 값으로 우울증 또는 자살 위험의 예측도를 확인한 결과이다.
도 6을 참조하면, 3종의 심리사고 평가척도와 연관성이 있는 메틸화 자리(86개)에 대하여 우울증 또는 자살 위험을 예측하는 정확도는 약 86%이었다. 3종의 심리사고 평가척도와 연관성이 있는 RNA 발현 결과에 대하여 우울증 또는 자살 위험을 예측하는 정확도는 약 73%이었다. 3종의 심리사고 평가척도와 연관성이 있는 메틸화 자리와 RNA 발현 결과를 통합한 데이터(114개)에 대하여 우울증 또는 자살 위험을 예측하는 정확도는 약 86%이었다. 3종의 심리사고 평가척도와 연관성이 있는 메틸화 자리와 RNA 발현 결과를 통합한 데이터(114개)에, 및 1에서 분석 및 확인된 15종의 마커를 추가한 경우, 우울증 또는 자살 위험을 예측하는 정확도는 약 90%이었다. 3종의 심리사고 평가척도와 연관성이 있는 메틸화 자리와 RNA 발현 결과를 통합한 데이터(114개)에, 1에서 분석 및 확인된 15종의 마커, 및 RNA 발현 분석 및 확인된 9종의 마커를 추가한 경우, 우울증 또는 자살 위험을 예측하는 정확도는 약 90%이었다.
개체의 우울증 또는 자살 위험은 개체의 전사체 및 후성 유전체 데이터 등을 포함하는 오믹스 데이터 및 소정의 알고리즘을 통해 높은 정확도로 예측할 수 있다.

Claims (13)

  1. 컴퓨터에 의해 수행되는 기계 학습을 이용한 우울증 또는 자살 위험 예측용 마커 발굴 방법에 있어서,
    복수의, 우울증을 갖는 개체, 자살 기도 개체 또는 자살 수행 개체의 메틸화 마커 데이터 및 우울증, 자살 기도 또는 자살 수행 여부 데이터를 획득하는 단계;
    상기 메틸화 마커 데이터를 가공한 학습용 입력 데이터, 상기 우울증, 자살 기도 또는 자살 수행 여부 데이터를 가공한 학습용 출력 데이터를 기계 학습시켜 테스트 모델을 생성하는 단계;
    상기 학습용 입력 데이터 및 학습용 출력 데이터를 상기 테스트 모델에 적용하여 우울증 또는 자살 위험 예측도를 산출하는 단계;
    상기 복수의, 우울증을 갖는 개체, 자살 기도 개체 또는 자살 수행 개체의 우울증 또는 자살에 대한 심리사고 평가척도 데이터를 획득하는 단계;
    상기 심리사고 평가척도 데이터와 메틸화 마커 데이터 사이의 상관 계수를 산출하는 단계; 및
    상기 예측도 및 상관계수가 미리 정해진 기준값 이상인 메틸화 마커를 선별하는 단계를 포함하는, 기계 학습을 이용한 우울증 또는 자살 위험 예측용 마커 발굴 방법.
  2. 청구항 1에 있어서,
    복수의, 우울증을 갖는 개체, 자살 기도 개체 또는 자살 수행 개체의 메틸화 마커 데이터 및 우울증, 자살 기도 또는 자살 수행 여부 데이터를 획득하는 단계;
    상기 메틸화 마커 데이터를 가공한 검증용 입력 데이터 및 상기 우울증, 자살 기도 또는 자살 수행 여부 데이터를 가공한 검증용 출력 데이터를 획득하는 단계;
    상기 검증용 입력 데이터 및 검증용 출력 데이터를 상기 테스트 모델에 적용하여 우울증 또는 자살 위험 재현도를 산출하는 단계;
    상기 재현도가 미리 정해진 기준값 이상인 메틸화 마커를 선별하는 단계를 포함하는, 기계 학습을 이용한 우울증 또는 자살 위험 예측용 마커 발굴 방법.
  3. 삭제
  4. 청구항 1에 있어서, 상기 예측도에 대한 기준값은 50%인 것인, 기계 학습을 이용한 우울증 또는 자살 위험 예측용 마커 발굴 방법.
  5. 청구항 2에 있어서, 상기 재현도에 대한 기준값은 50%인 것인, 기계 학습을 이용한 우울증 또는 자살 위험 예측용 마커 발굴 방법.
  6. 청구항 1에 있어서, 상기 상관 계수에 대한 기준값은 0.3인 것인, 기계 학습을 이용한 우울증 또는 자살 위험 예측용 마커 발굴 방법.
  7. 삭제
  8. 우울증 또는 자살 위험 예측용 마커로서, 상기 마커는 인간의 11번째 염색체의 67806358번째 염기, 인간의 14번째 염색체의 102516597번째 염기, 인간의 15번째 염색체의 37172017번째 염기, 인간의 16번째 염색체의 14014009번째 염기, 인간의 16번째 염색체의 88636588번째 염기, 인간의 17번째 염색체의 73009364번째 염기, 인간의 18번째 염색체의 77487338번째 염기, 인간의 19번째 염색체의 40023259번째 염기, 인간의 2번째 염색체의 3423658번째 염기, 인간의 2번째 염색체의 73052175번째 염기, 인간의 20번째 염색체의 42163538번째 염기, 인간의 20번째 염색체의 62460632번째 염기, 인간의 3번째 염색체의 147125005번째 염기, 인간의 4번째 염색체의 85419584번째 염기, 인간의 6번째 염색체의 21524046번째 염기 또는 이들의 조합의 메틸화 여부인 것인, 우울증 또는 자살 위험 예측용 마커.
  9. 청구항 8에 있어서, 상기 마커는 인간의 11번째 염색체의 67806358번째 염기의 메틸화, 인간의 14번째 염색체의 102516597번째 염기의 비메틸화, 인간의 15번째 염색체의 37172017번째 염기의 비메틸화, 인간의 16번째 염색체의 14014009번째 염기의 메틸화, 인간의 16번째 염색체의 88636588번째 염기의 메틸화, 인간의 17번째 염색체의 73009364번째 염기의 비메틸화, 인간의 18번째 염색체의 77487338번째 염기의 비메틸화, 인간의 19번째 염색체의 40023259번째 염기의 메틸화, 인간의 2번째 염색체의 3423658번째 염기의 비메틸화, 인간의 2번째 염색체의 73052175번째 염기의 비메틸화, 인간의 20번째 염색체의 42163538번째 염기의 비메틸화, 인간의 20번째 염색체의 62460632번째 염기의 비메틸화, 인간의 3번째 염색체의 147125005번째 염기의 메틸화, 인간의 4번째 염색체의 85419584번째 염기의 메틸화, 인간의 6번째 염색체의 21524046번째 염기의 비메틸화 또는 이들의 조합인 것인, 우울증 또는 자살 위험 예측용 마커.
  10. 하기 단계를 포함하는 개체의 우울증 또는 자살 위험을 예측하기 위한 정보를 제공하는 방법으로서,
    개체의 생물학적 시료로부터 핵산 시료를 수득하는 단계; 및
    수득된 핵산 시료로부터 우울증 또는 자살 위험 예측용 마커의 메틸화 여부를 분석하는 단계를 포함하고,
    상기 마커는, 인간의 11번째 염색체의 67806358번째 염기, 인간의 14번째 염색체의 102516597번째 염기, 인간의 15번째 염색체의 37172017번째 염기, 인간의 16번째 염색체의 14014009번째 염기, 인간의 16번째 염색체의 88636588번째 염기, 인간의 17번째 염색체의 73009364번째 염기, 인간의 18번째 염색체의 77487338번째 염기, 인간의 19번째 염색체의 40023259번째 염기, 인간의 2번째 염색체의 3423658번째 염기, 인간의 2번째 염색체의 73052175번째 염기, 인간의 20번째 염색체의 42163538번째 염기, 인간의 20번째 염색체의 62460632번째 염기, 인간의 3번째 염색체의 147125005번째 염기, 인간의 4번째 염색체의 85419584번째 염기, 인간의 6번째 염색체의 21524046번째 염기 또는 이들의 조합인 방법.
  11. 컴퓨터에 의해 수행되는 기계 학습을 이용한 우울증 또는 자살 위험 예측 방법에 있어서,
    복수의, 우울증을 갖는 개체, 자살 기도 개체 또는 자살 수행 개체의 메틸화 마커 데이터 및 RNA 발현 마커 데이터 중 적어도 하나, 및 우울증, 자살 기도 또는 자살 수행 여부 데이터를 획득하는 단계;
    상기 메틸화 마커 데이터를 가공한 제1학습용 입력 데이터 및 상기 RNA 발현 마커 데이터를 가공한 제2학습용 입력 데이터 중 적어도 하나의 학습용 입력 데이터, 및 상기 우울증, 자살 기도 또는 자살 수행 여부 데이터를 가공한 학습용 출력 데이터를 기계 학습시켜 테스트 모델을 생성하는 단계;
    상기 학습용 입력 데이터 및 학습용 출력 데이터를 상기 테스트 모델에 적용하여 우울증 또는 자살 위험 예측도를 산출하는 단계;
    상기 복수의, 우울증을 갖는 개체, 자살 기도 개체 또는 자살 수행 개체의 우울증 또는 자살에 대한 심리사고 평가척도 데이터를 획득하는 단계;
    상기 심리사고 평가척도 데이터와 메틸화 마커 데이터 및 RNA 발현 마커 데이터 중 적어도 하나 사이의 상관 계수를 산출하는 단계;
    상기 예측도 및 상관 계수가 미리 정해진 기준값 이상인 메틸화 마커 및 상기 예측도 및 상관 계수가 미리 정해진 기준값 이상인 RNA 발현 마커 중 적어도 하나를 선별하는 단계;
    상기 선별된 메틸화 마커 및 상기 선별된 RNA 발현 마커 중 적어도 하나를 학습용 입력 데이터로 하는 우울증 또는 자살 위험 예측용 모델을 생성하는 단계;를 포함하는, 기계 학습을 이용한 우울증 또는 자살 위험 예측 방법.
  12. 삭제
  13. 청구항 11에 있어서,
    상기 테스트 모델을 생성하는 단계는,
    상기 메틸화 마커 데이터를 가공한 제1학습용 입력 데이터의 학습용 입력 데이터, 및 상기 우울증, 자살 기도 또는 자살 수행 여부 데이터를 가공한 학습용 출력 데이터를 기계 학습시켜 테스트 모델을 생성하고,
    상기 테스트 모델을 바탕으로, 상기 RNA 발현 마커 데이터를 가공한 제2학습용 입력 데이터, 및 상기 우울증, 자살 기도 또는 자살 수행 여부 데이터를 가공한 학습용 출력 데이터를 기계 학습시켜 테스트 모델을 갱신하는 단계를 포함하는, 기계 학습을 이용한 우울증 또는 자살 위험 예측 방법.
KR1020170157941A 2017-11-24 2017-11-24 기계 학습을 이용한 우울증 또는 자살 위험 예측용 마커 발굴 방법, 우울증 또는 자살 위험 예측용 마커, 및 기계 학습을 이용한 우울증 또는 자살 위험 예측 방법 KR102124193B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020170157941A KR102124193B1 (ko) 2017-11-24 2017-11-24 기계 학습을 이용한 우울증 또는 자살 위험 예측용 마커 발굴 방법, 우울증 또는 자살 위험 예측용 마커, 및 기계 학습을 이용한 우울증 또는 자살 위험 예측 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170157941A KR102124193B1 (ko) 2017-11-24 2017-11-24 기계 학습을 이용한 우울증 또는 자살 위험 예측용 마커 발굴 방법, 우울증 또는 자살 위험 예측용 마커, 및 기계 학습을 이용한 우울증 또는 자살 위험 예측 방법

Publications (2)

Publication Number Publication Date
KR20190060108A KR20190060108A (ko) 2019-06-03
KR102124193B1 true KR102124193B1 (ko) 2020-06-17

Family

ID=66849206

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170157941A KR102124193B1 (ko) 2017-11-24 2017-11-24 기계 학습을 이용한 우울증 또는 자살 위험 예측용 마커 발굴 방법, 우울증 또는 자살 위험 예측용 마커, 및 기계 학습을 이용한 우울증 또는 자살 위험 예측 방법

Country Status (1)

Country Link
KR (1) KR102124193B1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3975190A4 (en) * 2019-05-23 2023-05-03 Ulsan National Institute of Science and Technology (UNIST) METHOD OF DISCOVERING A MARKER FOR PREDICTING RISK OF DEPRESSION OR SUICIDE USING MULTIOMICS ANALYSIS, MARKERS FOR PREDICTING RISK OF DEPRESSION OR SUICIDE AND METHODS OF PREDICTING RISK OF DEPRESSION OR SUICIDE USING MULTIOMICS ANALYSIS
KR102454498B1 (ko) * 2020-02-07 2022-10-14 이진영 펫로스 증후군 예방 및 극복 지원 시스템
CN112185558A (zh) * 2020-09-22 2021-01-05 珠海中科先进技术研究院有限公司 基于深度学习的心理健康及康复评定方法、装置及介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160153044A1 (en) * 2013-07-11 2016-06-02 The Johns Hopkins University A dna methylation and genotype specific biomarker of suicide attempt and/or suicide ideation

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160153044A1 (en) * 2013-07-11 2016-06-02 The Johns Hopkins University A dna methylation and genotype specific biomarker of suicide attempt and/or suicide ideation

Also Published As

Publication number Publication date
KR20190060108A (ko) 2019-06-03

Similar Documents

Publication Publication Date Title
Fan et al. Characterizing transcriptional heterogeneity through pathway and gene set overdispersion analysis
CN112020565A (zh) 用于确保基于测序的测定的有效性的质量控制模板
JP2022521791A (ja) 病原体検出のための配列決定データを使用するためのシステムおよび方法
EP3942556A1 (en) Systems and methods for deriving and optimizing classifiers from multiple datasets
KR102124193B1 (ko) 기계 학습을 이용한 우울증 또는 자살 위험 예측용 마커 발굴 방법, 우울증 또는 자살 위험 예측용 마커, 및 기계 학습을 이용한 우울증 또는 자살 위험 예측 방법
US20190287646A1 (en) Identifying copy number aberrations
CA3158075A1 (en) Identification of host rna biomarkers of infection
CN115701286A (zh) 使用无循环mRNA谱分析检测阿尔茨海默病风险的***和方法
AU2019446735B2 (en) Method for discovering marker for predicting risk of depression or suicide using multi-omics analysis, marker for predicting risk of depression or suicide, and method for predicting risk of depression or suicide using multi-omics analysis
US20200024663A1 (en) Method for detecting mood disorders
CN111540410B (zh) 用于预测个体的吸烟状况的***和方法
KR20210040714A (ko) 핵산 서열 분석에서 위양성 변이를 검출하는 방법 및 장치
CN116312800A (zh) 一种基于血浆中循环rna全转录组测序的肺癌特征识别方法、装置和存储介质
JP5307996B2 (ja) 判別因子セットを特定する方法、システム及びコンピュータソフトウェアプログラム
Warnat-Herresthal et al. Artificial intelligence in blood transcriptomics
CN112634983B (zh) 病原物种特异pcr引物优化设计方法
CN116168761B (zh) 核酸序列特征区域确定方法、装置、电子设备及存储介质
WO2024062867A1 (ja) 対象のがん罹患の可能性を分析する方法
US20240011105A1 (en) Analysis of microbial fragments in plasma
CN117941002A (zh) 染色体和亚染色体拷贝数变异检测
Diao et al. Modeling Species Specific Gene Expression Across Multiple Regions in the Brain
CN116904575A (zh) 与矽肺患者体能衰退相关的生物标志物及其用途
CN118043670A (zh) 随机表观基因组采样
CN116917495A (zh) 通过非人类宏基因组途径分析进行癌症诊断和分类
CN115662640A (zh) 一种基于多源生物信息融合的预后标志物识别方法

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant