KR102327062B1 - 임상시험 결과 예측 장치 및 방법 - Google Patents

임상시험 결과 예측 장치 및 방법 Download PDF

Info

Publication number
KR102327062B1
KR102327062B1 KR1020180032281A KR20180032281A KR102327062B1 KR 102327062 B1 KR102327062 B1 KR 102327062B1 KR 1020180032281 A KR1020180032281 A KR 1020180032281A KR 20180032281 A KR20180032281 A KR 20180032281A KR 102327062 B1 KR102327062 B1 KR 102327062B1
Authority
KR
South Korea
Prior art keywords
clinical trial
learning
algorithm
dataset
predictive model
Prior art date
Application number
KR1020180032281A
Other languages
English (en)
Other versions
KR20190110381A (ko
Inventor
프레드릭 기유
김경훈
오봉근
유형균
김기동
Original Assignee
딜로이트컨설팅유한회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 딜로이트컨설팅유한회사 filed Critical 딜로이트컨설팅유한회사
Priority to KR1020180032281A priority Critical patent/KR102327062B1/ko
Priority to PCT/KR2019/003061 priority patent/WO2019182297A1/ko
Publication of KR20190110381A publication Critical patent/KR20190110381A/ko
Application granted granted Critical
Publication of KR102327062B1 publication Critical patent/KR102327062B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/20ICT specially adapted for the handling or processing of patient-related medical or healthcare data for electronic clinical trials or questionnaires
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders

Landscapes

  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Public Health (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Primary Health Care (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Computational Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Optimization (AREA)
  • Theoretical Computer Science (AREA)
  • Pure & Applied Mathematics (AREA)
  • Pathology (AREA)
  • Mathematical Physics (AREA)
  • Mathematical Analysis (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Algebra (AREA)
  • Probability & Statistics with Applications (AREA)
  • Operations Research (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

본 발명은 기계학습 알고리즘을 이용하여 새로운 치료법에 대한 임상시험의 성공확률을 예측하는 임상시험 결과 예측 장치 및 방법에 관한 것으로, 임상시험 관련정보를 입력하는 입력부, 및 임상시험 사례 데이터를 가공하여 학습 데이터를 생성하고, 상기 학습 데이터를 이용하여 기계학습을 수행하여 임상시험 결과를 예측하는 예측 모델을 생성하고, 상기 생성된 예측 모델을 이용하여 상기 임상시험 관련정보에 따른 임상시험 결과를 예측하는 처리부를 포함한다.

Description

임상시험 결과 예측 장치 및 방법{APPARATUS AND METHOD FOR PREDICTING RESULT OF CLINICAL TRIAL}
본 발명은 기계학습 알고리즘을 이용하여 새로운 치료법에 대한 임상시험의 성공확률을 예측하는 임상시험 결과 예측 장치 및 방법에 관한 것이다.
임상시험(Clinical Trial)은 약물, 새로운 시술 방법 및 의료기기 등의 새로운 치료법에 대한 안전성과 유효성을 검증하기 위해 사람을 대상으로 행하는 시험으로, 보통 3단계로 진행된다. 제1상 임상시험에서는 소수의 건강한 사람을 대상으로 안전성과 내약성이 검토되고, 제2상 임상시험에서는 소수의 환자를 대상으로 약물의 적정 용량과 용법, 안전성 및 유효성을 탐색하며, 제3상 임상시험에서는 다수의 환자를 대상으로 안전성과 유효성이 검토된다.
이러한 임상시험은 환자에게 어떠한 부작용 및 위험을 초래할지를 예측하기 어렵고, 수 년에 걸쳐 진행되며 많은 비용이 들어간다. 이에, 임상시험에 소요되는 시간 및 비용을 줄이기 위한 노력들이 계속 되고 있다.
KR 1020070106027 A KR 1020130112024 A
본 발명은 기계학습 알고리즘을 이용하여 새로운 치료법에 대한 임상시험의 성공확률을 예측하는 임상시험 결과 예측 장치 및 방법을 제공하고자 한다.
상기한 과제를 해결하기 위하여, 본 발명의 일 실시 예에 따른 임상시험 결과 예측 장치는 임상시험 관련정보를 입력하는 입력부, 및 임상시험 사례 데이터를 가공하여 학습 데이터를 생성하고, 상기 학습 데이터를 이용하여 기계학습을 수행하여 임상시험 결과를 예측하는 예측 모델을 생성하고, 상기 생성된 예측 모델을 이용하여 상기 임상시험 관련정보에 따른 임상시험 결과를 예측하는 처리부를 포함한다.
상기 처리부는, 상기 학습 데이터를 통해 임상시험별 성공률을 판단하기 위한 기계학습을 수행하여 상기 예측 모델을 생성하는 학습 모듈, 및 상기 예측 모델을 이용하여 임상시험 성공률을 예측하는 예측 모듈을 포함한다.
상기 학습 모듈은, 다수의 제1학습 알고리즘들과 하나의 제2학습 알고리즘을 이용하여 상기 기계학습을 수행하는 것을 특징으로 한다.
상기 학습 모듈은, 상기 다수의 제1학습 알고리즘들 각각이 상기 학습 데이터로부터 추출된 1차 학습 단계용 데이터세트의 임상시험 조건과 임상시험 결과 간의 관계를 학습하게 하는 1차 학습 단계를 수행하는 것을 특징으로 한다.
상기 학습 모듈은, 1차 학습된 상기 다수의 제1학습 알고리즘들이 상기 학습 데이터로부터 추출된 2차 학습 단계용의 임상시험 조건을 통해 예측한 결과들과 상기 2차 학습 단계용 데이터세트의 임상시험 결과를 고려하여 상기 다수의 제1학습 알고리즘들 중 가장 예측력이 좋은 알고리즘을 판별하는 상기 제2학습 알고리즘을 학습하게 하는 2차 학습 단계를 수행하는 것을 특징으로 한다.
상기 학습 모듈은, 상기 1차 학습 단계 및 상기 2차 학습 단계를 거친 상기 다수의 제1학습 알고리즘들과 상기 제2학습 알고리즘이 상기 학습 데이터로부터 추출한 테스트용 데이터세트를 통해 예측한 임상시험 결과와 실제 임상시험 결과에 근거하여 상기 예측 모델의 성능 지수를 산출하고 산출된 상기 예측 모델의 성능 지수에 따라 상기 다수의 제1학습 알고리즘들과 상기 제2학습 알고리즘의 파라미터를 최적화하는 테스트 및 최적화 단계를 수행하는 것을 특징으로 한다.
상기 학습 모듈은, 상기 예측 모델의 성능 지수가 목표 성능 지수에 도달할 때까지 상기 1차 학습 단계, 상기 2차 학습 단계 및 상기 테스트 및 최적화 단계를 반복적으로 수행하는 것을 특징으로 한다.
상기 학습 모듈은, 상기 예측 모델의 성능 지수로 상기 예측 모델의 예측 정확도 및 예측 정밀도를 산출하는 것을 특징으로 한다.
상기 다수의 제1학습 알고리즘들은, K-근접이웃(K-Nearest Neighbor) 알고리즘, 그래디언트 부스팅(Gradient Boosting Machine) 알고리즘, 신경망(Neural Network) 알고리즘, 랜덤 포레스트(Random Forest) 알고리즘, 엑스트라 트리(extra trees), 및 로지스틱회귀(logistic regression) 알고리즘을 포함한다.
상기 제2학습 알고리즘은, 로지스틱회귀 알고리즘으로 구현되는 것을 특징으로 한다.
한편, 본 발명의 일 실시 예에 따른 임상시험 결과 예측 방법은 임상시험 사례 데이터를 통해 기계학습을 수행하여 임상시험 결과를 예측하는 예측 모델을 생성하는 단계, 상기 예측 모델을 생성한 후, 사용자 단말로부터 임상시험 관련정보를 수신하는 단계, 및 상기 예측 모델을 이용하여 상기 임상시험 관련정보에 따른 임상시험 결과를 예측하는 단계를 포함한다.
상기 예측 모델을 생성하는 단계는, 다수의 제1학습 알고리즘들 각각이 상기 임상시험 사례 데이터로부터 추출된 1차 학습 단계용 데이터세트 내 임상시험 조건과 임상시험 결과 간의 관계를 학습하게 하는 1차 학습 단계, 1차 학습된 상기 다수의 제1학습 알고리즘들이 상기 임상시험 사례 데이터로부터 추출된 2차 학습 단계용의 임상시험 조건을 통해 예측한 결과들과 상기 2차 학습 단계용 데이터세트의 임상시험 결과를 고려하여 상기 다수의 제1학습 알고리즘들 중 가장 예측력이 좋은 알고리즘을 판별하는 제2학습 알고리즘을 학습하게 하는 2차 학습 단계, 및 상기 1차 학습 단계 및 상기 2차 학습 단계를 거친 상기 다수의 제1학습 알고리즘들과 상기 제2학습 알고리즘이 상기 임상시험 사례 데이터로부터 추출한 테스트용 데이터세트를 통해 예측한 임상시험 결과와 실제 임상시험 결과에 근거하여 상기 예측 모델의 성능 지수를 산출하고 산출된 상기 예측 모델의 성능 지수에 따라 상기 다수의 제1학습 알고리즘들과 상기 제2학습 알고리즘의 파라미터를 최적화하는 테스트 및 최적화 단계를 포함한다.
상기 임상시험 결과 예측 방법은 상기 예측 모델의 성능 지수가 목표 성능 지수에 도달할 때까지 상기 1차 학습 단계, 상기 2차 학습 단계 및 상기 테스트 및 최적화 단계를 반복적으로 수행하는 것을 특징으로 한다.
상기 테스트 및 최적화 단계에서, 상기 예측 모델의 성능 지수로 상기 예측 모델의 예측 정확도 및 예측 정밀도를 산출하는 것을 특징으로 한다.
상기 예측 정확도는, 전체 임상시험 사례 중 상기 예측 모델에 의해 정확하게 예측된 임상시험 사례의 비율인 것을 특징으로 한다.
상기 예측 정밀도는, 상기 예측 모델에 의해 성공으로 예측된 전체 임상시험 사례 중 정확하게 예측된 임상시험 사례의 비율인 것을 특징으로 한다.
상기 다수의 제1학습 알고리즘들은, K-근접이웃(K-Nearest Neighbor) 알고리즘, 그래디언트 부스팅(Gradient Boosting Machine) 알고리즘, 신경망(Neural Network) 알고리즘, 랜덤 포레스트(Random Forest) 알고리즘, 엑스트라 트리(extra trees), 및 로지스틱회귀(logistic regression) 알고리즘을 포함한다.
상기 제2학습 알고리즘은, 로지스틱회귀 알고리즘으로 구현되는 것을 특징으로 한다.
본 발명은 기계학습 알고리즘을 이용하여 새로운 치료법에 대한 임상시험의 성공확률을 예측할 수 있어 새로운 치료법에 대한 임상시험 기간을 단축할 수 있으며 임상시험에 들어가는 비용을 줄일 수 있다.
도 1은 본 발명의 일 실시 예에 따른 임상시험 결과 예측을 서비스하는 시스템을 도시한 구성도.
도 2는 본 발명의 일 실시 예에 따른 임상시험 결과 예측 장치의 블록구성도.
도 3은 본 발명의 일 실시 예에 따른 기계학습 과정을 도시한 흐름도.
도 4는 도 3의 1차 학습 단계를 설명하기 위한 도면.
도 5는 도 3의 2차 학습 단계를 설명하기 위한 도면.
도 6은 도 3의 테스트 및 최적화 단계를 설명하기 위한 도면.
도 7은 본 발명과 관련된 예측 모델의 예측 정밀도를 설명하기 위한 도면.
도 8은 본 발명의 일 실시 예에 따른 임상시험 결과 예측 방법을 도시한 흐름도.
도 9a 내지 9c는 도 8에 도시된 각 단계 화면을 도시한 도면.
도 10은 본 발명의 일 실시 예에 따른 임상시험 결과 예측 방법을 실행하는 컴퓨팅 시스템을 보여주는 블록도.
이하, 본 발명의 일부 실시 예들을 예시적인 도면을 통해 상세하게 설명한다. 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명의 실시 예를 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 실시 예에 대한 이해를 방해한다고 판단되는 경우에는 그 상세한 설명은 생략한다.
본 발명의 실시 예의 구성 요소를 설명하는 데 있어서, 제 1, 제 2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성 요소를 다른 구성 요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성 요소의 본질이나 차례 또는 순서 등이 한정되지 않는다. 또한, 다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 가진 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
도 1은 본 발명의 일 실시 예에 따른 임상시험 결과 예측을 서비스하는 시스템을 도시한 구성도이다.
도 1에 도시된 바와 같이, 본 발명의 일 실시 예에 따른 임상시험 결과 예측을 서비스하는 시스템은 네트워크를 통해 연결되는 임상시험 결과 예측 장치(100) 및 사용자 단말(200)을 포함한다. 여기서, 네트워크는 유무선 인터넷 네트워크로, LAN(Local Area Network), WAN(Wide Area Network), 이더넷(ethernet), WLAN(Wireless LAN)(WiFi), Wibro(Wireless broadband), Wimax(World Interoperability for Microwave Access) 및 HSDPA(High Speed Downlink Packet Access) 등을 포함한다.
임상시험 결과 예측 장치(이하, 예측 장치)(100)는 웹 서비스를 제공하는 웹 서버로서의 역할을 수행한다. 예측 장치(100)는 사용자의 요청에 따라 로그인 절차를 수행한다. 다시 말해서, 예측 장치(100)는 사용자가 사용자 단말(200)을 통해 자신의 식별정보인 아이디(ID)와 비밀번호(password)를 입력하면 사용자 단말(200)로부터 입력된 아이디 및 비밀번호를 전달받아 데이터베이스(DB)에 등록된 사용자인지를 확인하여 웹 서비스의 사용 권한을 승인하거나 거부한다.
예측 장치(100)는 사용자 단말(200)로부터 임상시험 수행과 관련한 정보(임상시험 관련정보)를 입력 받으면 기계학습이 완료된 예측 모델을 이용하여 임상시험의 성공률을 예측한다. 예측 장치(100)는 네트워크를 통해 예측 결과를 사용자 단말(200)로 전송한다.
사용자 단말(200)은 웹 브라우저를 통해 예측 장치(100)가 제공하는 웹 서비스를 이용한다. 사용자 단말(200)은 사용자가 입력수단을 통해 입력하는 임상시험 관련정보(임상시험 조건)를 예측 장치(100)로 전송한다. 또한, 사용자 단말(200)은 예측 장치(100)로부터 전송되는 예측 결과를 수신하여 출력 수단을 통해 출력한다.
이러한 사용자 단말(200)은 노트북 컴퓨터(200-1), 이동통신단말(200-2) 및 데스크탑 컴퓨터(200-3) 등으로 구현될 수 있다. 사용자 단말(200)은 하나 이상의 프로세서, 메모리 및 통신모듈 등을 포함할 수 있다.
도 2는 본 발명의 일 실시 예에 따른 임상시험 결과 예측 장치의 블록구성도를 도시한다.
도 2에 도시된 바와 같이, 임상시험 결과 예측 장치(100)는 통신부(110), 입력부(120), 저장부(130), 출력부(140) 및 처리부(150)를 포함한다.
통신부(110)는 사용자 단말(200)과 데이터 통신을 수행한다. 통신부(110)는 LAN, WAN, 이더넷, WiFi, Wibro, Wimax 및 HSDPA 등의 네트워크를 통해 사용자 단말(200)과 데이터를 주고 받는다.
통신부(110)는 사용자 단말(200)로부터 전송되는 사용자 정보(아이디 및 비밀번호 등) 및/또는 임상시험 관련정보(임상시험 조건 또는 임상시험 특징)를 수신한다. 통신부(110)는 처리부(150)의 제어에 따라 임상시험 성공률 예측 결과를 사용자 단말(200)로 전송한다.
또한, 통신부(110)는 임상시험 사례 데이터(trial instances)를 수신할 수도 있다. 임상시험 사례 데이터는 미국 식품의약국(Food and Drug Administration, FDA)으로부터 제공받을 수 있다. 예를 들어, 예측 장치(100)는 통신부(110)를 통해 FDA의 데이터베이스에 접속하여 임상시험 사례 데이터를 추출(검색)할 수 있다.
통신부(110)는 수신한 데이터를 처리부(150)로 직접 전송하거나 또는 입력부(120)를 통해 처리부(150)에 전송할 수 있다.
입력부(120)는 통신부(110)를 통해 수신한 데이터를 가공하여 처리부(150)로 전송할 수 있다. 즉, 입력부(120)는 사용자 정보 및/또는 임상시험 관련정보를 처리부(150)가 처리할 수 있는 데이터 형태로 전처리(pre-processing)하여 처리부(150)로 전송한다.
또한, 입력부(120)는 임상시험 사례 데이터를 가공하여 학습 데이터로 처리부(150)에 입력한다. 입력부(120)는 FDA의 데이터베이스로부터 추출한 데이터세트(임상시험 사례 데이터)를 전처리한다. 예컨대, 입력부(120)는 추출한 데이터세트 내 "NY" 또는 "new york" 등으로 표기된 도시명을 "New York"으로 정정하고, 기간, 도시수, 국가 수 등의 새로운 특징 및 대상 질환을 추가할 수 있다.
임상시험 사례 데이터는 실제 임상시험 사례의 임상시험 조건 및 임상시험 결과를 포함한다. 여기서, 임상시험 조건은 [표 1]에 나열된 특징들(features) 중 적어도 하나 이상을 포함한다.
특징 설명
단계(Phase) 약물 임상시험 단계, 4단계로 구분됨
- Phase 1: 동물에서 일정수준의 안전성이 검증된 물질이 인체에 소량 투여/복용되었을 시, 어떠한 생리학적 작용이 일어나는지 관찰하는 단계로 안정성 검증이 핵심 목적임
- Phase 2: 체내 안전성이 검증된 물질이 의도한 효과를 나타내는지 검증하는 단계
- Phase 3: Phase 1과 2에서 검증된 안정성과 효능이 통계학적으로 유의미한 수의 피실험자에게서 유사한 수준으로 확인되는지 검증하는 단계
- Phase 4: 판매 허가를 받은 약물이 장기적으로 환자들에게 어떠한 영향(부작용과 unknown effect 등)을 끼치는지 연구하는 단계
적응증(Indication) 개별 약물의 대상 질환을 의미함
예: 대장암 및 천식 등
대상 질환(therapy area) 적응증의 상위 개념
예: 종양(Oncology) 및 호흡기질환(Respiratory) 등
피실험자 성별(Gender of Participants) 임상시험에 참여한 피실험자의 성별
피실험자 건강(Healthiness of Participants) 약물이 목표로 하는 질환을 앓고 있는 피실험자 대상인지 건강한 피실험자 대상인지를 특정하기 위함
피실험자 수(Number of Participants) 임상시험에 참여한 피실험자의 수를 의미
스폰서(Sponsor) 임상시험의 펀딩(funding) 또는 약물을 제공하는 주체를 의미함
예: 제약사, 국가기관(보건복지부) 및 대학 등
연구 유형(Study type) 임상시험 연구유형으로, 사례 대조 연구, 코호트(cohort) 연구, 현황 연구 및 실험 연구로 구분
기간(Duration) 임상시험 진행 기간
소재지(Geographical Location) 임상시험이 진행된 병원의 소재 지역
예: 국가, 주(state) 및 도시
분자 유형(Molecule Type) 약물의 제제적 특성(materialistic feature)을 의미하며, 생물학적제제(Biologic)과 화학약물/화합물(Chemical drug)으로 분류
작용기전(Mechanism of Action) 약물의 이론적 작용기전(mechanism)으로 체내에서 어떠한 요소와 어떠한 방식으로 반응/작용하여 기대 효과를 나타내는가에 대한 구분
예: 종양학에서는 신생혈관억제 및 PD-1 면역항암제 등의 작용기전이 있음
작용기전 대상(Target of Action) 작용기전이 체내에서 구현되기 위해 약물이 직접적으로 반응하는 체내의 요소를 의미함
예: 혈관내피성장인자(VEGFr) 및 대식세포(Macrophage) 등이 있음
약물 용법(Route of Administration) 약물의 복용/투여 방법을 의미함
식약청 지정(Designation) 여부 공공의 니즈가 높은 약물에 대해 허가 프로세스의 일부 완화/축소, R&D 비용지원, 세제혜택 등이 제공되는 경우가 있음. 이에 대한 식별자
입력부(120)는 임상시험 사례 데이터를 기계학습이 가능한 형태로 가공하여 출력한다. 예를 들어, 입력부(120)는 임상시험 사례 데이터를 여러 개의 독립변수와 한 개의 종속변수(상태변수)로 구성된 테이블(table) 형태로 처리부(150)에 전송한다.
또한, 입력부(120)는 사용자의 조작에 따라 입력 데이터를 발생시킨다. 입력부(120)는 키보드(keyboard), 키패드(keypad), 터치 패드(touch pad), 터치스크린(touch screen), 마우스(mouse), 바코드 판독기(bar code reader), QR(Quick Response) 코드 스캐너(code scanner), 및 조이스틱(joystick) 등으로 구성될 수 있다.
저장부(130)는 처리부(150)의 동작을 위한 프로그램을 저장할 수 있고, 처리부(150)의 입/출력 데이터들을 임시 저장할 수도 있다. 또한, 저장부(130)는 사용자 정보를 포함하고 있는 사용자 DB를 저장할 수 있다.
저장부(130)는 기계학습 알고리즘(machine learning algorithms), 예측 모델, 학습 데이터 및 임상시험 관련정보(임상시험 특징들) 등을 저장한다. 또한, 저장부(130)는 기계학습 알고리즘을 이용한 학습 과정에서 발생되는 데이터 및 예측 모델에 의해 예측된 결과값 등을 저장할 수 있다.
저장부(130)는 처리부(150)의 내부 및/또는 외부에 설치될 수 있다. 저장부(130)는 플래시 메모리(flash memory), 하드디스크(hard disk), SD 카드(Secure Digital Card), 램(Random Access Memory, RAM), 롬(Read Only Memory, ROM), PROM(programmable ROM), EPROM(Erasable and Programmable ROM), EEPROM(Electrically Erasable and Programmable ROM), 레지스터, 착탈형 디스크 및 웹 스토리지(web storage) 등의 저장매체 중 적어도 하나 이상의 저장매체(기록매체)로 구현될 수 있다.
출력부(140)는 시각 정보, 청각 정보 및/또는 촉각 정보 등의 정보를 출력하기 위한 것으로, 디스플레이, 음향 출력 모듈 및 햅틱 모듈 등이 포함될 수 있다.
디스플레이는 예측 장치(100)에서 처리되는 정보를 출력한다. 예컨대, 디스플레이는 임상시험 결과 예측 모델을 훈련(training)하는 경우 이와 관련한 UI(User Interface) 또는 GUI(Graphic User Interface)를 표시한다. 디스플레이는 액정 디스플레이(liquid crystal display, LCD), 박막 트랜지스터 액정 디스플레이(thin film transistor-liquid crystal display, TFT LCD), 유기 발광 다이오드(organic light-emitting diode, OLED) 디스플레이, 플렉시블 디스플레이(flexible display), 3차원 디스플레이(3D display), 투명디스플레이, 헤드업 디스플레이(head-up display, HUD), 및 터치스크린 중에서 하나 이상을 포함할 수 있다.
음향 출력 모듈은 저장부(130)에 저장된 오디오 데이터를 출력하는 스피커(speaker)로 구현될 수 있다. 햅틱 모듈은 사용자가 촉각으로 인지할 수 있는 형태의 신호를 출력한다. 예를 들어, 햅틱 모듈은 진동자로 구현되어 진동 세기 및 패턴 등을 제어할 수 있다.
처리부(150)는 예측 장치(100)의 전반적인 동작을 제어한다. 처리부(150)는 ASIC(Application Specific Integrated Circuit), DSP(Digital Signal Processor), PLD(Programmable Logic Devices), FPGAs(Field Programmable Gate Arrays), CPU(Central Processing unit), 마이크로 컨트롤러(microcontrollers) 및 마이크로 프로세서(microprocessors) 중 적어도 하나 이상을 포함할 수 있다.
처리부(150)는 저장부(130)에 저장된 웹 서버 프로그램을 실행시켜 웹 서버 기능을 수행할 수 있다. 처리부(150)는 통신부(110)를 통해 사용자 정보를 수신하면 기등록된 사용자인지를 확인하여 임상시험 결과 예측 서비스의 사용 권한을 승인하거나 거부한다.
처리부(150)는 임상시험 사례 데이터를 이용하여 기계학습을 수행하는 학습 모듈(151) 및 기계학습된 예측 모델(prediction model)을 이용하여 임상시험 성공률을 예측하는 예측 모듈(152)를 포함한다. 여기서, 예측 모델은 다수의 기계학습 알고리즘을 이용하여 임상시험의 성공률을 예측한다.
학습 모듈(151)은 1차 학습 단계(training, level 1), 2차 학습 단계(meta-traing, level 2)와 테스트 및 최적화 단계(testing and optimizing)로 이루어지는 3단계 학습과정을 수행한다. 학습 모듈(151)은 입력부(120)를 통해 학습 데이터(dataset)를 입력 받으면 각 학습 단계를 위한 데이터세트(dataset)로 분류한다. 예를 들어, 학습 모듈(151)은 15000개의 임상시험 사례 데이터가 입력되면 랜덤 샘플링(random sampling)을 통해 1차 학습 단계용 데이터세트, 2차 학습 단계용 데이터세트 및 테스트 및 최적화 단계용 데이터세트로 각각 11000개, 2000개 및 2000개로 분류한다. 이때, 데이터세트들의 임상시험 결과(trial results)의 확률분포가 서로 유사한 형상을 가질 수 있도록 한다.
학습 모듈(151)은 1차 학습 단계에서 다수의 제1학습 알고리즘들이 제1학습 단계용 데이터세트를 통해 임상시험 조건(features, Xs)과 임상시험 결과(Y)의 관계를 학습하게 한다. 제1학습 알고리즘은 K-근접이웃(K-Nearest Neighbor, KNN) 알고리즘, 그래디언트 부스팅(Gradient Boosting Machine, GBM) 알고리즘, 신경망(Neural Network) 알고리즘, 랜덤 포레스트(Random Forest) 알고리즘, 엑스트라 트리(extra trees), 및 로지스틱회귀(logistic regression) 알고리즘을 포함한다. 이러한 알고리즘들은 동일한 임상시험에 대해 서로 다른 예측력을 가진다.
학습 모듈(151)은 2차 학습 단계에서 다수의 제1학습 알고리즘들 중 가장 예측력이 좋은 알고리즘을 판단하기 위한 기계학습을 수행한다. 학습 모듈(151)은 제2학습 단계용 데이터세트를 통해 제2학습 알고리즘을 훈련시킨다. 제2학습 알로리즘은 로지스틱회귀 알고리즘으로 구현될 수 있다.
학습 모듈(151)은 1차 학습 및 2차 학습이 완료되면 테스트 및 최적화 단계를 수행한다. 이때, 학습 모듈(151)은 테스트 및 최적화 단계용 데이터세트를 통해 학습된(훈련된) 제1학습 알고리즘 및 제2학습 알고리즘을 테스트한다. 그리고, 학습 모듈(151)은 테스트 결과를 토대로 각 알고리즘의 파라미터를 최적화한다.
학습 모듈(151)은 학습된 제1학습 알고리즘 및 제2학습 알고리즘에 대한 테스트 및 최적화가 완료되면 예측 모델을 생성한다. 학습 모듈(151)은 생성된 예측 모델을 저장부(130)에 저장한다. 학습 모듈(151)은 주기적으로 기계학습을 통해 예측 모델을 업데이트할 수 있다.
예측 모듈(152)은 통신부(110)를 통해 사용자 단말(200)로부터 전송되는 임상시험 관련정보를 수신한다. 이때, 입력부(120)는 통신부(110)를 통해 수신한 임상시험 관련정보를 가공하여 예측 모듈(152)에 제공할 수 있다.
예측 모듈(152)은 저장부(130)에 저장된 예측 모델을 이용하여 수신한 임상시험 관련정보를 토대로 해당 임상시험의 성공률을 예측한다. 예측 모듈(152)은 예측 모델을 이용하여 예측한 결과(예측 결과)를 해당 임상시험의 성공률 예측을 요청한 사용자 단말(200)로 전송한다. 사용자 단말(200)은 예측 모듈(152)로부터 제공받은 임상시험의 성공률 예측 결과를 디스플레이에 표시한다.
도 3은 본 발명의 일 실시 예에 따른 기계학습 과정을 도시한 흐름도이고, 도 4는 도 3의 1차 학습 단계를 설명하기 위한 도면이며, 도 5는 도 3의 2차 학습 단계를 설명하기 위한 도면이고, 도 6은 도 3의 테스트 및 최적화 단계를 설명하기 위한 도면이며, 도 7은 본 발명과 관련된 예측 모델의 예측 정밀도를 설명하기 위한 도면이다.
먼저, 임상시험 결과 예측 장치(100)의 학습 모듈(151)은 1차 학습을 수행한다(S110). 도 4에 도시된 바와 같이, 학습 모듈(151)은 1차 학습용 데이터세트(DS1)를 다수의 제1학습 알고리즘들(AL1)의 입력 데이터로 제공한다. 1차 학습용 데이터세트(DS1)는 실제로 수행한 임상시험별 실험조건 및 실험결과를 포함한다. 제1학습 알고리즘들(AL1-1 내지 AL1-6) 각각은 1차 학습용 데이터세트(DS1)의 임상시험별 실험조건과 실험결과 간의 관계를 학습한다. 이러한 1차 학습을 통해 제1학습 알고리즘들(AL1-1 내지 AL1-6)의 파라미터(들)이 결정된다.
학습 모듈(151)은 제1학습 알고리즘들(AL1)의 훈련(학습)이 완료되면 2차 학습을 수행한다(S120). 도 5에 도시된 바와 같이, 학습 모듈(151)은 2차 학습용 데이터세트(DS2)의 임상시험 조건(features)을 1차 학습된 다수의 제1학습 알고리즘들(AL1)의 입력으로 제공한다. 제1학습 알고리즘 각각(AL1-1 내지 AL1-6)은 2차 학습용 데이터세트(실제 실험결과 불포함)를 토대로 임상시험 결과를 예측하고 예측된 결과(P1 내지 P6)를 출력한다. 제2학습 알고리즘(AL2)은 다수의 제1학습 알고리즘들(AL1)로부터 출력되는 예측 결과들(P1 내지 P6)과 2차 학습용 데이터세트의 실제 임상시험 결과를 토대로 예측력이 가장 좋은 알고리즘을 판별하기 위한 학습을 수행한다.
학습 모듈(151)은 2차 학습까지 완료되면 학습된 다수의 제1학습 알고리즘들(AL1)과 제2학습 알고리즘(AL2)을 테스트하고 테스트 결과에 근거하여 학습된 다수의 제1학습 알고리즘들(AL1)과 제2학습 알고리즘(AL2)의 파라미터를 최적화한다(S130). 도 6에 도시된 바와 같이, 학습 모듈(151)은 테스트 데이터세트(DS3)의 임상시험 조건을 2단계 학습된 다수의 제1학습 알고리즘들(AL1)의 입력으로 제공한다. 각 제1학습 알고리즘(AL1-1 내지 AL1-6)은 테스트 데이터세트(DS3)의 임상시험 조건을 토대로 임상시험 결과를 예측하여 결과(P1' 내지 P6')를 출력한다. 제2학습 알고리즘(AL2)은 제1학습 알고리즘(AL1)의 출력(P1' 내지 P6')을 토대로 예측력이 가장 좋은 알고리즘의 예측 결과를 출력한다. 학습 모듈(151)은 제2학습 알고리즘(AL2)로부터 출력되는 예측 결과와 테스트 데이터세트(DS3)의 실제 임상시험 결과를 토대로 학습된 예측 모델(다수의 제1학습 알고리즘들 및 제2학습 알고리즘의 조합)의 성능 지수(performance index)를 산출한다(S131). 학습 모듈(151)은 성능 지수로 테스트 데이터세트(DS3) 전체에 대한 예측 정확도(general accuracy) 및 테스트 데이트세트(DS3) 중 임상시험 성공 케이스(achieved case)에 대한 예측 정밀도(prediction precision)를 산출한다.
여기서, 예측 정확도는 "정확하게 분류된 임상시험 사례 수/전체 임상시험 사례 수"로 나타낼 수 있으며, 예측 모델이 실제 임상시험 결과를 정확하게 추정할 확률를 의미한다. 예측 정밀도는 "성공으로 정확하게 분류된 임상시험 사례 수/예측 모델에 의해 성공으로 예측된 전체 임상시험 사례 수"로 나타낼 수 있으며, 예측 모델이 '성공'으로 예측한 케이스 중 실제로 '성공'인 케이스의 비율을 의미한다.
도 7에 도시된 바와 같이, 예측 모델에 의해 성공으로 예측된 전체 임상시험 사례가 1042(=767+116+136+23)개이고, 성공한 실제 임상시험 사례가 767개인 경우, 예측 정밀도는 73.6%(=767/1042×100)이다. 즉, 예측 모델이 '성공'으로 예측한 임상시험의 실제 실험결과가 '성공'일 확률이 73.6% 임을 의미한다.
본 실시 예에서 예측 정확도 외 예측 정밀도를 성능 지수로 사용하므로 예측 모델이 '성공'으로 예측한 사례가 실제로는 실패로 판명될 위험을 보다 정확하게 관리할 수 있다.
학습 모듈(151)은 산출된 성능 지수와 목표 성능 지수(target performance index)에 근거하여 각 알고리즘(AL1 및 AL2)의 파라미터를 최적화한다(S132). 학습 모듈(151)은 예측 모델의 성능 지수가 목표 성능 지수에 도달할 수 있도록 각 알고리즘(AL1 및 AL2)의 파라미터를 조정한다.
예컨대, [표 2]와 같이 학습 모듈(151)은 각 알고리즘의 파라미터들을 조정하여 최적화할 수 있다.
알고리즘 파라미터
KNN 알고리즘 # of neighbors(최근접 이웃수) = 15
Weight(가중치) = "distance"
GBM 알고리즘 Learning rate(학습률) = 0.05
Subsample(서브 샘플) = 0.5 (only using 50% of the total samples when building1 tree)
max_depth(최대 깊이)= 6 (how deep each tree, to avoid overfitting)
# of estimators(트리 개수) = 40 (# of trees, to avoid overfitting)
신경망 알고리즘 # hidden layers(숨겨진 레이어 수) = 2
# of neurons for every layers(모든 레이어에 대한 뉴런 수) = (64, 16)
# activation functionfor hidden layers(숨겨진 레이어의 활성화 함수) = 'relu' ('relu'는 "Rectified Linear Units"를 의미함)
# activation functionfor outputlayer (출력 레이어의 활성화 함수) = 'softmax'
Dropout = 0.2 (intentionally drop 20% of the neurons in the first layer to avoid overfitting)
랜덤 포레스트/엑스트라 트리
알고리즘
# of estimator = 150
# of minimum samples in the leafs(리프의 최소 샘플수) = 3 (to avoid overfitting)
로지스틱회귀 알고리즘 N/A
학습 모듈(151)은 학습된 다수의 제1알고리즘들(AL1: AL1-1 내지 AL1-6) 및 제2학습 알고리즘(AL2)의 조합(ensemble)인 예측 모델의 성능 지수가 목표 성능 지수에 도달할 때까지 S110 내지 S130을 반복적으로 수행한다.
학습 모듈(151)은 학습된 예측 모델의 성능 지수가 목표 성능 지수에 도달하면 해당 예측 모델을 최종 임상시험 결과 예측 모델로 생성한다(S140). 학습 모듈(151)은 생성된 예측 모델을 저장부(130)에 저장한다.
도 8은 본 발명의 일 실시 예에 따른 임상시험 결과 예측 방법을 도시한 흐름도이고, 도 9a 내지 9c는 도 8에 도시된 각 단계 화면을 도시한 도면이다.
도 8에 도시된 바와 같이, 예측 장치(100)의 처리부(150)은 사용자 요청에 따라 로그인(log in) 절차를 수행한다(S210). 예를 들어, 예측 장치(100)의 처리부(150)는 사용자 단말(200)의 요청에 따라 로그인을 위한 사용자 정보를 입력할 수 있는 웹 페이지(로그인 페이지)를 사용자 단말(200)로 전송한다. 사용자 단말(200)은 도 9a와 같이 웹 브라우저를 통해 로그인 페이지를 디스플레이 화면에 표시한다. 사용자는 사용자 단말(200)의 입력 수단을 조작하여 아이디 및 비밀번호를 입력하고 'sign in' 버튼을 입력한다. 사용자 단말(200)은 사용자에 의해 입력된 아이디 및 비밀번호를 예측 장치(100)로 전송한다. 예측 장치(100)의 처리부(150)는 통신부(110)를 통해 아이디 및 비밀번호를 포함한 사용자 정보를 수신하고 수신된 사용자 정보를 토대로 등록된 사용자인지를 확인하여 승인 또는 거부한다.
처리부(150)는 입력부(120)를 통해 임상시험 관련정보를 입력받는다(S220). 처리부(150)는 사용자 로그인이 완료되면 도 9b에 도시된 바와 같은 임상시험 결과 예측을 수행하고자 하는 대상 임상시험과 관련된 정보(임상시험 관련정보)를 입력할 수 있는 웹 페이지를 사용자 단말(200)에 제공한다. 사용자 단말(200)은 해당 웹 페이지를 디스플레이 화면에 표시하고 사용자에 의해 해당 웹 페이지 내 양식(form)에 임상시험 관련정보가 입력되면 입력된 임상시험 관련정보(단계, 대상 질환 및 피실험자 정보 등)를 예측 장치(100)로 전송한다. 예측 장치(100)의 입력부(120)는 통신부(110)를 통해 수신한 임상시험 관련정보를 전처리하여 처리부(150)로 전송한다.
처리부(150)는 사용자 단말(200)로부터 임상시험 관련정보가 입력되면 기계 학습이 완료된 예측 모델을 이용하여 임상시험 결과를 예측한다(S230). 처리부(150)는 통신부(110)를 통해 수신한 임상시험 관련정보를 입력부(120)를 거쳐 예측 모듈(152)로 전송하고 예측 모듈(152)은 저장부(130)에 저장된 예측 모델을 이용하여 임상시험 관련정보를 토대로 임상시험의 성공률을 예측한다.
처리부(150)는 예측된 임상시험 결과를 출력한다(S240). 처리부(150)는 예측된 임상시험 결과를 표시하는 웹 페이지를 사용자 단말(200)로 전송한다. 사용자 단말(200)은 예측 장치(100)로부터 제공받은 예측된 임상시험 결과를 표시한다. 도 9c에 도시된 바와 같이, 임상시험 결과는 성공(achieved), 불확실(inconclusive), 실패(not achieved) 및 부분 성공(partially achieved) 등 4가지 상태(status)로 구분할 수 있으며, 각 상태일 확률(64.07%, 13.57%, 20.49% 및 1.87%)로 표시된다.
도 10은 본 발명의 일 실시 예에 따른 임상시험 결과 예측 방법을 실행하는 컴퓨팅 시스템을 보여주는 블록도이다.
도 10을 참조하면, 컴퓨팅 시스템(1000)은 버스(1200)를 통해 연결되는 적어도 하나의 프로세서(1100), 메모리(1300), 사용자 인터페이스 입력 장치(1400), 사용자 인터페이스 출력 장치(1500), 스토리지(1600), 및 네트워크 인터페이스(1700)를 포함할 수 있다.
프로세서(1100)는 중앙 처리 장치(CPU) 또는 메모리(1300) 및/또는 스토리지(1600)에 저장된 명령어들에 대한 처리를 실행하는 반도체 장치일 수 있다. 메모리(1300) 및 스토리지(1600)는 다양한 종류의 휘발성 또는 불휘발성 저장 매체를 포함할 수 있다. 예를 들어, 메모리(1300)는 ROM(Read Only Memory) 및 RAM(Random Access Memory)을 포함할 수 있다.
따라서, 본 명세서에 개시된 실시예들과 관련하여 설명된 방법 또는 알고리즘의 단계는 프로세서(1100)에 의해 실행되는 하드웨어, 소프트웨어 모듈, 또는 그 2 개의 결합으로 직접 구현될 수 있다. 소프트웨어 모듈은 RAM 메모리, 플래시 메모리, ROM 메모리, EPROM 메모리, EEPROM 메모리, 레지스터, 하드 디스크, 착탈형 디스크, CD-ROM과 같은 저장 매체(즉, 메모리(1300) 및/또는 스토리지(1600))에 상주할 수도 있다. 예시적인 저장 매체는 프로세서(1100)에 커플링되며, 그 프로세서(1100)는 저장 매체로부터 정보를 판독할 수 있고 저장 매체에 정보를 기입할 수 있다. 다른 방법으로, 저장 매체는 프로세서(1100)와 일체형일 수도 있다. 프로세서 및 저장 매체는 주문형 집적회로(ASIC) 내에 상주할 수도 있다. ASIC는 사용자 단말기 내에 상주할 수도 있다. 다른 방법으로, 프로세서 및 저장 매체는 사용자 단말기 내에 개별 컴포넌트로서 상주할 수도 있다.
이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다.
따라서, 본 발명에 개시된 실시 예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시 예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.
100: 예측 장치
110: 통신부
120: 입력부
130: 저장부
140: 출력부
150: 처리부

Claims (18)

  1. 임상시험 관련정보를 입력하는 입력부, 및
    임상시험 사례 데이터를 가공하여 학습 데이터를 생성하고, 상기 학습 데이터로부터 분류된 1차 학습 단계용 데이터세트, 2차 학습 단계용 데이터세트, 및 테스트 및 최적화 단계용 데이터세트를 입력받아 기계학습을 수행하여 임상시험 결과를 예측하는 예측 모델을 생성하고, 상기 생성된 예측 모델을 이용하여 상기 임상시험 관련정보에 따른 임상시험 결과를 예측하는 처리부를 포함하되,
    상기 임상시험 사례 데이터는 실제 임상시험 사례의 임상시험 조건 및 임상시험 결과를 포함하고,
    상기 1차 학습 단계용 데이터세트, 상기 2차 학습 단계용 데이터세트, 및 상기 테스트 및 최적화 단계용 데이터세트의 임상시험 결과의 확률분포가 서로 유사한 형상을 가지고,
    상기 처리부는 다수의 제1학습 알고리즘들과 하나의 제2학습 알고리즘을 이용하여 상기 기계학습을 수행하고, 학습된 다수의 제1학습 알고리즘들과 제2학습 알고리즘이 상기 학습 데이터로부터 추출한 테스트용 데이터세트를 통해 예측한 임상시험 결과와 실제 임상시험 결과에 근거하여 상기 예측 모델의 성능 지수를 산출하고 산출된 상기 예측 모델의 성능 지수에 따라 상기 학습된 다수의 제1학습 알고리즘들과 제2학습 알고리즘의 파라미터를 최적화하고,
    상기 제2학습 알고리즘은 상기 다수의 제1학습 알고리즘들 중 예측력이 가장 좋은 알고리즘을 판별하기 위한 학습을 수행하고,
    상기 예측 모델의 성능 지수는 상기 예측 모델의 상기 테스트용 데이터세트 전체에 대한 예측 정확도 및 상기 테스트용 데이터세트 중 임상시험 성공 케이스에 대한 예측 정밀도를 포함하는 것을 특징으로 하는 임상시험 결과 예측 장치.
  2. 제1항에 있어서,
    상기 처리부는,
    상기 학습 데이터를 통해 임상시험별 성공률을 판단하기 위한 기계학습을 수행하여 상기 예측 모델을 생성하는 학습 모듈, 및
    상기 예측 모델을 이용하여 임상시험 성공률을 예측하는 예측 모듈을 포함하는 임상시험 결과 예측 장치.
  3. 삭제
  4. 제2항에 있어서,
    상기 학습 모듈은,
    상기 다수의 제1학습 알고리즘들 각각이 상기 학습 데이터로부터 추출된 1차 학습 단계용 데이터세트의 임상시험 조건과 임상시험 결과 간의 관계를 학습하게 하는 1차 학습 단계를 수행하는 것을 특징으로 하는 임상시험 결과 예측 장치.
  5. 제4항에 있어서,
    상기 학습 모듈은,
    1차 학습된 상기 다수의 제1학습 알고리즘들이 상기 학습 데이터로부터 추출된 2차 학습 단계용의 임상시험 조건을 통해 예측한 결과들과 상기 2차 학습 단계용 데이터세트의 임상시험 결과를 고려하여 상기 제2학습 알고리즘을 학습하게 하는 2차 학습 단계를 수행하는 것을 특징으로 하는 임상시험 결과 예측 장치.
  6. 삭제
  7. 제5항에 있어서,
    상기 학습 모듈은,
    상기 예측 모델의 성능 지수가 목표 성능 지수에 도달할 때까지 상기 1차 학습 단계, 상기 2차 학습 단계 및 상기 테스트 및 최적화 단계를 반복적으로 수행하는 것을 특징으로 하는 임상시험 결과 예측 장치.
  8. 삭제
  9. 제1항에 있어서,
    상기 다수의 제1학습 알고리즘들은,
    K-근접이웃(K-Nearest Neighbor) 알고리즘, 그래디언트 부스팅(Gradient Boosting Machine) 알고리즘, 신경망(Neural Network) 알고리즘, 랜덤 포레스트(Random Forest) 알고리즘, 엑스트라 트리(extra trees), 및 로지스틱회귀(logistic regression) 알고리즘을 포함하는 임상시험 결과 예측 장치.
  10. 제1항에 있어서,
    상기 제2학습 알고리즘은,
    로지스틱회귀 알고리즘으로 구현되는 것을 특징으로 하는 임상시험 결과 예측 장치.
  11. 처리부가 임상시험 사례 데이터로부터 분류된 1차 학습 단계용 데이터세트, 2차 학습 단계용 데이터세트, 및 테스트 및 최적화 단계용 데이터세트를 입력받아 기계학습을 수행하여 임상시험 결과를 예측하는 예측 모델을 생성하는 단계,
    상기 처리부가 상기 예측 모델을 생성한 후, 사용자 단말로부터 임상시험 관련정보를 수신하는 단계, 및
    상기 처리부가 상기 예측 모델을 이용하여 상기 임상시험 관련정보에 따른 임상시험 결과를 예측하는 단계를 포함하되,
    상기 임상시험 사례 데이터는 실제 임상시험 사례의 임상시험 조건 및 임상시험 결과를 포함하고,
    상기 1차 학습 단계용 데이터세트, 상기 2차 학습 단계용 데이터세트, 및 상기 테스트 및 최적화 단계용 데이터세트의 임상시험 결과의 확률분포가 서로 유사한 형상을 가지고,
    상기 예측 모델을 생성하는 단계는,
    상기 처리부가 다수의 제1학습 알고리즘들과 하나의 제2학습 알고리즘을 이용하여 상기 기계학습을 수행하는 단계, 및
    상기 처리부가 학습된 다수의 제1학습 알고리즘들과 제2학습 알고리즘이 상기 임상시험 사례 데이터로부터 추출한 테스트용 데이터세트를 통해 예측한 임상시험 결과와 실제 임상시험 결과에 근거하여 상기 예측 모델의 성능 지수를 산출하고 산출된 상기 예측 모델의 성능 지수에 따라 상기 학습된 다수의 제1학습 알고리즘들과 제2학습 알고리즘의 파라미터를 최적화하는 테스트 및 최적화 단계를 포함하고,
    상기 제2학습 알고리즘은 상기 다수의 제1학습 알고리즘들 중 예측력이 가장 좋은 알고리즘을 판별하기 위한 학습을 수행하고,
    상기 예측 모델의 성능 지수는 상기 예측 모델의 상기 테스트용 데이터세트 전체에 대한 예측 정확도 및 상기 테스트용 데이터세트 중 임상시험 성공 케이스에 대한 예측 정밀도를 포함하는 것을 특징으로 하는 임상시험 결과 예측 방법.
  12. 제11항에 있어서,
    상기 예측 모델을 생성하는 단계는,
    상기 처리부가 상기 다수의 제1학습 알고리즘들 각각이 상기 임상시험 사례 데이터로부터 추출된 1차 학습 단계용 데이터세트 내 임상시험 조건과 임상시험 결과 간의 관계를 학습하게 하는 1차 학습 단계, 및
    상기 처리부가 1차 학습된 상기 다수의 제1학습 알고리즘들이 상기 임상시험 사례 데이터로부터 추출된 2차 학습 단계용 데이터세트의 임상시험 조건을 통해 예측한 결과들과 상기 2차 학습 단계용 데이터세트의 임상시험 결과를 고려하여 상기 제2학습 알고리즘을 학습하게 하는 2차 학습 단계를 포함하는 임상시험 결과 예측 방법.
  13. 제12항에 있어서,
    상기 처리부가 상기 예측 모델의 성능 지수가 목표 성능 지수에 도달할 때까지 상기 1차 학습 단계, 상기 2차 학습 단계 및 상기 테스트 및 최적화 단계를 반복적으로 수행하는 것을 특징으로 하는 임상시험 결과 예측 방법.
  14. 삭제
  15. 제12항에 있어서,
    상기 예측 정확도는,
    전체 임상시험 사례 중 상기 예측 모델에 의해 정확하게 예측된 임상시험 사례의 비율인 것을 특징으로 하는 임상시험 결과 예측 방법.
  16. 제12항에 있어서,
    상기 예측 정밀도는,
    상기 예측 모델에 의해 성공으로 예측된 전체 임상시험 사례 중 정확하게 예측된 임상시험 사례의 비율인 것을 특징으로 하는 임상시험 결과 예측 방법.
  17. 제12항에 있어서,
    상기 다수의 제1학습 알고리즘들은,
    K-근접이웃(K-Nearest Neighbor) 알고리즘, 그래디언트 부스팅(Gradient Boosting Machine) 알고리즘, 신경망(Neural Network) 알고리즘, 랜덤 포레스트(Random Forest) 알고리즘, 엑스트라 트리(extra trees), 및 로지스틱회귀(logistic regression) 알고리즘을 포함하는 임상시험 결과 예측 방법.
  18. 제12항에 있어서,
    상기 제2학습 알고리즘은,
    로지스틱회귀 알고리즘으로 구현되는 것을 특징으로 하는 임상시험 결과 예측 방법.
KR1020180032281A 2018-03-20 2018-03-20 임상시험 결과 예측 장치 및 방법 KR102327062B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020180032281A KR102327062B1 (ko) 2018-03-20 2018-03-20 임상시험 결과 예측 장치 및 방법
PCT/KR2019/003061 WO2019182297A1 (ko) 2018-03-20 2019-03-15 임상실험 결과 예측 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180032281A KR102327062B1 (ko) 2018-03-20 2018-03-20 임상시험 결과 예측 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20190110381A KR20190110381A (ko) 2019-09-30
KR102327062B1 true KR102327062B1 (ko) 2021-11-17

Family

ID=67987360

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180032281A KR102327062B1 (ko) 2018-03-20 2018-03-20 임상시험 결과 예측 장치 및 방법

Country Status (2)

Country Link
KR (1) KR102327062B1 (ko)
WO (1) WO2019182297A1 (ko)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11651243B2 (en) 2020-05-14 2023-05-16 Merative Us L.P. Using machine learning to evaluate data quality during a clinical trial based on participant queries
US11556806B2 (en) 2020-05-14 2023-01-17 Merative Us L.P. Using machine learning to facilitate design and implementation of a clinical trial with a high likelihood of success
US11538559B2 (en) 2020-05-14 2022-12-27 Merative Us L.P. Using machine learning to evaluate patients and control a clinical trial
KR102201198B1 (ko) * 2020-05-22 2021-01-11 서울시립대학교 산학협력단 기계학습 및 앙상블 기법을 이용하여 데이터를 분류하는 장치 및 방법
KR102515437B1 (ko) * 2020-09-10 2023-03-29 서울대학교병원 기계학습 기반 전립선암 위험도 산출 장치 및 방법과, 전립선암 위험도 산출 모델 생성 장치 및 방법
KR102447046B1 (ko) * 2022-06-03 2022-09-26 주식회사 인투인월드 인공지능 기반 임상시험 프로토콜 설계 방법, 장치 및 시스템
KR102597921B1 (ko) * 2023-02-16 2023-11-06 주식회사 그레이드헬스체인 보험계약자의 질병력 고지의무를 대행하는 언더라이팅 시스템
KR102597928B1 (ko) * 2023-03-16 2023-11-06 주식회사 그레이드헬스체인 질병력 고지의무를 대행해 줄 수 있는 언더라이팅 방법

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140088989A1 (en) * 2012-09-27 2014-03-27 Balaji Krishnapuram Rapid Learning Community for Predictive Models of Medical Knowledge

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002505892A (ja) * 1998-03-06 2002-02-26 ザ・リサーチ・ファウンデーション・オブ・ザ・ステート・ユニバーシティー・オブ・ニューヨーク 呼吸障害を予測する人工神経網およびそれを発展させる方法
EP1586076A2 (en) * 2003-01-15 2005-10-19 Bracco Imaging S.p.A. System and method for optimization of a database for the training and testing of prediction algorithms
WO2004095021A1 (ja) * 2003-04-23 2004-11-04 Eisai Co. Ltd. 疾患予後モデルの作成方法、このモデルを用いた疾患予後予測方法、このモデルによる予後予測装置、ならびにそのプログラム・記憶媒体
AU2006214034A1 (en) 2005-02-16 2006-08-24 Wyeth Methods and systems for diagnosis, prognosis and selection of treatment of leukemia
TWI539158B (zh) 2010-06-08 2016-06-21 維里德克斯有限責任公司 使用血液中之循環黑色素瘤細胞預測黑色素瘤病患之臨床結果的方法。
EP2973106A1 (en) * 2013-03-15 2016-01-20 The Cleveland Clinic Foundation Self-evolving predictive model
US9953271B2 (en) * 2013-11-22 2018-04-24 California Institute Of Technology Generation of weights in machine learning
CN107980162A (zh) * 2015-03-03 2018-05-01 南托米克斯有限责任公司 基于组合的研究建议***和方法
KR102558021B1 (ko) * 2016-06-10 2023-07-24 한국전자통신연구원 임상 의사결정 지원 앙상블 시스템 및 이를 이용한 임상 의사결정 지원 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140088989A1 (en) * 2012-09-27 2014-03-27 Balaji Krishnapuram Rapid Learning Community for Predictive Models of Medical Knowledge

Also Published As

Publication number Publication date
KR20190110381A (ko) 2019-09-30
WO2019182297A1 (ko) 2019-09-26

Similar Documents

Publication Publication Date Title
KR102327062B1 (ko) 임상시험 결과 예측 장치 및 방법
Chowdhury et al. Optimal feature extraction and classification-oriented medical insurance prediction model: machine learning integrated with the internet of things
Li et al. Peer reviewed: agent-based modeling of chronic diseases: a narrative review and future research directions
CN109599185A (zh) 疾病数据处理方法、装置、电子设备及计算机可读介质
US11120912B2 (en) Cognitive systems for generating prospective medical treatment guidance
CN109219854A (zh) 患者风险评分和评估***
Haddad et al. Incorporation of stochastic engineering models as prior information in Bayesian medical device trials
Whig et al. A novel method for diabetes classification and prediction with Pycaret
CN107111679A (zh) 用于确定健康风险的方法
Vasilevskis et al. Mobile application for preliminary diagnosis of diseases
US20190348179A1 (en) Predicting interactions between drugs and diseases
US20190348180A1 (en) System and method for providing model-based predictions of patient-related metrics based on location-based determinants of health
US11705231B2 (en) System and method for computerized synthesis of simulated health data
Shaw et al. Dating concerns among women with breast cancer or with genetic breast cancer susceptibility: a review and meta-synthesis
Kanter et al. Millennium global village-net: Bringing together millennium villages throughout sub-Saharan Africa
Sheraz et al. E‐health futures in Bangladesh
Klochko et al. Data mining of the healthcare system based on the machine learning model developed in the Microsoft azure machine learning studio
WO2021203997A1 (zh) 一种融合并发症风险的慢病医保费用预测方法及相关设备
JP2023505435A (ja) 患者のリスクスコアを判定する方法
US20170161446A1 (en) Systems and Methods for Continuous Optimization of Medical Treatments
WO2019215263A1 (en) System and method for providing model-based predictions of quality of life implications of a treatment via individual-specific machine learning models
US20240079142A1 (en) A system and method to predict health outcomes and optimize health interventions
Patel A Review on Importance of Artificial Intelligence in Alzheimer's Disease and it's Future Outcomes for Alzheimer's Disease
Bakar et al. HDP: heart disease prediction tool using neural network
Phadnis et al. Sample size calculations for noninferiority trials for time-to-event data using the concept of proportional time

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E902 Notification of reason for refusal
AMND Amendment
E90F Notification of reason for final refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
E90F Notification of reason for final refusal
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant