KR20220078117A - COVID-19 patients death rate prediction system using blood sample and method thereof - Google Patents

COVID-19 patients death rate prediction system using blood sample and method thereof Download PDF

Info

Publication number
KR20220078117A
KR20220078117A KR1020200167302A KR20200167302A KR20220078117A KR 20220078117 A KR20220078117 A KR 20220078117A KR 1020200167302 A KR1020200167302 A KR 1020200167302A KR 20200167302 A KR20200167302 A KR 20200167302A KR 20220078117 A KR20220078117 A KR 20220078117A
Authority
KR
South Korea
Prior art keywords
corona
patient
blood
unit
mortality
Prior art date
Application number
KR1020200167302A
Other languages
Korean (ko)
Inventor
이진석
고훈
정희원
이후석
강우성
박철
최태영
서재호
Original Assignee
원광대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 원광대학교산학협력단 filed Critical 원광대학교산학협력단
Priority to KR1020200167302A priority Critical patent/KR20220078117A/en
Publication of KR20220078117A publication Critical patent/KR20220078117A/en

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/80ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for detecting, monitoring or modelling epidemics or pandemics, e.g. flu
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/30Drug targeting using structural data; Docking or binding prediction
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Pathology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Primary Health Care (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computing Systems (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Medicinal Chemistry (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Bioethics (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

본 발명은 코로나 환자 사망률 예측 시스템 및 방법에 관한 것으로, 더욱 상세하게는 코로나(COVID-19) 확진 판정자 중 생존한 다수의 사람과 사망한 다수의 사람의 혈액의 혈액 바이오 마커들 중 코로나 환자의 생존률에 영향을 줄 수 있는 최적 개수의 선택 혈액 바이오 마커들을 추출하고, 추출된 선택 혈액 바이오 마커와 환자의 생존 여부가 주석으로 포함된 환자정보를 포함하는 데이터세트에 의해 사망률 예측 인공지능 모델에 적용하여 학습시키고, 학습된 수명 예측 인공지능 모델에 확진 판정을 받은 코로나 환자의 혈액으로부터 검출되는 선택 혈액 바이오 마커 및 환자정보를 상기 사망률 예측 인공지능 모델에 적용하여 코로나 환자의 사망률을 실시간 예측할 수 있는 혈액샘플을 이용한 코로나 환자 사망률 예측 시스템 및 방법에 관한 것이다.The present invention relates to a corona patient mortality prediction system and method, and more particularly, the survival rate of corona patients among blood biomarkers of a large number of people who survived and a large number of people who died among corona (COVID-19) confirmed cases By extracting the optimal number of selected blood biomarkers that can affect A blood sample that can predict the mortality rate of a corona patient in real time by learning and applying the selected blood biomarker and patient information detected from the blood of a corona patient who has been confirmed by the learned lifespan prediction AI model to the mortality prediction AI model It relates to a system and method for predicting the mortality rate of corona patients using

Description

혈액샘플을 이용한 코로나 환자 사망률 예측 시스템 및 방법{COVID-19 patients death rate prediction system using blood sample and method thereof}Corona patient mortality prediction system and method using blood samples {COVID-19 patients death rate prediction system using blood sample and method thereof}

본 발명은 코로나 환자 사망률 예측 시스템 및 방법에 관한 것으로, 더욱 상세하게는 코로나(COVID-19) 확진 판정자 중 생존한 다수의 사람과 사망한 다수의 사람의 혈액의 혈액 바이오 마커들 중 코로나 환자의 생존률에 영향을 줄 수 있는 최적 개수의 혈액 바이오 마커(이하 "선택 혈액 바이오 마커"라 함)들을 추출하고, 추출된 선택 혈액 바이오 마커와 환자의 생존 여부가 주석으로 포함된 환자정보를 포함하는 데이터세트에 의해 사망률 예측 인공지능 모델에 적용하여 학습시키고, 학습된 수명 예측 인공지능 모델에 확진 판정을 받은 코로나 환자의 혈액으로부터 검출되는 선택 혈액 바이오 마커 및 환자정보를 상기 사망률 예측 인공지능 모델에 적용하여 코로나 환자의 사망률을 실시간 예측할 수 있는 혈액샘플을 이용한 코로나 환자 사망률 예측 시스템 및 방법에 관한 것이다.The present invention relates to a corona patient mortality prediction system and method, and more particularly, the survival rate of corona patients among blood biomarkers of a large number of people who survived and a large number of people who died among corona (COVID-19) confirmed cases A dataset that extracts the optimal number of blood biomarkers (hereinafter referred to as "selective blood biomarkers") that can affect By applying and learning the mortality prediction artificial intelligence model by It relates to a system and method for predicting the mortality rate of a corona patient using a blood sample that can predict the mortality rate of a patient in real time.

2019년 12월 중국 우한에서 처음 발생한 이후, 중국 전역과 전 세계로 확산된 새로운 유형의 호흡기 감염 질환인 코로나바이러스감염증-19(COVID-19: 이하 "코로나"라 함)은 아직 치료제나 백신이 개발되지 않아 직접적인 치료를 할 수 없어 많은 사망자가 발생하고 있다.Coronavirus Infectious Disease-19 (COVID-19: hereafter referred to as "corona"), a new type of respiratory infection disease that has spread throughout China and the world since it first occurred in Wuhan, China in December 2019, has yet to be treated or vaccine developed. There are many deaths due to the lack of direct treatment.

일반적으로 코로나 확진 판정을 받은 코로나 환자의 대부분은 초기에는 증상이 경미하거나 증상이 없는 경우가 많으나, 기저질환이 있거나 연령대가 높은 코로나 환자 중에서는 갑자기 상태가 악화되어 죽음에 이르는 경우가 발생하고 있다.In general, most of the corona patients diagnosed with Corona have mild symptoms or no symptoms in the initial stage, but among corona patients with underlying diseases or high age, their condition suddenly worsens and leads to death.

그러나 현재까지 코로나 확진 판정을 받은 코로나 환자 중 누가 중증으로 진행할지를 판단할 수 있는 근거가 없어 일반적인 치료를 진행하면 지켜볼 수밖에 없는 문제점이 있다.However, there is no basis for judging who will progress to severe among corona patients who have been diagnosed with Corona so far.

따라서 중증으로 진행할 수 있는 코로나 환자를 빠르게 판단하여 중증 환자에 대응하는 치료를 진행할 수 있도록 하여 코로나 환자가 사망할 확률을 줄이는 방안이 요구되고 있다. Therefore, there is a need for measures to reduce the probability of death of corona patients by quickly determining corona patients who may progress to severe cases and proceeding with treatment corresponding to severe cases.

대한민국 공개특허 제10-2014-0020318호(2014.02.18. 공개)Republic of Korea Patent Publication No. 10-2014-0020318 (published on February 18, 2014) 대한민국 공개특허 제10-2007-0085817호(2007.08.27. 공개)Republic of Korea Patent Publication No. 10-2007-0085817 (published on August 27, 2007)

따라서 본 발명의 목적은 코로나(COVID-19) 확진 판정자 중 생존한 다수의 사람과 사망한 다수의 사람의 혈액의 혈액 바이오 마커들 중 코로나 환자의 생존률에 영향을 줄 수 있는 최적 개수의 선택 혈액 바이오 마커들을 추출하고, 추출된 선택 혈액 바이오 마커와 환자의 생존 여부가 주석으로 포함된 환자정보를 포함하는 데이터세트에 의해 사망률 예측 인공지능 모델에 적용하여 학습시키고, 학습된 수명 예측 인공지능 모델에 확진 판정을 받은 코로나 환자의 혈액으로부터 검출되는 선택 혈액 바이오 마커 및 환자정보를 상기 사망률 예측 인공지능 모델에 적용하여 실시간에 가깝게 코로나 환자의 사망률을 예측할 수 있는 혈액샘플을 이용한 코로나 환자 사망률 예측 시스템 및 방법을 제공함에 있다.Therefore, it is an object of the present invention to select the optimal number of blood biomarkers that can affect the survival rate of the corona patient among the blood biomarkers of the blood of a large number of people who survived and who have died among corona (COVID-19) confirmed patients The markers are extracted, the selected blood biomarker and the patient's survival are annotated, and the data set is applied to the mortality prediction AI model to learn, and the learned lifespan prediction AI model is confirmed. Corona patient mortality prediction system and method using blood samples that can predict the mortality rate of corona patients close to real time by applying the selected blood biomarker and patient information detected from the blood of the corona patient who has been judged to the mortality prediction artificial intelligence model is in providing.

상기와 같은 목적을 달성하기 위한 본 발명에 따른 혈액샘플을 이용한 코로나 환자 사망률 예측 시스템은: 코로나 확진 판정을 받고 생존 또는 사망한 다수의 코로나 환자의 생존 및 사망 여부 정보를 포함하는 환자정보 및 상기 코로나 환자의 혈액에서 검출된 혈액 바이오 마커들 중 사망에 영향을 주는 일정 개수 이상의 선택 혈액 바이오 마커를 포함하는 데이터세트를 생성하는 데이터세트 생성부; 초기 코로나 확진 판정을 받은 코로나 환자의 선택 혈액 바이오 마커 및 생존 및 사망 여부 정보가 없는 환자정보를 포함하는 예측 데이터를 획득하는 예측 데이터 획득부; 상기 데이터세트를 입력받아 표준화하여 출력하는 전처리부; 사망률 예측 인공지능 모델을 가지고 있으며, 상기 데이터세트 생성부 및 전처리부를 통해 입력되는 데이터세트를 상기 사망률 예측 인공지능 모델에 적용하여 학습시키는 학습부; 및 상기 학습부에서 학습된 사망률 예측 인공지능 모델이 적용되어, 상기 예측 데이터 획득부로부터 입력되는 예측 데이터를 상기 학습된 사망률 예측 인공지능 모델에 적용하여 상기 예측 데이터에 대응하는 코로나 환자의 사망률을 예측하여 출력하는 진단부를 포함하는 것을 특징으로 한다.The corona patient mortality prediction system using a blood sample according to the present invention for achieving the above object is: Patient information including information on the survival and death of a plurality of corona patients who survived or died after being confirmed with Corona and the corona a data set generating unit that generates a data set including a predetermined number or more of selected blood biomarkers that affect death among blood biomarkers detected in the patient's blood; a predictive data acquisition unit for acquiring predictive data including patient information without information on whether or not survival and death information and selected blood biomarkers of a corona patient who has been initially diagnosed with coronavirus; a pre-processing unit for receiving the data set, standardizing it and outputting it; a learning unit having a mortality prediction AI model, and applying a dataset input through the dataset generation unit and preprocessing unit to the mortality prediction AI model to learn; and the mortality prediction AI model learned in the learning unit is applied, and the prediction data input from the prediction data acquisition unit is applied to the learned mortality prediction AI model to predict the mortality rate of the corona patient corresponding to the prediction data It is characterized in that it includes a diagnostic unit that outputs.

상기 데이터세트 생성부는, 73개의 혈액 바이오 마커 중 분산분석(Analysis of Variance: ANOVA) 값(P)에 기반하여 제1기준치 미만인 분산분석 값을 가가지는 32개의 혈액 바이오 마커를 선택하고, 상기 32개의 혈액 바이오 마커 중 하기 수학식에 의해 계산되는 사용 가능 데이터 비율(Available Data Rate: ADR)이 90% 미만인 4개의 혈액 바이오 마커를 제거한 후, 28개의 혈액 바이오 마커를 상기 선택 혈액 바이오 마커로서 출력하는 혈액 바이오 마커 선택부; 코로나 확진 판정을 받은 환자의 연령, 성별 및 코로나 확진 판정 후 생존했는지 사망했는지를 나타내는 생존 및 사망 여부 정보를 포함하는 환자정보를 획득하는 코로나 환자 데이터 획득부; 및 상기 선택 혈액 바이오 마커 및 상기 환자정보를 포함하는 데이터세트를 생성하는 데이터세트 구성부를 포함하는 것을 특징으로 한다.The dataset generating unit selects 32 blood biomarkers having an ANOVA value less than a first reference value based on an Analysis of Variance (ANOVA) value (P) among 73 blood biomarkers, and the 32 blood biomarkers After removing four blood biomarkers having an available data rate (ADR) of less than 90% among blood biomarkers, the 28 blood biomarkers are outputted as the selected blood biomarkers. biomarker selection unit; a corona patient data acquisition unit for acquiring patient information including survival and death information indicating whether the patient has survived or died after the age, sex, and corona diagnosis of the patient; and a dataset configuration unit that generates a dataset including the selected blood biomarker and the patient information.

[수학식][Equation]

Figure pat00001
Figure pat00001

상기 예측 데이터 획득부는, 코로나 확진 판정을 받은 코로나 환자의 혈액으로부터 검출된 혈액 바이오 마커들 중 상기 혈액 바이오 마커 선택부에서 선택된 선택 혈액 바이오 마커에 대응하는 혈액 바이오 마커를 선택하여 출력하는 혈액 바이오 마커 획득부; 상기 코로나 환자의 연령 및 성별을 포함하는 환자정보를 획득하여 출력하는 환자정보 획득부; 및 상기 선택된 혈액 바이오 마커 및 환자정보를 포함하는 예측 데이터를 생성하여 출력하는 예측 데이터 구성부를 포함하는 것을 특징으로 한다.The prediction data acquisition unit obtains a blood biomarker that selects and outputs a blood biomarker corresponding to the selected blood biomarker selected by the blood biomarker selection unit from among blood biomarkers detected from the blood of a corona patient who has been diagnosed with coronavirus wealth; a patient information acquisition unit for acquiring and outputting patient information including the age and gender of the corona patient; and a prediction data configuration unit for generating and outputting prediction data including the selected blood biomarker and patient information.

상기 학습부의 사망률 예측 인공지능 모델은, 5계층으로 구성되는 심층신경망에 상기 예측 데이터를 적용하여 상기 코로나 환자의 신경망 사망률을 예측하는 심층 신경망부; 랜덤 포레스트 모델에 상기 예측 데이터를 적용하여 상기 코로나 환자의 포레스트 사망률을 예측하는 랜덤 포레스트부; 및 상기 신경망 사망률 및 상기 포레스트 사망률을 입력받고 소프트 투표를 사용하여 최종 사망률을 예측하여 출력하는 사망률 예측부를 포함하는 것을 특징으로 한다.The mortality prediction artificial intelligence model of the learning unit, a deep neural network unit for predicting the neural network mortality of the corona patient by applying the prediction data to a deep neural network consisting of five layers; a random forest unit for predicting the forest mortality rate of the corona patient by applying the prediction data to a random forest model; and a mortality prediction unit that receives the neural network mortality rate and the forest mortality rate and predicts and outputs the final mortality rate using soft voting.

상기 심층 신경망부는, 입력 계층(Input Layer); 각각 30개, 16개 및 8개의 노드로 구성되고 드롭아웃 비율 0.3이 적용되는 3개의 완전연결 계층(Fully Connected Layer: FC Layer); 및 출력 계층을 포함하여, 10회 반복 10배 계층화된 교차 검증을 수행하는 100개의 모델을 생성하고, 상기 100개의 모델을 하기 수학식에 의해 앙상블하여 신경망 사망률을 예측하여 출력하는 것을 특징으로 한다.The deep neural network unit, an input layer (Input Layer); 3 Fully Connected Layers (FC Layers) consisting of 30, 16 and 8 nodes respectively and with a dropout ratio of 0.3; and generating 100 models that perform 10-fold stratified cross-validation, including the output layer, and ensembles the 100 models by the following equation to predict and output the neural network mortality rate.

[수학식][Equation]

Figure pat00002
Figure pat00002

상기 랜덤 포레스트부는, 최대 깊이가 4, 최대 특징 수 5로 훈련되는 100개의 랜덤 포레스트 모델을 훈련하고, 하기 수학식과 같이 100개의 랜덤 포레스트 모델의 출력을 통합하여 포레스트 사망률을 출력하는 것을 특징으로 한다.The random forest unit trains 100 random forest models trained with a maximum depth of 4 and a maximum number of features 5, and outputs the forest mortality rate by integrating the outputs of 100 random forest models as shown in the following equation.

[수학식][Equation]

Figure pat00003
Figure pat00003

Figure pat00004
Figure pat00004

Figure pat00005
Figure pat00005

상기 3개의 완전 연결 계층 중 마지막 완전 연결 계층은 소프트 맥스 계층으로 구성되는 것을 특징으로 한다.The last fully connected layer among the three fully connected layers is characterized in that it consists of a soft max layer.

상기와 같은 목적을 달성하기 위한 본 발명에 따른 혈액샘플을 이용한 코로나 환자 사망률 예측 방법은: 데이터 생성부가 코로나 확진판정을 받고 생존 또는 사망한 다수의 코로나 환자의 생존 및 사망 여부 정보를 포함하는 환자정보 및 상기 코로나 환자의 혈액에서 검출된 혈액 바이오 마커들 중 사망에 영향을 주는 일정 개수 이상의 혈액 바이오 마커를 포함하는 데이터세트를 생성하는 데이터세트 생성 과정; 전처리부가 상기 데이터세트 생성부로부터 상기 데이터세트를 입력받아 표준화하여 출력하는 전처리 과정; 사망률 예측 인공지능 모델을 가지고 있는 학습부가 상기 데이터세트 생성부 및 전처리부를 통해 입력되는 데이터세트를 상기 사망률 예측 인공지능 모델에 적용하여 학습시키는 학습 과정; 예측 데이터 획득부가 초기 코로나 확진 판정을 받은 코로나 환자의 혈액 바이오 마커 및 상기 코로나 환자의 생존 및 사망 여부 정보가 없는 환자정보를 포함하는 예측 데이터를 획득하는 예측 데이터 획득 과정; 및 상기 학습부에서 학습된 사망률 예측 인공지능 모델이 적용된 진단부가 상기 예측 데이터 획득부로부터 입력되는 예측 데이터를 상기 학습된 사망률 예측 인공지능 모델에 적용하여 상기 예측 데이터에 대응하는 코로나 환자의 사망률을 예측하여 출력하는 진단 과정을 포함하는 것을 특징으로 한다.Corona patient mortality prediction method using a blood sample according to the present invention for achieving the above object is: Patient information including information on whether or not the data generating unit survived or died of a plurality of corona patients who survived or died after being diagnosed with Corona and a dataset generating process of generating a dataset including a predetermined number or more of blood biomarkers that affect death among blood biomarkers detected in the blood of the corona patient; a preprocessing process in which a preprocessing unit receives the data set from the data set generating unit, standardizes it and outputs it; a learning process in which a learning unit having a mortality prediction AI model applies a dataset input through the dataset generator and preprocessor to the mortality prediction AI model to learn; a predictive data acquisition process in which the predictive data acquisition unit acquires predictive data including blood biomarkers of a corona patient who has been initially confirmed as corona and patient information without information on whether the corona patient is alive or dead; and a diagnosis unit to which the mortality prediction artificial intelligence model learned in the learning unit is applied applies the prediction data input from the prediction data acquisition unit to the learned mortality prediction artificial intelligence model to predict the mortality rate of the corona patient corresponding to the prediction data It is characterized in that it includes a diagnostic process to output.

상기 데이터세트 생성 과정은, 데이터세트 생성부의 혈액 바이오 마커 선택부가 73개의 혈액 바이오 마커 중 분산분석(Analysis of Variance: ANOVA) 값(P)에 기반하여 제1기준치 미만인 분산분석 값을 가가지는 32개의 혈액 바이오 마커를 선택하고, 상기 32개의 혈액 바이오 마커 중 하기 수학식에 의해 계산되는 사용 가능 데이터 비율(Available Data Rate: ADR)이 90% 미만인 4개의 혈액 바이오 마커를 제거한 후 28개의 혈액 바이오 마커를 선택 혈액 바이오 마커로서 출력하는 혈액 바이오 마커 선택 단계; 코로나 환자 데이터 획득부가 코로나 확진 판정을 받은 환자의 연령, 성별 및 코로나 확진 판정 후 생존했는지 사망했는지를 나타내는 생존 및 사망 여부 정보를 포함하는 환자정보를 획득하는 코로나 환자 데이터 획득 단계; 및 데이터세트 구성부가 상기 선택 혈액 바이오 마커 및 상기 환자정보를 포함하는 데이터세트를 생성하는 데이터세트 구성 단계를 포함하는 것을 특징으로 한다.The dataset generation process is performed by the blood biomarker selection unit of the dataset generation unit based on the Analysis of Variance (ANOVA) value (P) among the 73 blood biomarkers. Blood biomarkers are selected, and 4 blood biomarkers having an available data rate (ADR) of less than 90% calculated by the following equation among the 32 blood biomarkers are removed, and then 28 blood biomarkers are added. a blood biomarker selection step outputting as a selected blood biomarker; A corona patient data acquisition step of acquiring patient information including survival and death information indicating whether the corona patient data acquisition unit survived or died after the age, sex, and corona diagnosis of the patient who was confirmed with Corona; and a dataset configuration step in which a dataset configuration unit generates a dataset including the selected blood biomarker and the patient information.

[수학식][Equation]

Figure pat00006
Figure pat00006

상기 예측 데이터 획득 과정은, 예측 데이터 획득부의 혈액 바이오 마커 획득부가 코로나 확진 판정을 받은 코로나 환자의 혈액으로부터 검출된 혈액 바이오 마커들 중 상기 혈액 바이오 마커 선택부에서 선택된 선택 혈액 바이오 마커에 대응하는 혈액 바이오 마커를 선택하여 출력하는 혈액 바이오 마커 획득 단계; 상기 예측 데이터 획득부의 환자정보 획득부가 상기 코로나 환자의 연령 및 성별을 포함하는 환자정보를 획득하여 출력하는 환자정보 획득 단계; 및 상기 예측 데이터 획득부의 예측 데이터 구성부가 상기 선택된 혈액 바이오 마커 및 환자정보를 포함하는 예측 데이터를 생성하여 출력하는 예측 데이터 구성 단계를 포함하는 것을 특징으로 한다.In the predictive data acquisition process, the blood biomarker acquiring unit of the prediction data acquiring unit may include a blood biomarker corresponding to a selected blood biomarker selected by the blood biomarker selection unit among blood biomarkers detected from the blood of a corona patient who has been diagnosed with corona. a blood biomarker acquisition step of selecting and outputting a marker; a patient information obtaining step of obtaining and outputting patient information including the age and gender of the corona patient by the patient information obtaining unit of the prediction data obtaining unit; and a predictive data construction step of generating and outputting predictive data including the selected blood biomarker and patient information by the predictive data constituent unit of the predictive data obtaining unit.

상기 진단 과정은, 진단부의 심층 신경망부가 심층신경망에 상기 예측 데이터를 적용하여 상기 코로나 환자의 신경망 사망률을 예측하는 심층 신경망 사망률 예측 단계; 진단부의 랜덤 포레스트부가 랜덤 포레스트 모델에 상기 예측 데이터를 적용하여 상기 코로나 환자의 포레스트 사망률을 예측하는 랜덤 포레스트 사망률 예측 단계; 및 진단부의 사망률 예측부가 상기 신경망 사망률 및 상기 포레스트 사망률을 입력받고 소프트 투표를 사용하여 최종 사망률을 예측하여 출력하는 사망률 예측 단계를 포함하는 것을 특징으로 한다.The diagnosis process includes: a deep neural network mortality prediction step in which the deep neural network unit of the diagnosis unit applies the prediction data to the deep neural network to predict the neural network mortality rate of the corona patient; a random forest mortality prediction step of predicting the forest mortality rate of the corona patient by applying the prediction data to the random forest model by the random forest diagnosis unit; and a mortality prediction step in which the mortality prediction unit of the diagnosis unit receives the neural network mortality rate and the forest mortality rate, and predicts and outputs the final mortality rate using soft voting.

본 발명은 혈액만으로 코로나 환자의 사망률을 확인할 수 있는 효과가 있다.The present invention has the effect of confirming the mortality rate of corona patients only with blood.

또한, 본 발명은 혈액만으로 빠르게 코로나 환자의 사망률을 확인할 수 있으므로, 해당 코로나 환자에 대해 빠르게 중증 환자 관리를 수행할 수 있도록 하므로, 코로나 환자를 빠르고 적합한 치료를 수행할 수 있도록 하므로 코로나 환자의 사망률을 줄이고 생존률을 증가시킬 수 있는 효과가 있다.In addition, since the present invention can quickly check the mortality rate of corona patients only with blood, it enables rapid management of severe patients for the corresponding corona patients, so that it is possible to quickly and appropriately treat corona patients, so that the mortality of corona patients is reduced It has the effect of reducing and increasing the survival rate.

도 1은 본 발명에 따른 혈액샘플을 이용한 코로나 환자 사망률 예측 시스템의 구성을 나타낸 도면이다.
도 2는 본 발명에 따른 혈액샘플을 이용한 코로나 환자 사망률 예측 시스템의 학습부 및 진단부의 학습 사망률 예측 인공지능 모델의 구성을 나타낸 도면이다.
도 3은 본 발명에 따른 학습 사망률 예측 인공지능 모델의 개념을 설명하기 위한 도면이다.
도 4는 본 발명의 일실시 예에 따른 혈액샘플의 선택 혈액 바이오마커의 수에 따른 정확도 그래프를 나타낸 도면이다.
도 5는 본 발명의 일실시 예에 따른 생존 또는 사망예측 결과를 출력하기 위한 혈액정보 입력 수단을 나타낸 도면이다.
1 is a diagram showing the configuration of a corona patient mortality prediction system using a blood sample according to the present invention.
2 is a view showing the configuration of the learning mortality prediction artificial intelligence model of the learning unit and the diagnosis unit of the corona patient mortality prediction system using a blood sample according to the present invention.
3 is a diagram for explaining the concept of an artificial intelligence model for predicting learning mortality according to the present invention.
4 is a diagram illustrating an accuracy graph according to the number of selected blood biomarkers in a blood sample according to an embodiment of the present invention.
5 is a diagram illustrating blood information input means for outputting survival or death prediction results according to an embodiment of the present invention.

이하 첨부된 도면을 참조하여 본 발명에 따른 혈액샘플을 이용한 코로나 환자 사망률 예측 시스템의 구성 및 동작을 설명하고, 상기 시스템에서의 코로나 환자 사망률 예측 방법을 설명한다.Hereinafter, the configuration and operation of the corona patient mortality prediction system using a blood sample according to the present invention will be described with reference to the accompanying drawings, and a corona patient mortality prediction method in the system will be described.

도 1은 본 발명에 따른 혈액샘플을 이용한 코로나 환자 사망률 예측 시스템의 구성을 나타낸 도면이고, 도 4는 본 발명에 따른 혈액샘플의 선택 혈액 바이오마커의 수에 따른 정확도 그래프를 나타낸 도면이며, 도 5는 본 발명의 일실시 예에 따른 생존 또는 사망예측 결과를 출력하기 위한 혈액정보 입력 수단을 나타낸 도면이다. 이하 도 1, 도 4 및 도 5를 참조하여 설명한다.1 is a diagram showing the configuration of a corona patient mortality prediction system using a blood sample according to the present invention, FIG. 4 is a diagram showing an accuracy graph according to the number of selected blood biomarkers of a blood sample according to the present invention, FIG. 5 is a diagram illustrating a blood information input means for outputting survival or death prediction results according to an embodiment of the present invention. Hereinafter, it will be described with reference to FIGS. 1, 4 and 5 .

본 발명에 따른 혈액샘플을 이용한 코로나 환자 사망률 예측 시스템은 데이터세트 생성부(10), 예측 데이터 획득부(20), 전처리부(30), 학습부(40) 및 진단부(50)를 포함한다.Corona patient mortality prediction system using a blood sample according to the present invention includes a dataset generating unit 10, a prediction data obtaining unit 20, a preprocessing unit 30, a learning unit 40, and a diagnosis unit 50 .

데이터세트 생성부(10)는 혈액 바이오 마커 선택부(11), 코로나 환자 데이터 획득부(12) 및 데이터세트 구성부(13)를 포함하여, 코로나 확진 판정을 받고 생존 또는 사망한 다수의 코로나 환자의 생존 및 사망 여부 정보를 포함하는 환자정보 및 상기 코로나 환자의 혈액에서 검출된 혈액 바이오 마커들 중 사망에 영향을 주는 일정 개수 이상의 혈액 바이오 마커를 포함하는 데이터세트를 생성한다.The dataset generation unit 10 includes a blood biomarker selection unit 11, a corona patient data acquisition unit 12, and a dataset configuration unit 13, and a plurality of corona patients who survived or died after receiving a confirmed corona diagnosis. Generates a dataset including patient information including information on the survival and death of the patient and a certain number of blood biomarkers that affect death among blood biomarkers detected in the blood of the corona patient.

구체적으로 설명하면, 혈액 바이오 마커 선택부(11)는 73개의 혈액 바이오 마커 중 분산분석(Analysis of Variance: ANOVA) 값(P)에 기반하여 제1기준치 미만인 분산분석 값을 가지는 32개의 혈액 바이오 마커를 선택하고, 상기 32개의 혈액 바이오 마커 중 하기 수학식 1에 의해 계산되는 사용 가능 데이터 비율(Available Data Rate: ADR)이 90% 미만인 4개의 혈액 바이오 마커를 제거하여 하기 표 1과 같은 28개의 혈액 바이오 마커를 선택하여 선택 혈액 바이오 마커로서 출력한다.More specifically, the blood biomarker selection unit 11 is based on an Analysis of Variance (ANOVA) value (P) among 73 blood biomarkers, and 32 blood biomarkers having an ANOVA value less than the first reference value. is selected, and 4 blood biomarkers having an available data rate (ADR) of less than 90% calculated by Equation 1 below among the 32 blood biomarkers are removed to remove 28 blood biomarkers as shown in Table 1 below. Select a biomarker and output it as a selected blood biomarker.

Figure pat00007
Figure pat00007

Figure pat00008
Figure pat00008

도 4에서 나타낸 바와 같이 선택되는 선택 혈액 바이오 마커의 수에 따른 정확도 증가하되 일정 개수 이상에서 90%대로 수렴함을 알 수 있다. 따라서 상기 선택 혈액 바이오 마커의 수는 25 내지 30개 사이에서 선택되는 것이 바람직할 것이다.As shown in FIG. 4 , it can be seen that the accuracy increases according to the number of selected blood biomarkers, but converges to 90% over a certain number. Therefore, the number of selected blood biomarkers may be preferably selected between 25 and 30.

또한, 지속적으로 갱신되는 생존 및 사망한 코로나 환자의 혈액 바이오 마커 정보에 따라 선택 혈액 바이오 마커의 일부는 다른 혈액 바이오 마커로 변경될 수도 있을 것이다. In addition, some of the selected blood biomarkers may be changed to other blood biomarkers according to the continuously updated blood biomarker information of living and deceased corona patients.

코로나 환자 데이터 획득부(12)는 코로나 확진 판정을 받은 환자의 연령, 성별 및 코로나 확진 판정 후 생존했는지 사망했는지를 나타내는 생존 및 사망 여부 정보를 포함하는 환자정보를 획득하여 데이터세트 구성부(13)로 출력한다. 상기 환자정보에는 환자의 기저질환 정보가 더 포함될 수도 있을 것이다.The corona patient data acquisition unit 12 obtains patient information including survival and death information indicating whether the patient has survived or died after the age and sex of the patient who has been confirmed with the corona virus, and the data set configuration unit 13 output as The patient information may further include the patient's underlying disease information.

데이터세트 구성부(13)는 상기 혈액 바이오 마커 선택부(11)로부터 입력되는 상기 선택 혈액 바이오 마커 및 상기 코로나 환자 데이터 획득부(12)로부터 입력되는 상기 환자정보를 포함하는 데이터세트를 생성하는 전처리부(30)로 출력한다.The data set configuration unit 13 is a pre-processing for generating a dataset including the selected blood biomarker input from the blood biomarker selection unit 11 and the patient information input from the corona patient data acquisition unit 12 . output to the unit 30 .

예측 데이터 획득부(20)는 혈액 바이오 마커 획득부(21), 환자정보 획득부(22) 및 예측 데이터 구성부(23)를 포함하여, 초기 코로나 확진 판정을 받은 코로나 환자의 선택 혈액 바이오 마커 및 생존 및 사망 여부 정보가 없는 환자정보를 포함하는 예측 데이터를 획득하여 출력한다.The prediction data acquisition unit 20 includes a blood biomarker acquisition unit 21, a patient information acquisition unit 22, and a prediction data configuration unit 23, and includes a selected blood biomarker of a corona patient diagnosed with the initial corona virus and Acquires and outputs predictive data including patient information without survival or death information.

상기 혈액 바이오 마커 획득부(21)는 코로나 확진 판정을 받은 코로나 환자의 혈액으로부터 검출된 혈액 바이오 마커들 중 상기 혈액 바이오 마커 선택부(11)에서 선택된 선택 혈액 바이오 마커에 대응하는 혈액 바이오 마커를 선택하여 출력한다. The blood biomarker acquisition unit 21 selects a blood biomarker corresponding to the selected blood biomarker selected by the blood biomarker selection unit 11 from among blood biomarkers detected from the blood of a corona patient who has been confirmed with corona to output

환자정보 획득부(22)는 상기 코로나 환자의 연령 및 성별을 포함하는 환자정보를 획득하여 출력한다. 상기 환자정보에는 환자의 기저질환 정보가 더 포함될 수도 있을 것이다.The patient information acquisition unit 22 obtains and outputs patient information including the age and gender of the corona patient. The patient information may further include the patient's underlying disease information.

일 실시예에 따라, 따라서 혈액 바이오 마커 획득부(210) 및 환자정보 획득부(22)는 도 5와 같은 하나의 혈액정보 입력 수단을 제공하여 코로나 환자정보 및 혈액 바이오 마커를 획득하여 출력할 수도 있을 것이다.Accordingly, according to an embodiment, the blood biomarker obtaining unit 210 and the patient information obtaining unit 22 may obtain and output corona patient information and blood biomarkers by providing one blood information input means as shown in FIG. 5 . There will be.

예측 데이터 구성부(23)는 상기 선택된 혈액 바이오 마커 및 환자정보를 포함하는 예측 데이터를 생성하여 출력한다.The prediction data configuration unit 23 generates and outputs prediction data including the selected blood biomarker and patient information.

전처리부(30)는 상기 데이터세트의 데이터들을 하기 수학식 2에 의해 표준화하여 출력한다.The preprocessor 30 standardizes the data of the dataset by Equation 2 below and outputs it.

Figure pat00009
Figure pat00009

여기서 Data-meam(train)은 각 훈련 데이터의 특성에 대한 평균이고, SD(train)은 표준 편차값이다.Here, Data-meam(train) is the average of the characteristics of each training data, and SD(train) is the standard deviation value.

학습부(40)는 사망률 예측 인공지능 모델을 가지고 있으며, 상기 데이터세트 생성부 및 전처리부를 통해 입력되는 데이터세트를 상기 사망률 예측 인공지능 모델에 적용하여 학습시킨다. 즉, 상기 학습부(40)는 다수의 코로나 환자 각각에 대한 28개의 선택 혈액 바이오 마커, 성별 및 연령과 그에 따른 생존 및 사망여부 정보를 적용하여 학습시킨다.The learning unit 40 has a mortality prediction AI model, and applies a dataset input through the dataset generator and preprocessor to the mortality prediction AI model to learn. That is, the learning unit 40 learns by applying 28 selected blood biomarkers, sex and age for each of a plurality of corona patients, and survival and death information accordingly.

진단부(50)는 상기 학습부(40)에서 학습된 사망률 예측 인공지능 모델이 적용되어, 상기 예측 데이터 획득부(20)로부터 입력되는 예측 데이터를 상기 학습된 사망률 예측 인공지능 모델에 적용하여 상기 예측 데이터에 대응하는 코로나 환자의 사망률을 예측하여 출력한다.The diagnosis unit 50 applies the mortality prediction AI model learned in the learning unit 40, and applies the prediction data input from the prediction data acquisition unit 20 to the learned mortality prediction AI model. The mortality rate of corona patients corresponding to the prediction data is predicted and output.

상기 사망률 예측 인공지능 모델의 상세 구성 및 동작은 다음의 도 2 및 도 3을 참조하여 설명한다. The detailed configuration and operation of the mortality prediction artificial intelligence model will be described with reference to FIGS. 2 and 3 below.

도 2는 본 발명에 따른 혈액샘플을 이용한 코로나 환자 사망률 예측 시스템의 학습부 및 진단부의 학습 사망률 예측 인공지능 모델의 구성을 나타낸 도면이고, 도 3은 본 발명에 따른 학습 사망률 예측 인공지능 모델의 개념을 설명하기 위한 도면이다. 이하 도 2 및 도 3을 참조하여 설명한다.2 is a view showing the configuration of the learning mortality prediction artificial intelligence model of the learning unit and the diagnosis unit of the corona patient mortality prediction system using a blood sample according to the present invention, and FIG. 3 is a learning mortality prediction artificial intelligence model according to the present invention. It is a drawing for explaining. Hereinafter, it will be described with reference to FIGS. 2 and 3 .

본 발명에 따른 사망률 예측 인공지능 모델은 심층 신경망부(Deep Neural Network: DNN)(110), 랜덤 포레스트부(Random Forest: RF)(120) 및 사망률 예측부(130)를 포함한다.The mortality prediction artificial intelligence model according to the present invention includes a deep neural network (DNN) 110 , a random forest (RF) 120 and a mortality prediction unit 130 .

심층 신경망부(110)는 5계층으로 구성되는 심층신경망에 상기 예측 데이터를 적용하여 상기 코로나 환자의 신경망 사망률을 예측하여 출력한다. The deep neural network unit 110 applies the prediction data to the deep neural network consisting of five layers to predict and output the neural network mortality of the corona patient.

랜덤 포레스트부(120)는 랜덤 포레스트 모델에 상기 예측 데이터를 적용하여 상기 코로나 환자의 포레스트 사망률을 예측하여 출력한다.The random forest unit 120 predicts and outputs the forest mortality rate of the corona patient by applying the prediction data to the random forest model.

사망률 예측부(130)는 상기 신경망 사망률 및 상기 포레스트 사망률을 입력받고 소프트 투표를 사용하여 최종 사망률을 예측하여 출력한다.The mortality prediction unit 130 receives the neural network mortality rate and the forest mortality rate, and predicts and outputs the final mortality rate using soft voting.

좀 더 구체적으로 설명하면, 심층 신경망부(110)는 도 2 및 도 3에서 보이는 바와 같이 5개의 계층, 즉 입력 계층(Input Layer), 3개의 완전 연결 계층(Fully Connected Layer: FC Layer) 및 출력 계층(Output Layer)을 포함하여 구성되어, 10화 반복 10배 계층화된 교차 검증을 수행하는 100개의 모델을 생성하고 100개의 모델을 하기 수학식 3 내지 수학식 5에 의해 앙상블하여 신경망 사망률을 예측하여 출력한다.More specifically, the deep neural network unit 110 has five layers, that is, an input layer, three fully connected layers (FC Layer) and an output as shown in FIGS. 2 and 3 . It is composed of a layer (Output Layer), generates 100 models that perform 10 repetitions of 10 repetitions and 10 times stratified cross-validation, and ensembles 100 models by Equations 3 to 5 below to predict neural network mortality. print out

Figure pat00010
Figure pat00010

여기서 Pm(DNN)은 DNN의 m번째 모델에서 예측된 사망 확률값이고, p(DNN)은 예측된 사망 확률값들을 앙상블한 결과이며,

Figure pat00011
(DNN)은 m 번째 모델에 대한 정규화된 가중이며, 하기 수학식 4에 의해 계산된다.Here, Pm(DNN) is the death probability value predicted in the mth model of DNN, and p(DNN) is the result of ensemble of the predicted death probability values,
Figure pat00011
(DNN) is the normalized weight for the m-th model, and is calculated by Equation 4 below.

Figure pat00012
Figure pat00012

여기서 가중치 Wm(DNN)은 m 번째 모델 Im(DNN)의 검증 손실을 사용하여 얻은 값으로 하기 수학식 5에 의해 계산된다.Here, the weight Wm(DNN) is a value obtained using the verification loss of the m-th model Im(DNN) and is calculated by Equation 5 below.

Figure pat00013
Figure pat00013

상기 첫 번째 완전 연결 계층은 30개의 노드를 갖고, 두 번째 완전 연결 계층은 16개의 노드를 가지며, 세 번째 완전 연결 계층은 8개의 노드를 갖는다.The first fully connected layer has 30 nodes, the second fully connected layer has 16 nodes, and the third fully connected layer has 8 nodes.

상기 완전 연결 계층들의 드롭아웃 비율은 과적합 문제를 완화하기 위해 0.3으로 설정된다.The dropout ratio of the fully connected layers is set to 0.3 to alleviate the overfitting problem.

세 번째 완전 연결 계층은 소프트맥스 계층으로 구성된다.The third fully connected layer consists of the softmax layer.

랜덤 포레스트부(120)는 최대 깊이가 4, 최대 특징 수 5로 훈련되는 100개의 랜덤 포레스트 모델을 훈련하고, 하기 수학식 6 내지 수학식 8과 같이 100개의 랜덤 포레스트 모델의 출력을 통합하여 포레스트 사망률을 출력한다.The random forest unit 120 trains 100 random forest models trained with a maximum depth of 4 and a maximum number of features 5, and integrates the outputs of 100 random forest models as shown in Equations 6 to 8 below to achieve forest mortality to output

Figure pat00014
Figure pat00014

여기서 Pm(RF)은 랜덤 포레스트(Ramdom Forest: RF)의 m번째 모델에서 예측된 사망 확률값이고, p(RF)은 예측된 사망 확률값들을 앙상블한 결과이며,

Figure pat00015
(RF)은 m 번째 모델에 대한 정규화된 가중치이며, 하기 수학식 7에 의해 계산된다.Here, Pm(RF) is the probability of death predicted by the m-th model of the random forest (RF), and p(RF) is the result of ensemble of the probability values of death,
Figure pat00015
(RF) is a normalized weight for the m-th model, and is calculated by Equation 7 below.

Figure pat00016
Figure pat00016

여기서 가중치 Wm(RF)은 m 번째 모델 Im(RF)의 검증 손실을 사용하여 얻은 값으로 하기 수학식 5에 의해 계산된다.Here, the weight Wm(RF) is a value obtained using the verification loss of the m-th model Im(RF) and is calculated by Equation 5 below.

Figure pat00017
Figure pat00017

사망률 예측부(130)는 두 앙상블 결과값인 신경망 사망률(P(DNN)) 및 포레스트 사망률(P(RF))을 입력받고 소프트 투표를 사용하여 최종 예측 사망률을 계산한 후 출력한다. 따라 두 확률값 신경망 사망률 및 포레스트 사망률의 평균에 따라 값이 0.5 이상이면 예측 결과는 사망을 나타내고, 미만이면 생존을 나타낼 수 있을 것이다.The mortality prediction unit 130 receives the neural network mortality rate (P(DNN)) and the forest mortality rate (P(RF)), which are two ensemble results, calculates the final predicted mortality rate using soft voting, and then outputs it. According to the average of the two probability values Neural Network Mortality and Forest Mortality, if the value is 0.5 or more, the prediction result indicates death, and if it is less than 0.5, it may indicate survival.

한편, 본 발명은 전술한 전형적인 바람직한 실시예에만 한정되는 것이 아니라 본 발명의 요지를 벗어나지 않는 범위 내에서 여러 가지로 개량, 변경, 대체 또는 부가하여 실시할 수 있는 것임은 당해 기술분야에서 통상의 지식을 가진 자라면 용이하게 이해할 수 있을 것이다. 이러한 개량, 변경, 대체 또는 부가에 의한 실시가 이하의 첨부된 특허청구범위의 범주에 속하는 것이라면 그 기술사상 역시 본 발명에 속하는 것으로 보아야 한다.On the other hand, it is common knowledge in the art that the present invention is not limited to the typical preferred embodiments described above, but can be improved, changed, replaced, or added in various ways without departing from the spirit of the present invention. Those who have will be able to understand it easily. If implementation by such improvement, change, substitution, or addition falls within the scope of the appended claims below, the technical idea should also be regarded as belonging to the present invention.

10: 데이터세트 생성부 11: 혈액 바이오 마커 선택부
12: 코로나 환자 데이터 획득부 13: 데이터세트 구성부
20: 예측 데이터 획득부 21: 혈액 바이오 마커 획득부
22: 환자정보 획득부 23: 예측 데이터 구성부
30: 전처리부 40: 학습부
50: 진단부 110: 심층 신경망부
111: 입력 계층 112: 완전 연결 계층
113: 출력 계층 130: 사망률 예측부
10: dataset generation unit 11: blood biomarker selection unit
12: Corona patient data acquisition unit 13: Data set configuration unit
20: prediction data acquisition unit 21: blood biomarker acquisition unit
22: Patient information acquisition unit 23: Prediction data construction unit
30: preprocessing unit 40: learning unit
50: diagnostic unit 110: deep neural network unit
111: input layer 112: fully connected layer
113: output layer 130: mortality predictor

Claims (11)

코로나 확진 판정을 받고 생존 또는 사망한 다수의 코로나 환자의 생존 및 사망 여부 정보를 포함하는 환자정보 및 상기 코로나 환자의 혈액에서 검출된 혈액 바이오 마커들 중 사망에 영향을 주는 일정 개수 이상의 선택 혈액 바이오 마커를 포함하는 데이터세트를 생성하는 데이터세트 생성부;
초기 코로나 확진 판정을 받은 코로나 환자의 선택 혈액 바이오 마커 및 생존 및 사망 여부 정보가 없는 환자정보를 포함하는 예측 데이터를 획득하는 예측 데이터 획득부;
상기 데이터세트를 입력받아 표준화하여 출력하는 전처리부;
사망률 예측 인공지능 모델을 가지고 있으며, 상기 데이터세트 생성부 및 전처리부를 통해 입력되는 데이터세트를 상기 사망률 예측 인공지능 모델에 적용하여 학습시키는 학습부; 및
상기 학습부에서 학습된 사망률 예측 인공지능 모델이 적용되어, 상기 예측 데이터 획득부로부터 입력되는 예측 데이터를 상기 학습된 사망률 예측 인공지능 모델에 적용하여 상기 예측 데이터에 대응하는 코로나 환자의 사망률을 예측하여 출력하는 진단부를 포함하는 것을 특징으로 하는 혈액샘플을 이용한 코로나 환자 사망률 예측 시스템.
A certain number of selected blood biomarkers that affect death among patient information and blood biomarkers detected in the blood of corona patients a data set generating unit generating a data set including;
a predictive data acquisition unit for acquiring predictive data including patient information without information on whether or not survival and death information and selected blood biomarkers of a corona patient who has been initially diagnosed with coronavirus;
a pre-processing unit for receiving the data set, standardizing it and outputting it;
a learning unit having a mortality prediction AI model, and applying a dataset input through the dataset generation unit and preprocessing unit to the mortality prediction AI model to learn; and
The mortality prediction artificial intelligence model learned in the learning unit is applied, and the prediction data input from the prediction data acquisition unit is applied to the learned mortality prediction artificial intelligence model to predict the mortality rate of the corona patient corresponding to the prediction data. Corona patient mortality prediction system using a blood sample, characterized in that it includes a diagnostic unit to output.
제1항에 있어서,
상기 데이터세트 생성부는,
73개의 혈액 바이오 마커 중 분산분석(Analysis of Variance: ANOVA) 값(P)에 기반하여 제1기준치 미만인 분산분석 값을 가가지는 32개의 혈액 바이오 마커를 선택하고, 상기 32개의 혈액 바이오 마커 중 하기 수학식에 의해 계산되는 사용 가능 데이터 비율(Available Data Rate: ADR)이 90% 미만인 4개의 혈액 바이오 마커를 제거한 후, 28개의 혈액 바이오 마커를 상기 선택 혈액 바이오 마커로서 출력하는 혈액 바이오 마커 선택부;
코로나 확진 판정을 받은 환자의 연령, 성별 및 코로나 확진 판정 후 생존했는지 사망했는지를 나타내는 생존 및 사망 여부 정보를 포함하는 환자정보를 획득하는 코로나 환자 데이터 획득부; 및
상기 선택 혈액 바이오 마커 및 상기 환자정보를 포함하는 데이터세트를 생성하는 데이터세트 구성부를 포함하는 것을 특징으로 하는 혈액샘플을 이용한 코로나 환자 사망률 예측 시스템.
[수학식]
Figure pat00018

According to claim 1,
The data set generation unit,
Based on the Analysis of Variance (ANOVA) value (P) among the 73 blood biomarkers, 32 blood biomarkers having an ANOVA value less than the first reference value are selected, and among the 32 blood biomarkers, the following math a blood biomarker selecting unit that removes four blood biomarkers having an available data rate (ADR) of less than 90% calculated by the equation and outputs 28 blood biomarkers as the selected blood biomarkers;
a corona patient data acquisition unit for acquiring patient information including survival and death information indicating whether the patient has survived or died after the age, sex, and corona diagnosis of the patient; and
Corona patient mortality prediction system using a blood sample, characterized in that it comprises a dataset configuration unit for generating a dataset including the selected blood biomarker and the patient information.
[Equation]
Figure pat00018

제2항에 있어서,
상기 예측 데이터 획득부는,
코로나 확진 판정을 받은 코로나 환자의 혈액으로부터 검출된 혈액 바이오 마커들 중 상기 혈액 바이오 마커 선택부에서 선택된 선택 혈액 바이오 마커에 대응하는 혈액 바이오 마커를 선택하여 출력하는 혈액 바이오 마커 획득부;
상기 코로나 환자의 연령 및 성별을 포함하는 환자정보를 획득하여 출력하는 환자정보 획득부; 및
상기 선택된 혈액 바이오 마커 및 환자정보를 포함하는 예측 데이터를 생성하여 출력하는 예측 데이터 구성부를 포함하는 것을 특징으로 하는 혈액샘플을 이용한 코로나 환자 사망률 예측 시스템.
3. The method of claim 2,
The prediction data obtaining unit,
a blood biomarker obtaining unit that selects and outputs a blood biomarker corresponding to the selected blood biomarker selected by the blood biomarker selector from among blood biomarkers detected from the blood of a corona patient who has been diagnosed with corona;
a patient information acquisition unit for acquiring and outputting patient information including the age and gender of the corona patient; and
Corona patient mortality prediction system using a blood sample, characterized in that it comprises a prediction data configuration unit for generating and outputting prediction data including the selected blood biomarker and patient information.
제1항에 있어서,
상기 학습부의 사망률 예측 인공지능 모델은,
5계층으로 구성되는 심층신경망에 상기 예측 데이터를 적용하여 상기 코로나 환자의 신경망 사망률을 예측하는 심층 신경망부;
랜덤 포레스트 모델에 상기 예측 데이터를 적용하여 상기 코로나 환자의 포레스트 사망률을 예측하는 랜덤 포레스트부; 및
상기 신경망 사망률 및 상기 포레스트 사망률을 입력받고 소프트 투표를 사용하여 최종 사망률을 예측하여 출력하는 사망률 예측부를 포함하는 것을 특징으로 하는 혈액샘플을 이용한 코로나 환자 사망률 예측 시스템.
According to claim 1,
The mortality prediction artificial intelligence model of the learning unit,
A deep neural network unit for predicting the neural network mortality of the corona patient by applying the prediction data to a deep neural network consisting of five layers;
a random forest unit for predicting the forest mortality rate of the corona patient by applying the prediction data to a random forest model; and
Corona patient mortality prediction system using a blood sample, characterized in that it includes a mortality prediction unit that receives the neural network mortality rate and the forest mortality rate and predicts and outputs the final mortality rate using soft voting.
제4항에 있어서,
상기 심층 신경망부는,
입력 계층(Input Layer);
각각 30개, 16개 및 8개의 노드로 구성되고 드롭아웃 비율 0.3이 적용되는 3개의 완전연결 계층(Fully Connected Layer: FC Layer); 및
출력 계층을 포함하여,
10회 반복 10배 계층화된 교차 검증을 수행하는 100개의 모델을 생성하고, 상기 100개의 모델을 하기 수학식에 의해 앙상블하여 신경망 사망률을 예측하여 출력하는 것을 특징으로 하는 혈액샘플을 이용한 코로나 환자 사망률 예측 시스템.
[수학식]
Figure pat00019

5. The method of claim 4,
The deep neural network unit,
input layer;
3 Fully Connected Layers (FC Layers) consisting of 30, 16 and 8 nodes respectively and with a dropout ratio of 0.3; and
including the output layer,
Corona patient mortality prediction using blood samples, characterized in that 100 models are generated that perform 10 times repeated 10-fold stratified cross-validation, and the 100 models are ensembled by the following equation to predict and output the neural network mortality system.
[Equation]
Figure pat00019

제4항에 있어서,
상기 랜덤 포레스트부는,
최대 깊이가 4, 최대 특징 수 5로 훈련되는 100개의 랜덤 포레스트 모델을 훈련하고, 하기 수학식과 같이 100개의 랜덤 포레스트 모델의 출력을 통합하여 포레스트 사망률을 출력하는 것을 특징으로 하는 혈액샘플을 이용한 코로나 환자 사망률 예측 시스템.
[수학식]
Figure pat00020

Figure pat00021

Figure pat00022

5. The method of claim 4,
The random forest unit,
A corona patient using a blood sample, characterized in that 100 random forest models are trained with a maximum depth of 4 and a maximum number of features 5, and the forest mortality is output by integrating the outputs of 100 random forest models as shown in the following equation Mortality Prediction System.
[Equation]
Figure pat00020

Figure pat00021

Figure pat00022

제5항에 있어서,
상기 3개의 완전 연결 계층 중 마지막 완전 연결 계층은 소프트 맥스 계층으로 구성되는 것을 특징으로 하는 혈액샘플을 이용한 코로나 환자 사망률 예측 시스템.
6. The method of claim 5,
The last fully connected layer among the three fully connected layers is a corona patient mortality prediction system using a blood sample, characterized in that it consists of a soft max layer.
데이터 생성부가 코로나 확진판정을 받고 생존 또는 사망한 다수의 코로나 환자의 생존 및 사망 여부 정보를 포함하는 환자정보 및 상기 코로나 환자의 혈액에서 검출된 혈액 바이오 마커들 중 사망에 영향을 주는 일정 개수 이상의 혈액 바이오 마커를 포함하는 데이터세트를 생성하는 데이터세트 생성 과정;
전처리부가 상기 데이터세트 생성부로부터 상기 데이터세트를 입력받아 표준화하여 출력하는 전처리 과정;
사망률 예측 인공지능 모델을 가지고 있는 학습부가 상기 데이터세트 생성부 및 전처리부를 통해 입력되는 데이터세트를 상기 사망률 예측 인공지능 모델에 적용하여 학습시키는 학습 과정;
예측 데이터 획득부가 초기 코로나 확진 판정을 받은 코로나 환자의 혈액 바이오 마커 및 상기 코로나 환자의 생존 및 사망 여부 정보가 없는 환자정보를 포함하는 예측 데이터를 획득하는 예측 데이터 획득 과정; 및
상기 학습부에서 학습된 사망률 예측 인공지능 모델이 적용된 진단부가 상기 예측 데이터 획득부로부터 입력되는 예측 데이터를 상기 학습된 사망률 예측 인공지능 모델에 적용하여 상기 예측 데이터에 대응하는 코로나 환자의 사망률을 예측하여 출력하는 진단 과정을 포함하는 것을 특징으로 하는 형액샘플을 이용한 코로나 환자 사망률 예측 방법.
Patient information including information on the survival and death of a plurality of corona patients who survived or died after the data generating unit was diagnosed with corona, and a certain number of blood affecting death among the blood biomarkers detected in the blood of the corona patient a dataset creation process of generating a dataset including a biomarker;
a preprocessing process in which a preprocessing unit receives the data set from the data set generating unit, standardizes it and outputs it;
a learning process in which a learning unit having a mortality prediction AI model applies a dataset input through the dataset generation unit and the preprocessor to the mortality prediction AI model to learn;
A predictive data acquisition process in which the predictive data acquisition unit acquires predictive data including blood biomarkers of a corona patient who has been initially confirmed as corona and patient information without information on whether the corona patient is alive or dead; and
The diagnosis unit to which the mortality prediction artificial intelligence model learned in the learning unit is applied applies the prediction data input from the prediction data acquisition unit to the learned mortality prediction artificial intelligence model to predict the mortality rate of the corona patient corresponding to the prediction data, Corona patient mortality prediction method using a blood sample, characterized in that it includes a diagnostic process to output.
제8항에 있어서,
상기 데이터세트 생성 과정은,
데이터세트 생성부의 혈액 바이오 마커 선택부가 73개의 혈액 바이오 마커 중 분산분석(Analysis of Variance: ANOVA) 값(P)에 기반하여 제1기준치 미만인 분산분석 값을 가가지는 32개의 혈액 바이오 마커를 선택하고, 상기 32개의 혈액 바이오 마커 중 하기 수학식에 의해 계산되는 사용 가능 데이터 비율(Available Data Rate: ADR)이 90% 미만인 4개의 혈액 바이오 마커를 제거한 후 28개의 혈액 바이오 마커를 선택 혈액 바이오 마커로서 출력하는 혈액 바이오 마커 선택 단계;
코로나 환자 데이터 획득부가 코로나 확진 판정을 받은 환자의 연령, 성별 및 코로나 확진 판정 후 생존했는지 사망했는지를 나타내는 생존 및 사망 여부 정보를 포함하는 환자정보를 획득하는 코로나 환자 데이터 획득 단계; 및
데이터세트 구성부가 상기 선택 혈액 바이오 마커 및 상기 환자정보를 포함하는 데이터세트를 생성하는 데이터세트 구성 단계를 포함하는 것을 특징으로 하는 혈액샘플을 이용한 코로나 환자 사망률 예측 방법.
[수학식]
Figure pat00023

9. The method of claim 8,
The data set creation process is
The blood biomarker selection unit of the dataset generating unit selects 32 blood biomarkers having an ANOVA value less than the first reference value based on the Analysis of Variance (ANOVA) value (P) among 73 blood biomarkers, Among the 32 blood biomarkers, 4 blood biomarkers having an available data rate (ADR) of less than 90% calculated by the following equation are removed, and then 28 blood biomarkers are output as selected blood biomarkers. blood biomarker selection step;
A corona patient data acquisition step of acquiring patient information including survival and death information indicating whether the corona patient data acquisition unit survived or died after the age, sex, and corona diagnosis of the patient who was confirmed with the corona virus; and
Corona patient mortality prediction method using a blood sample, characterized in that it comprises a dataset construction step of a dataset construction unit generating a dataset including the selected blood biomarker and the patient information.
[Equation]
Figure pat00023

제9항에 있어서,
상기 예측 데이터 획득 과정은,
예측 데이터 획득부의 혈액 바이오 마커 획득부가 코로나 확진 판정을 받은 코로나 환자의 혈액으로부터 검출된 혈액 바이오 마커들 중 상기 혈액 바이오 마커 선택부에서 선택된 선택 혈액 바이오 마커에 대응하는 혈액 바이오 마커를 선택하여 출력하는 혈액 바이오 마커 획득 단계;
상기 예측 데이터 획득부의 환자정보 획득부가 상기 코로나 환자의 연령 및 성별을 포함하는 환자정보를 획득하여 출력하는 환자정보 획득 단계; 및
상기 예측 데이터 획득부의 예측 데이터 구성부가 상기 선택된 혈액 바이오 마커 및 환자정보를 포함하는 예측 데이터를 생성하여 출력하는 예측 데이터 구성 단계를 포함하는 것을 특징으로 하는 혈액샘플을 이용한 코로나 환자 사망률 예측 방법.
10. The method of claim 9,
The prediction data acquisition process is
Blood that the blood biomarker acquisition unit of the prediction data acquisition unit selects and outputs a blood biomarker corresponding to the selected blood biomarker selected by the blood biomarker selection unit among blood biomarkers detected from the blood of a corona patient who has been confirmed with coronavirus biomarker acquisition step;
a patient information obtaining step of obtaining and outputting patient information including the age and gender of the corona patient by the patient information obtaining unit of the prediction data obtaining unit; and
Corona patient mortality prediction method using a blood sample, characterized in that it comprises a predictive data construction step of generating and outputting predictive data including the selected blood biomarker and patient information by the predictive data constituent unit of the predictive data obtaining unit.
제8항에 있어서,
상기 진단 과정은,
진단부의 심층 신경망부가 심층신경망에 상기 예측 데이터를 적용하여 상기 코로나 환자의 신경망 사망률을 예측하는 심층 신경망 사망률 예측 단계;
진단부의 랜덤 포레스트부가 랜덤 포레스트 모델에 상기 예측 데이터를 적용하여 상기 코로나 환자의 포레스트 사망률을 예측하는 랜덤 포레스트 사망률 예측 단계; 및
진단부의 사망률 예측부가 상기 신경망 사망률 및 상기 포레스트 사망률을 입력받고 소프트 투표를 사용하여 최종 사망률을 예측하여 출력하는 사망률 예측 단계를 포함하는 것을 특징으로 하는 혈액샘플을 이용한 코로나 환자 사망률 예측 방법.
9. The method of claim 8,
The diagnostic process is
Deep neural network mortality prediction step of predicting the neural network mortality of the corona patient by applying the prediction data to the deep neural network by the deep neural network unit of the diagnosis unit;
a random forest mortality prediction step of predicting the forest mortality rate of the corona patient by applying the prediction data to the random forest model by the random forest diagnosis unit; and
Corona patient mortality prediction method using a blood sample, comprising a mortality prediction step of receiving the neural network mortality rate and the forest mortality rate from the diagnosis unit mortality prediction unit and predicting and outputting the final mortality rate using soft voting.
KR1020200167302A 2020-12-03 2020-12-03 COVID-19 patients death rate prediction system using blood sample and method thereof KR20220078117A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200167302A KR20220078117A (en) 2020-12-03 2020-12-03 COVID-19 patients death rate prediction system using blood sample and method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200167302A KR20220078117A (en) 2020-12-03 2020-12-03 COVID-19 patients death rate prediction system using blood sample and method thereof

Publications (1)

Publication Number Publication Date
KR20220078117A true KR20220078117A (en) 2022-06-10

Family

ID=81986685

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200167302A KR20220078117A (en) 2020-12-03 2020-12-03 COVID-19 patients death rate prediction system using blood sample and method thereof

Country Status (1)

Country Link
KR (1) KR20220078117A (en)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20070085817A (en) 2004-11-05 2007-08-27 미합중국 (관리부서 : 미합중국 해군성) Diagnosis and prognosis of infectious diseases clinical phenotypes and other physiologic states using host gene expression biomakers in blood
KR20140020318A (en) 2011-04-04 2014-02-18 네스텍 소시에테아노님 Methods for predicting and improving the survival of gastric cancer patients

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20070085817A (en) 2004-11-05 2007-08-27 미합중국 (관리부서 : 미합중국 해군성) Diagnosis and prognosis of infectious diseases clinical phenotypes and other physiologic states using host gene expression biomakers in blood
KR20140020318A (en) 2011-04-04 2014-02-18 네스텍 소시에테아노님 Methods for predicting and improving the survival of gastric cancer patients

Similar Documents

Publication Publication Date Title
JP2023164839A (en) Method for analysis of cough sound using disease signature to diagnose respiratory disease
JP7382082B2 (en) Apparatus and method for utilizing brain feature activity map database to characterize content
Ogunleye et al. Enhanced XGBoost-based automatic diagnosis system for chronic kidney disease
Boban et al. Lung diseases classification based on machine learning algorithms and performance evaluation
CN111370126A (en) ICU mortality prediction method and system based on penalty integration model
Marathe et al. Prediction of heart disease and diabetes using naive Bayes algorithm
KR20190132710A (en) Method and system for predicting and analyzing stroke severity using nihss
Reddy et al. Prediction of heart disease using decision tree approach
El Zein et al. Transfer learning based model for pneumonia detection in chest X-ray images
CN114724710A (en) Emergency scheme recommendation method and device for emergency events and storage medium
Saroja et al. Data‐Driven Decision Making in IoT Healthcare Systems—COVID‐19: A Case Study
KR20210143635A (en) Method and system for predicting patients needs for hospital resources
KR20220078117A (en) COVID-19 patients death rate prediction system using blood sample and method thereof
Mudiyanselage et al. Covid-19 detection from chest X-ray and patient metadata using graph convolutional neural networks
Krishnan et al. Hybrid optimization based feature selection with DenseNet model for heart disease prediction
JP2009268680A (en) Apparatus, method and program for predicting prognosis of patient treated with peg
KR102503609B1 (en) Virtual patient information generating system and method using machine learning
CN115273176A (en) Pain multi-algorithm objective assessment method based on vital signs and expressions
KR20190104713A (en) Self-adaptive medical data analysis apparatus and method thereof
Challab et al. A Hybrid Method Based on LSTM and Optimized SVM for Diagnosis of Novel Coronavirus (COVID-19).
Umamaheswari et al. Prediction of myocardial infarction using K-medoid clustering algorithm
Umut et al. Prediction of sepsis disease by Artificial Neural Networks
Zhao et al. A CNN-Based Method for Depression Detecting Form Audio
MR EANNMHO-A Novel Ensemble Based Technique for Liver Cirrhosis Detection.
Capellán-Martín et al. A Lightweight, Rapid and Efficient Deep Convolutional Network for Chest X-Ray Tuberculosis Detection