KR102187344B1 - 결정 트리를 이용한 반려동물 진단 방법 및 장치 - Google Patents

결정 트리를 이용한 반려동물 진단 방법 및 장치 Download PDF

Info

Publication number
KR102187344B1
KR102187344B1 KR1020190108972A KR20190108972A KR102187344B1 KR 102187344 B1 KR102187344 B1 KR 102187344B1 KR 1020190108972 A KR1020190108972 A KR 1020190108972A KR 20190108972 A KR20190108972 A KR 20190108972A KR 102187344 B1 KR102187344 B1 KR 102187344B1
Authority
KR
South Korea
Prior art keywords
test
values
value
normal range
data
Prior art date
Application number
KR1020190108972A
Other languages
English (en)
Inventor
최우용
강상구
Original Assignee
메디사피엔스 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 메디사피엔스 주식회사 filed Critical 메디사피엔스 주식회사
Priority to KR1020190108972A priority Critical patent/KR102187344B1/ko
Application granted granted Critical
Publication of KR102187344B1 publication Critical patent/KR102187344B1/ko

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/72Signal processing specially adapted for physiological signals or for diagnostic purposes
    • A61B5/7271Specific aspects of physiological measurement analysis
    • A61B5/7275Determining trends in physiological measurement data; Predicting development of a medical condition based on physiological measurements, e.g. determining a risk factor
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/74Details of notification to user or communication with user or patient ; user input means
    • A61B5/742Details of notification to user or communication with user or patient ; user input means using visual displays
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Pathology (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Surgery (AREA)
  • Physics & Mathematics (AREA)
  • Veterinary Medicine (AREA)
  • Biophysics (AREA)
  • Animal Behavior & Ethology (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physiology (AREA)
  • Psychiatry (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

진단 장비로부터 얻어진 복수의 검사값과, 임상 결과를 표시하는 복수의 수치들 및 이에 각각 대응하는 진단 결과값들을 저장하는 단계, 저장되어 있는 복수의 검사값들 및 임상 결과에 대한 수치들로부터 임의의 복수개의 속성값들을 선택하는 단계, 지니 계수에 의하여 상기 복수의 속성값들 중 진단을 잘 예측하는 순서 대로 속성값들을 배열하고 학습함으로써, 이들 속성값들에 의해 결정 트리를 생성하는 단계, 상기 결정 트리에 근거하여, 진단에 대한 예측값을 도출하는 단계, 상기 예측값을 사용자에게 디스플레이하는 단계를 포함하는 반려동물 진단 방법이 개시된다.

Description

결정 트리를 이용한 반려동물 진단 방법 및 장치 {METHOD AND APPARATUS FOR DIAGNOSIS IN CLINICAL INSPECTION OF PETS USING DECISION TREE}
본 발명은 반려동물에 대한 진단 시 임상 의사 결정을 지원하는 시스템 및 방법에 관한 것으로서, 보다 구체적으로는, 랜덤 포레스트 알고리즘 (random forest algorithm)을 사용하여 수의사로 하여금 반려동물의 진단을 보다 정확하게 수행하도록 하는 방법 및 시스템에 관한 것이다.
최근 반려동물용 체외진단기가 많이 개발되고 일선 동물병원에서 사용되기 시작하고 있다. 체외진단기의 예로는 삼성전자 PT10V, 애니벳 베트크로마, 제트바이오텍의 신속진단키트 애니랩 (AnyLab) 등이 있다. 하지만, 아직도 많은 동물병원들이 반려동물의 진료에 인체용 의료기기를 사용하고 있는 상황이어서, 앞으로 동물용 의료기기기 수요가 더 늘어날 것으로 예측되고 있다.
한국특허등록 제 10-1934641호에는, 진단 및 관리가 용이한 애견 질병 조기 진단기 및 그 방법을 개시하고 있다.
한국 특허 공개 제 10-2016-0023485에는, (주로 인간을 대상으로 하는) 검사 대상체의 검사 항목에 대하여, 적어도 하나의 신체 정보를 포함하는 조건 별로, 피검사자에게 적용되는 검사 결과 참고범위를 설정하고, 설정된 검사 결과 참고 범위를 포함하는 사용자 인터페이스 화면을 사용자에게 제공하는 발명이 개시되어 있다.
한국특허 공개 제 10-2014-0082756호에는, 하나 이상의 샘플 준비, 샘플 분석 및 검출 단계를 수행할 수 있는 장치에 의해, 여러가지 분석을 행하는 방법 및 장치를 개시하고 있다.
그리고, 한국특허공개 제 10-2013-0131117호에는, 휴대용 계측기 및 이들을 사용한 혈액시료 중 분석대상물의 농도 측정방법으로서, 혈액시료를 전기화학적으로 분석하는 휴대용 미터로 바이오센서에 대시간 전류법과 순환전압전류법을 혼합적용하여 얻어진 결과에서 대상물질의 농도 측정에 헤마토크릿이 미친 영향을 인공지능적 알고리즘으로 보정함으로써 측정의 정확도를 향상시키는 방법을 개시하고 있다.
이와 같이 인간 뿐 아니라 반려동물, 특히 최근에는 반려동물용 체외진단기가 빠른 속도로 개발 및 동물병원에서 적용되기 시작하고 있지만, 동물에 대한 진단 항목은 표준화가 잘 되어 있지 않고 체외진단기의 제조 업체에 따라 동일한 검사에 대해서도 여러가지 다른 명칭의 검사결과가 제공되는 등의 이유로, 숙련된 수의사라 하더라도 사용이 용이하지 않다는 문제가 있었다.
본 발명은 이와 같은 문제점에 착안한 것으로서,반려동물에 대한 수의사의 임상 검사 결과 및 진단기로부터의 복수의 검사값에 근거하여 해당 반려동물의 증상에 대한 진단 결과를 수의사에게 제시함으로써, 수의사로 하여금 해당 반려동물의 증상에 대한 정확한 진단 및 치료가 가능하도록 하고자 하는 것이다.
또한, 반려동물의 증상에 대한 진단 결과를 제공함에 있어서 랜덤 포레스트 알고리즘을 사용함으로써, 보다 정확한 진단이 가능하도록 한 것이다.
본 발명은 상기한 바와 같은 문제점을 해결하고자 하는 것으로서, 반려동물 진단 방법에 있어서, 진단 장비로부터 얻어진 복수의 검사값과, 임상 결과를 표시하는 복수의 수치들 및 이에 각각 대응하는 진단 결과값들을 저장하는 단계, 저장되어 있는 복수의 검사값들 및 임상 결과에 대한 수치들로부터 임의의 복수개의 속성값들을 선택하는 단계, 지니 계수에 의하여 상기 복수의 속성값들 중 진단을 잘 예측하는 순서 대로 속성값들을 배열하고 학습함으로써, 이들 속성값들에 의해 결정 트리를 생성하는 단계, 상기 결정 트리에 근거하여, 진단에 대한 예측값을 도출하는 단계, 상기 예측값을 사용자에게 디스플레이하는 단계를 포함한다.
또한, 상기 결정 트리는 랜덤 포레스트 (random forest) 결정 트리일 수 있다.
또한, 반려동물 진단 방법은, 상기 결정 트리 중, 기여도가 높은 속성값들을 선별하는 단계, 상기 선별된 속성값들에만 기초하여 새로운 결정 트리를 생성하는 단계를 더 포함할 수 있다.
또한, 상기 기여도가 높은 속성값들을 선별하는 단계는, 지니 계수 혹은 MDI (Mean Decrease Impurity)에 근거하여 행하여질 수 있다.
본 발명은 또한, 진단 장비로부터 얻어진 복수의 검사값과, 임상 결과를 표시하는 복수의 수치들 및 이에 각각 대응하는 진단 결과값들을 저장하는 메모리, 저장되어 있는 복수의 검사값들 및 임상 결과에 대한 수치들로부터 임의의 복수개의 속성값들을 선택하는 제 1 속성값 선택 모듈, 지니 계수에 의하여 상기 복수의 속성값들 중 진단을 잘 예측하는 순서 대로 속성값들을 배열하고 학습함으로써, 이들 속성값들에 의해 결정 트리를 생성하는 제 1 학습 모듈, 상기 결정 트리에 근거하여, 진단에 대한 예측값을 도출하는 결정 모듈, 상기 예측값을 사용자에게 디스플레이하는 디스플레이를 포함하는 반려동물 진단 장치에 관한 것이다.
또한, 상기 결정 트리는 랜덤 포레스트 (random forest) 결정 트리일 수 있다.
또한, 상기 반려동물 진단 장치는 상기 결정 트리 중, 기여도가 높은 속성값들을 선별하는 제 2 속성값 선택 모듈, 상기 선별된 속성값들에만 기초하여 새로운 결정 트리를 생성하는 제 2 학습 모듈을 더 포함할 수 있다.
또한, 상기 제 2 속성값 선택 모듈은, 지니 계수 혹은 MDI (Mean Decrease Impurity)에 근거하여 기여도가 높은 속성값들을 선택할 수 있다.
이상, 본 발명에 따르면, 복수의 검사값에 근거하여 해당 반려동물의 증상에 대한 진단 결과를 수의사에게 제시함으로써, 수의사로 하여금 해당 반려동물의 증상에 대한 정확한 진단 및 치료가 가능하다는 효과가 있다.
또한, 반려동물의 증상에 대한 진단 결과를 제공함에 있어서 랜덤 포레스트 알고리즘을 사용함으로써, 보다 정확한 진단이 가능하다는 효과가 있다.
도1은, GAN을 활용한 반려동물 검사의 정상범위 설정 방법 및 장치가 구현된 시스템 (20)의 개요를 설명하기 위한 도면이다.
도 2은 반려동물에 대한 서로 다른 종류의 진단항목 1-4를 통해 검사 결과 1-4를 확보하고, 이들을 각각 정규화하여 이를 정상범위가 적용된 형태로 변환환 뒤, 정상 범위가 적용된 검사 결과를 통해 해당 반려동물에 대한 진단을 수행하는 것을 도시한 도면이다.
도 3은, 각각의 검사 항목 1-4 중 하나의 검사 항목 1에 대하여 검사 수행, 검사 결과 1 확보, 정규화, 정상범위 적용, 그리고 머신러닝 모델에 기초하여 정상/비정상의 판별을 수행하는 동작을 보다 구체적으로 설명하는 도면이다.
도 4는 도 2의 동일한 검사에서 결과 값을 정규화 하는 단계를 나타낸 블록도 이다.
도 5 및 도 6은, 도 3의 세 가지 장비 A, B, C에 대하여 동일한 검사 종목에 대한 검사를 수행한 각각의 검사값 500, 45, 0.7에 대하여 각각의 정상 범위에 근거하여 정상/비정상의 판정 결과를 나타내는 도면이다.
도 7는, 특정 검사 종목에 대응하여 기존에 얻어진 측정 데이터에 근거하여 해당 검사 종목에 대한 정상 범위값을 산출하여 출력하는 기능을 수행하는, 정상 범위 설정 장치 내에 포함된 정상 범위 판정 모듈을 도시한 도면이다.
도 8 및 도 9는, 본 발명의 검사 장비에 의해, 사용되는 검사 장비에 상관 없이 동일한 명칭의 동일한 기준치를 가지는 결과값으로 변환하여 출력하는 방법을 도시한 도면이다.
도 10은, GAN 모델이 학습을 통해 실제 데이터와 생성자가 생성한 데이터의 분포를 일치시켜 나가는 과정을 설명하는 도면이다.
도 11은, 검사 장비 A, B, C의 성능 혹은 데이터의 신뢰도를 고려하여, 통계적 방법 및 GAN 모듈에 의한 방법 중 하나를 선택하도록 구성한 정상 범위 설정 장치를 나타내는 도면이다.
도 12는, 본 발명에 따라 입력된, 검사 장비 A, B, C로부터의 검사값의 수로부터 검사값 개수지수를 계산하고, 이에 근거하여 GAN 모듈을 사용할지, 아니면 통계학적 계산 모듈을 사용할지 결정하는 방법을 도시한 도면이다.
도 13은 본 발명에 따라 진단 예측을 위한 랜덤 포레스트 학습을 수행하는 전반적인 블록 다이어그램이다.
도 14는, 본 발명에 따라 학습하고자 하는 데이터와 이에 대한 진단 결과가 저장된 데이터베이스 (1400)를 도시하는 도면이다.
도 15는, 랜덤 포레스트 알고리즘에 의해 얻어진 랜덤 포레스트 결정 트리를 도시하는 도면이다.
이하 첨부된 도면을 참조하여, 바람직한 실시예에 따른 의료 진단 리포트 장치 대해 상세히 설명하면 다음과 같다. 여기서, 동일한 구성에 대해서는 동일부호를 사용하며, 반복되는 설명, 발명의 요지를 불필요하게 흐릴 수 있는 공지 기능 및 구성에 대한 상세한 설명은 생략한다. 발명의 실시형태는 당업계에서 평균적인 지식을 가진 자에게 본 발명을 보다 완전하게 설명하기 위해서 제공되는 것이다. 따라서, 도면에서의 요소들의 형상 및 크기 등은 보다 명확한 설명을 위해 과장될 수 있다.
첨부된 블록도의 각 블록과 흐름도의 각 단계의 조합들은 컴퓨터 프로그램 인스트럭션들(실행 엔진)에 의해 수행될 수도 있으며, 이들 컴퓨터 프로그램 인스트럭션들은 범용 컴퓨터, 특수용 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서에 탑재될 수 있으므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서를 통해 수행되는 그 인스트럭션들이 블록도의 각 블록 또는 흐름도의 각 단계에서 설명된 기능들을 수행하는 수단을 생성하게 된다.
이들 컴퓨터 프로그램 인스트럭션들은 특정 방식으로 기능을 구현하기 위해 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 지향할 수 있는 컴퓨터 이용가능 또는 컴퓨터 판독 가능 메모리에 저장되는 것도 가능하므로, 그 컴퓨터 이용가능 또는 컴퓨터 판독 가능 메모리에 저장된 인스트럭션들은 블록도의 각 블록 또는 흐름도의 각 단계에서 설명된 기능을 수행하는 인스트럭션 수단을 내포하는 제조 품목을 생산하는 것도 가능하다.
그리고 컴퓨터 프로그램 인스트럭션들은 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에 탑재되는 것도 가능하므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에서 일련의 동작 단계들이 수행되어 컴퓨터로 실행되는 프로세스를 생성해서 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 수행하는 인스트럭션들은 블록도의 각 블록 및 흐름도의 각 단계에서 설명되는 기능들을 실행하기 위한 단계들을 제공하는 것도 가능하다.
또한, 각 블록 또는 각 단계는 특정된 논리적 기능들을 실행하기 위한 하나 이상의 실행 가능한 인스트럭션들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있으며, 몇 가지 대체 실시 예들에서는 블록들 또는 단계들에서 언급된 기능들이 순서를 벗어나서 발생하는 것도 가능함을 주목해야 한다. 예컨대, 잇달아 도시되어 있는 두 개의 블록들 또는 단계들은 사실 실질적으로 동시에 수행되는 것도 가능하며, 또한 그 블록들 또는 단계들이 필요에 따라 해당하는 기능의 역순으로 수행되는 것도 가능하다.
이하, 첨부 도면을 참조하여 본 발명의 실시 예를 상세하게 설명한다. 그러나 다음에 예시하는 본 발명의 실시 예는 여러 가지 다른 형태로 변형될 수 있으며, 본 발명의 범위가 다음에 상술하는 실시 예에 한정되는 것은 아니다. 본 발명의 실시 예는 당업계에서 통상의 지식을 가진 자에게 본 발명을 보다 완전하게 설명하기 위하여 제공된다.
GAN (Generative Adversarial Network) 머신 러닝 모델
최근 활발히 연구되고 있는 머신러닝 (machine learning)의 알고리즘 중 하나로서, 비지도학습 (unsupervised learning)의 일종인 GAN (Generative adversarial network)가 있다. 비지도학습 GAN은 원 데이터가 가지고 있는 확률분포를 추정하도록 하고, 인공신경망이 그 분포를 만들어내도록 하는 방식이다. GAN은 분류를 담당하는 모델 (판별자 D)과 회귀생성을 담당하는 두 개의 모델 (생성자 G)로 구성된다. 생성자 G와 판별자 D가 서로 성능을 개선해 적대적으로 경쟁해 나가면서, 수학적으로 생성자 G는 원데이터의 확률 분포를 알아내려고 노력하며, 학습이 종료된 후에는 원 데이터의 확률분포를 따르는 새로운 데이터를 만들어 내게 된다.
도 10은 GAN에서 학습을 통해 확률 분포를 맞추어 나가는 과정을 도시한 도면으로서 (Ian J. Goodfellow의 'Generative Adversarial Networks' 논문 인용). 검은 점선은 원 데이터의 확률 분포를 나타내고, 녹색 점선은 GAN이 만들어 내는 확률 분포를 나타내고, 파란 점선은 판별자의 확률 분포를 나타낸다. 도 10의 (a)-(d)는 각각 원 데이터에 근거하여 학습을 진행함에 따라, 학습 초기 (a)에서 점차 학습을 거듭할수록 (b-c-d), 원 데이터의 확률 분포가 GAN이 만들어 내는 확률 분포와 거의 동일해져서, 궁극적으로는 생성자 G가 실제 데이터와 거의 유사한 데이터를 만들어 낼 수 있음을 나타내고 있다.
본 발명에서는, 반려동물의 검사하고자 하는 진단 항목이 비주류 검사인 경우, 정상 범위를 결정하기 위한 진단 데이터의 수가 적어서 모집단이 충분치 않은 경우에도, GAN 모델에 의한 진단 데이터의 학습을 통해 진단 데이터의 확률 분포를 추정해 내고, 이에 근거하여 의사 데이터를 생성함으로써 이에 근거하여 정상 범위를 결정할 수 있도록 한다.
시스템 개요
도1은, GAN을 활용한 반려동물 검사의 정상범위 설정 방법 및 장치가 구현된 시스템 (20)의 개요를 설명하기 위한 도면이다. 본 발명의 정상 범위 설정 장치 (20)에서는 복수의 검사 장비 A, B, C가 정상 범위 설정 장치 (20)에 접속되어 있다. 검사 장비 A, B, C의 예는 반려동물에 대한 체외진단기가 있다. 각각의 검사 장비 A, B, C는 서로 다른 종류의 진단 항목 1-4 중 일부 혹은 전부에 대한 진단을 수행할 수 있다. 정상 범위 설정 장치 (20)는 검사 장비 A, B, C들로부터 진단 항목 1-4에 대한 진단 결과를 입력 받아, 이에 대한 처리를 수행하고, 그 결과값을 수의사 등의 사용자에게 정상범위 설정장치(20)에 부착된 디스플레이를 통해 디스플레이한다.
정상 범위의 결정
도 2은 반려동물에 대한 서로 다른 종류의 진단항목 1-4를 통해 검사 결과 1-4를 확보하고, 이들을 각각 정규화하여 이를 정상범위가 적용된 형태로 변환환 뒤, 정상 범위가 적용된 검사 결과를 통해 해당 반려동물에 대한 진단을 수행하는 것을 도시한 도면이다.
도 2에 도시된 바와 같이, 각각의 검사 1-4에 대하여 독립적으로 데이터를 정규화한 후, 이에 대해 정상 범위를 적용함으로써 변환한다. 정상 범위가 적용된 출력값은, 정규화된 검사들에 근거하여 가장 확률이 높은 질병을 예측할 수 있도록 학습된 머신러닝 모델에 적용되어, 수의사는 해당 결과를 바탕으로 반려동물의 질병을 예측하고 진단을 수행하게 된다.
도 3은, 각각의 검사 항목 1-4 중 하나의 검사 항목 1에 대하여 검사 수행, 검사 결과 1 확보, 정규화, 정상범위 적용, 그리고 머신러닝 모델에 기초하여 정상/비정상의 판별을 수행하는 동작을 보다 구체적으로 설명하는 도면이다. 각각의 검사 장비 A, B, C는 진단 항목 1에 대한 검사를 수행하고 (205), 그 검사 결과를 획득하여 이를 정상 범위 설정 장치 (20)에 전달한다 (210). 정상 범위 설정 장치 (20)는 검사 장비 A, B, C로부터의 검사 결과에 대하여 정규화를 수행한다 (220). 정상 범위 설정 장치 (20)는 GAN 모델에 근거하여 정상 범위를 설정하고 (230), 통합된 기준 명칭으로 변환된 데이터를 화면에 제공한다 (240).
검사 항목 1의 예는 #GRA, GRANS, GRANS(GRA)로서, 이들은 모두 동일한 검사 항목에 대한 검사 결과를 나타내는 값이지만, 여러 제조사에서 제조되는 검사 장비 A, B, C에 따라 서로 다른 명칭으로 불린다. 즉, 도면에 도시된 #GRA, GRANS, GRANS(GRA)...는 동일한 시료에 대해 서로 다른 검사 장비 A, B, C에 의해 측정되는 것일 뿐 동일한 검사이다. 이와 같이, 반려동물에 대한 진료에 있어서는 동일한 검사결과임에도 불구하고 데이터의 표준화가 이루어져 있지 않아, 사용되는 검사 장비에 따라 서로 다른 명칭으로 서로 다른 결과값이 제공되어 혼란이 가중되는 측면이 있다.
보다 상세하게는, 먼저 동일한 검사 1에 대하여, 검사 장비 A, B, C 중 어느 하나에 의하여 측정을 수행하고, 그 결과를 해당 검사 장비 A, B, C의 출력 형식에 따라 출력한다 (210). 도 3에 도시된 바와 같이, 각각의 검사 장비 A, B, C는 동일한 검사 1에 대하여 각각 #GRA, GRANS, GRANS (GRA) 등 서로 다른 형식으로 검사 결과를 출력한다 (210). 이들 검사 결과를 취합하여, 검사 수치 데이터를 정규화하고 (220), 이를 인공지능의 GAN 모델에 따라, 혹은 통계적 방법에 따라 정상 범위기준치를 설정하여 (230), 해당 정상 범위 기준치에 맞도록 변환된 데이터를 사용자에게 디스플레이한다 (240).
앞서 설명한 바와 같이, 측정장비 A, B, C는 동종장비, 즉 임무와 기능 또는 정비 체계 등이 동일한 장비를 의미하는 것이다. 이상의 방법에 의해, 취합된 검사 1에 대한 동종 검사장비의 데이터로부터의 출력값을 정규화하고 새로운 정상범위를 설정함으로써, 새로운 정상범위를 기준으로 정상/비정상으로 분류한다.
본 발명에서는, 이와 같이 검사 장비에 따라 서로 달리 제공되는 검사 결과를 표준화하여, 사용되는 검사 장비에 상관없이 동일한 명칭의 동일한 기준치를 가지는 결과값으로 변환하여 출력함으로써, 제공되는 검사 결과의 신뢰성을 높이고 진료의 정확성을 담보하고자 한다. 구체적으로, 이와 같은 데이터의 변환은 도 4에 도시된 바와 같이, 다음의 절차를 거쳐 수행된다.
도 4는 도 2의 동일한 검사에서 결과 값을 정규화 하는 단계를 나타낸 블록도 이다.
구체적으로, 본 발명에서 정규화는 다음의 수식을 통해 진행한다.
[수학식 1]
Figure 112019117880986-pat00019
정상 범위 출력 장치 (20)는 먼저, 상기 수식에 의해 모든 검사항목 결과를 정규화 하는 작업을 거친다. 보다 구체적으로, #GRA는 동일한 검사 종목에 대한 검사 장비 A로부터의 출력으로서 최소값 0, 최대값 1,000 사이의 값으로서 [300, 600]의 정상 범위를 가지고, GRANS는 검사 장비 B로부터의 출력으로서 최소값 10, 최대값 100 사이의 값으로서 [30, 50]의 정상 범위를 가지고, GRANS (GRA)는 검사 장비 C로부터의 출력으로서 최소값 0, 최대값 1.0 사이의 값으로서 [0.4, 0.6] 사이의 값을 가진다고 가정한다.
삭제
도 5 및 도 6은, 도 3의 세 가지 장비 A, B, C에 대하여 동일한 검사 종목에 대한 검사를 수행한 각각의 검사값 500, 45, 0.7에 대하여 각각의 정상 범위에 근거하여 정상/비정상의 판정 결과를 나타내는 도면이다. 도 5에 도시한 바와 같이, 장비 A는 검사값 500이 정상 범위 [300, 600] 내에 들어 있는지 판단하여 정상 범위 내에 있을 경우 "정상"으로 판정한다. 장비 B는 검사값 45이 정상 범위 [30, 50] 내에 들어 있는지 판단하여 정상 범위 내에 있을 경우 "정상"으로 판정한다. 장비 C는 검사값 0.7이 정상 범위 [0.4, 0.6] 내에 들어 있는지 판단하여 정상 범위 내에 있지 않을 경우 "비정상"으로 판정한다. 이상의 정상 범위는 각 장비 A, B, C마다 서로 상이하며 현재 표준화가 되어 있지 않다.
도 5에 도시한 바와 같이, 본 발명에 따른 정상/비정상 판정 장치는, 세 가지 장비 A, B, C 중 어느 하나로부터의 검사값에 대하여, 해당 장비의 정상 범위 및 출력 범위를 근거로 정규화를 수행한다. 그리고 난 후, 정규화된 입력값이, 본 발명의 GAN 모델에 의해 얻어진 정상 범위 [0.4, 0.6] 내에 들어 있는지 판단하여 정상 범위 내에 있을 경우 "정상"으로 판정한다. 예를 들어, 본 발명에 따른 정상/비정상 판정 장치는 판정하고자 하는 검사값이 장비 A, B, C 중 어느 장비로부터 얻어진 것인지 판별하고, 장비 A로부터의 검사값으로 판정된 경우, 검사값 500에 대하여, 해당 장비의 출력 범위 [0, 1,000]를 근거로 정규화를 수행하고, 정규화된 입력값 0.5이, 본 발명의 GAN 모델에 의해 얻어진 정상 범위[0.4, 0.6] 내에 들어 있는지 판단하여 정상 범위 내에 있을 경우 "정상"으로 판정한다. 또한 본 발명에 따른 정상/비정상 판정 장치는 판정하고자 하는 검사값 45이 장비 A, B, C 중 장비 B로부터의 검사값으로 판정된 경우, 해당 장비의 출력 범위 [10, 100]를 근거로 정규화를 수행하고, 정규화된 입력값 0.5이, 본 발명의 GAN 모델에 의해 얻어진 정상 범위[0.4, 0.6] 내에 들어 있는지 판단하여 정상 범위 내에 있을 경우 "정상"으로 판정한다. 마찬가지로, 본 발명에 따른 정상/비정상 판정 장치는 판정하고자 하는 검사값 0.7이 장비 A, B, C 중 장비 C로부터의 검사값으로 판정된 경우, 해당 장비의 출력 범위 [0, 1.0]를 근거로 정규화를 수행하고, 정규화된 입력값 0.7이, 본 발명의 GAN 모델에 의해 얻어진 정상 범위[0.4, 0.6] 내에 들어 있는지 판단하여 정상 범위 내에 있을 경우 "정상"으로 판정한다 (본 실시예에서는 정규화된 입력값 0.7이 정상 범위 내에 있지 않으므로 "비정상"으로 판정한다.
도 7는, 특정 검사 종목에 대응하여 기존에 얻어진 측정 데이터에 근거하여 해당 검사 종목에 대한 정상 범위값을 산출하여 출력하는 기능을 수행하는, 정상 범위 설정 장치 (20) 내에 포함된 정상 범위 판정 모듈 (410)을 도시한 도면이다.
정상 범위 판정 모듈 (410)은, 검사 장비 A로부터 검사 항목 1에 대한 검사 결과값 500을 입력 받아서, 해당 검사 결과값을, 검사 결과값 1에 대한 과거의 데이터값을 저장하고 있는 데이터베이스 1에 저장한다. 또한, 정상 범위 판정 모듈 (410)은, 데이터베이스 1, 2, 3 (420) 각각에 저장되어 있는 과거의 검사값들에 근거하여 정상 범위값, 즉 정상 범위의 최소값과 최대값을 계산하여 출력한다. 보다 구체적으로, 범위 판정 모듈 (410)은, 데이터베이스 1 내에 포함된, 정규화된 검사값의 수가, 통계적 계산법을 사용하기에 적합하도록 충분히 많다고 판단하면, 통계적 계산 모듈 (430)에 의해 정상 범위값, 즉 정상 범위의 최소값 및 정상 범위의 최대값을 계산하여 출력한다. 또한, 데이터베이스 1 내에 포함된, 정규화된 검사값의 수가, 통계적 계산법을 사용하기에 적합하도록 충분히 많지 않은 경우에는, GAN 모듈 (440)에 의해 정상 범위값, 즉 정상 범위의 최소값 및 정상 범위의 최대값을 계산하여 출력한다. 통계적 계산법을 적용할지의 여부를 결정하는 정규화된 검사값의 수는 실시예에 따라 적절한 수를 선택할 수 있으며, 본 발명에서는 축적 데이터의 수가 1,000개 미만일 경우에는 GAN 모듈에 의한 방법을, 1,000개 이상일 경우에는 충분한 개수의 데이터가 있는 것으로 판단하여 통계적 계산법을 사용하는 것으로 하였다.
통계적 계산법을 사용하는 경우, 통계적 계산 모듈은, 축적된 정규화된 검사값들의 평균 및 표준편차를 사용할 수 있다. 즉, 한 실시예로서, 통계적 계산 모듈은, 다음의 수학식에 근거하여 정상 범위의 최소값 및 최대값을 계산할 수 있다.
[수학식 2]
정상 범위의 최소값 = (정규화된 검사값들의 평균) - 2* (정규화된 검사값들의 표준편차)
정상 범위의 최대값 = (정규화된 검사값들의 평균) + 2* (정규화된 검사값들의 표준편차)
즉, 통계적 계산법을 사용할 경우, 정규화된 검사값들의 평균으로부터 (2 * 표준편차) 이상의 값만큼 벗어난 값을 가지는 검사값에 대해서는 비정상으로 판정하고, 정규화된 검사값들의 평균으로부터 (2 * 표준편차) 이내에 들어오는 값을 가지는 검사값에 대해서는 정상으로 판정하는 것이다.
상기 방법에서는 정상/비정상에 대한 판정만 언급하였지만, 정상 범위 판정 모듈은 평균으로부터 절대값이 (1 * 표준편차) 이상 (2 * 표준편차) 이하의 검사값들에 대해서는 정상이지만 의심스러운 검사값임을 나타내는 "의심" 판정을 디스플레이하도록 할 수도 있다.
각 검사장비 A, B, C로부터 정상 범위 판정 모듈 (410)로는 정규화된 검사값이 입력값으로 제공되므로, 정상 범위 판정 모듈은 검사 장비의 종류에 상관 없이 정규화된 검사값들의 축적 데이터를 사용하여 정상 범위값, 즉 정상 범위의 최소값 및 정상 범위의 최대값을 계산할 수 있다.
GAN을 이용한 의사 검사값 데이터의 생성
한편, 기존에 축적된 정규화된 검사값들의 수가 많지 않은 경우에는, 측정 검사값에 포함된 오류 데이터의 영향이 지나치게 커지게 되어, 통계적 계산 방법을 사용하는 것이 적절치 않게 된다. 즉, 일례로서, 본 발명에서는1,000개 이상일 경우에는 충분한 개수의 데이터가 있는 것으로 판단하여 통계적 계산법을 사용하는 반면, 1,000개 미만일 경우에는 GAN 모듈 (430)에 의해서 부족한 데이터를 보충하는 방법을 사용한다.
본 발명에서는, 딥러닝 모델로서 GAN (Generative Adversarial Networks)을 사용한다. GAN 모델은 입력되는 데이터의 확률분포와 유사한 확률분포를 갖는 새로운 데이터를 생성하는 함수로서, 입력으로 사용되는 검사결과 값은 [0-1]로 정규화 된 데이터이며, 출력 값으로서 정규분포를 출력한다. 이와 같이 함으로써, 동종 측정장비의 결과로부터 출력된 정규분포에서 동종 측정장비의 정상치 범위와 유사한 새로운 정상범위를 찾는 것이 가능해진다.
수많은 검사 중 일부 검사는 정상치를 판단하는 기준이 측정장비에서 제안한 기준치의 몇배까지 정상으로 보는 경우가 있는 점을 고려하여 GAN을 통해 해당 검사들에 대해 보다 정확한 정상범위를 제공 가능하도록 한 것이다.
GAN 모델을 사용하지 않고 단순히 과거의 측정 이력에만 근거하여 정상치를 제시하는 방법을 사용하였을 경우, 비 주류검사에 대한 데이터 량의 부족으로 인하여 통합된 데이터의 정상 범위의 계산이 불가능한 경우가 발생한다.
예를 들어, 상기 #GRA 검사 항목이 비 주류 검사에 해당하여, 과거 측정 이력에 의해 500개의 측정 데이터가 축적되어 있는 경우, 모집단인 500개의 측정 데이터의 수가 적어서, 측정 데이터 내에 포함된 오류 데이터의 영향이 지나치게 커지게 되어 통계적인 방법으로는 정상치를 판단하기 어렵다는 문제가 있다. 본 발명에서는, 이러한 문제를 해결하기 위해서, GAN 모델을 사용하여 500개의 측정 데이터로부터, 오류의 영향이 충분히 저감될 정도의 가상의 데이터셋, 예를 들면 500개의 의사 데이터 셋을 생성해 냄으로써, 실제로 측정에 의해서 얻어진500개의 검사값들에 가상의 검사값들로 이루어진 데이터 셋 500개를 합한 1,000개의 검사값들에 대해, 앞서 설명한 통계적인 방법을 적용함으로써, 비 주류 검사에 대한 정상치 계산이 가능하도록 한다.
보다 구체적으로, 본 발명에서는 실제로 측정에 의해서 수집된 검사값의 수를 나타내는 검사값 개수지수 (위 예에서 500)가, 미리 설정된 임계값 (1,000)보다 작은 경우, 임계값 - 검사값 개수지수의 개수만큼 가상의 데이터셋, 즉 의사 검사값들을 생성한다.
GAN model을 사용하였을 경우, 미리 축적된 데이터가 충분치 않은 경우에도, 기존 데이터의 확률분포와 유사한 새로운 데이터를 생성 가능하기 때문에, GAN model을 통해서 얻은 새로운 데이터를 토대로 부족한 데이터의 이슈 해결할 수 있다는 장점이 있다. 즉, 기존 데이터와 새롭게 생성된 데이터로부터 새로운 정상치를 제시할 수 있다는 장점이 있고, 기존 측정장비에서 제시하는 검사결과의 정상치 오류를 수정 가능하다는 장점이 있다.
[수학식 3]
Figure 112019090753547-pat00002
수학식 3는, 본 발명에서 채용한 GAN 모델에 의해, 실제 측정 데이터로부터 가상의 데이터셋을 생성하고, 그에 근거하여 새로운 정상치를 제시하는 것을 나타내는 수식이다. 수학식 3에서, X~Pdata(x) = 실제 데이터에 대한 확률 분포에서 샘플링한 데이터, Z~Pz(z) = Gaussian distribution를 사용하는 임의의 노이즈에서 샘플링한 데이터, D(x)는 discriminator이며, 참일 확률을 의미하는 0~1값, 데이터가 참이면, D(x) = 1, 거짓일 경우 0, D(G(z))는 generator G 가 만들어낸 데이터인 G(z)가 참으로 판단되면 1, 거짓이라고 판단되면 0, V(D,G)가 최대가 되려면 discriminator D가 실제 데이터를 참으로, 거짓데이터를 거짓이라고 분류할 때이다.왼쪽 항의 D(x) 1이 되고, 오른쪽항의 1-D(G(z))의 D(G(z))가 0이 되어야 한다는 것 (맞다고 하면 1, 아니라고 하면 0)으로 된다. V(D,G)가 최소화 되려면 왼쪽항은 G가 포함되어 있지 않기 때문에 오른쪽 항이 최소화가 되어야 한다.
오른쪽 항의 1-D(G(z)) 0 이 되어야 하기 때문에 D(G(z))가 1이 되어야 하고, 이는 판별자가 생성자가 생성한 부분이 맞는 것으로 판별한다는 것을 의미한다. 즉, 판별자가 참으로 분류할 만큼 완벽한 거짓 데이터를 생성하도록 생성자를 학습시켰다는 것을 의미한다.
도 9는, 본 발명의 검사 장비에 의해, 사용되는 검사 장비에 상관없이 동일한 명칭의 동일한 기준치를 가지는 결과값으로 변환하여 출력하는 방법을 도시한 도면이다. 도 9에 도시한 바와 같이, 본 발명의 구성에 따라, 서로 다른 장비 A, B, C로 검사하여 얻은 데이터를 각각 기준 명칭 #GRA로 통합한 결과를 출력한다.
도 10은, GAN 모델이 학습을 통해 실제 데이터와 생성자가 생성한 데이터의 분포를 일치시켜 나가는 과정을 설명하는 도면이다. 도면에서 검은 점선은 실제 데이터의 확률 분포를 나타내고 녹색 실선은 GAN이 생성해 내는 확률 분포를 나타낸다. 그리고, 파란 점선은 discriminator의 확률 분포를 나타낸다.
도 10의 (a)는, 실제 데이터 (검은 점선)의 수가 적어서 GAN이 만들어 내는 확률 분포 (녹색 실선)와의 차이가 크다는 것을 보여준다. 도 10의 (b) 및 (c)는, 실제 데이터의 수가 증가함에 따라 GAN이 학습을 통해, 실제 데이터와 generator가 생성한 데이터의 분포가 서로 근접해 가는 것을 나타낸다. 도 10의 (d)는, 실제 데이터로 학습되는 discriminator가 generator가 생성한 거짓 데이터에 대하여 참이라고 판단하는 경우로, generator가 실제 데이터와 거의 유사한 데이터를 만들어 낸다는 것을 보여준다.
도 11은, 검사 장비 A, B, C의 성능 혹은 데이터의 신뢰도를 고려하여, 통계적 방법 및 GAN 모듈에 의한 방법 중 하나를 선택하도록 구성한 정상 범위 설정 장치 (1100)를 설명하기 위한 도면이다.
도 11의 정상 범위 설정 장치 (1110)는 도 4의 정상 범위 설정 장치와 마찬가지로 통계적 계산 모듈과 GAN 모듈을 포함하고 있으나, 통계적 계산 모듈 / GAN 모듈 간의 선택 시에 각각의 검사 장비 A, B, C로부터의 데이터의 신뢰도를 고려한다는 점에서 다르다.
도 11의 데이터베이스 1은 검사 항목 1에 대한 검사결과를 축적하고 있는 데이터베이스이다. 이때, 장비 A는 상대적으로 고가의 장비로서 데이터의 신뢰도가 높은 반면 장비 B는 중간 값의 장비로서 중간 정도의 데이터 신뢰도가 주어지고, 장비 C는 저가의 장비로서 가장 신뢰도가 낮다고 가정한다. 본 발명에서는 다음과 같이 장비 A로부터의 데이터, 장비 B로부터의 데이터, 그리고 장비 C로부터의 데이터의 개수를 각각 감안하여, 장비 A로부터의 데이터가 상대적으로 많을 경우에는 상대적으로 이른 시기에 통계적 계산 모듈에 의해서 정상범위를 설정하고, 장비 C로부터의 데이터가 상대적으로 많을 경우에는 상대적으로 늦은 시기에 통계적 계산 모듈에 의해서 정상 범위를 설정하도록 구성된다.
즉, 정상 범위 설정 장치 (1110)는, 다음의 수학식 4에 의한 검사값 개수 지수가 1,000미만일 경우에는 GAN 모듈을, 1,000이상일 경우에는 통계적 계산 모듈을 사용함으로써, 개별 장비의 데이터의 신뢰성을 감안하여 통계적 계산 모듈 / GAN 모듈 중 하나를 선택한다.
[수학식 4]
검사값 개수 지수 = 1.5 * (검사 장비 A로부터의 정규화된 검사값의 수) + 1 * (검사 장비 B로부터의 정규화된 검사값의 수) + 0.5 * (검사 장비 C로부터의 정규화된 검사값의 수)
데이터의 신뢰도는, 각 장비마다 상대적인 신뢰도가 알려져 있을 경우에는 그 신뢰도를, 상대적 신뢰도를 알기 힘든 경우에는, 보다 고가의 장비가 상대적으로 신뢰도가 높을 것이므로 고가의 장비에 대해서 보다 높은 가중치를 부여하는 방법을 생각할 수 있다.
각 장비별 데이터의 신뢰도를 부여하는 또다른 방법으로서, 해당 검사장비들이 일선에서 사용되고 있는 비율에 따라 신뢰도를 부여하는 것도 가능하다. 즉, 검사 장비 A, B, C가 각각 a, b, c의 비율 (%)로 일선 동물병원에서 사용되고 있는 경우, 상대적으로 많이 사용되는 검사 장비의 데이터에 대한 임상 데이터가 많을 가능성이 높고, 따라서 많이 사용되는 검사 장비의 데이터의 신뢰도가 그렇지 않은 검사 장비의 데이터의 신뢰도에 비해 양호할 것으로 예상할 수 있다. 따라서, 일선 동물병원에서 사용되는 장비의 사용비율, a, b, c에 근거하여, 다음과 같이 검사값 개수 지수를 결정하는 방법을 생각할 수 있다.
[수학식 5]
검사값 개수 지수 = (a * (검사 장비 A로부터의 정규화된 검사값의 수) + b * (검사 장비 B로부터의 정규화된 검사값의 수) + c * (검사 장비 C로부터의 정규화된 검사값의 수) ) * 100
이상과 같이 구성함으로써, 일선 동물병원에서 사용되는 장비의 사용 비율을 고려한 데이터의 신뢰도에 근거하여 GAN 모델과 통계적 모델 사이에서 어떤 모델을 사용할지 결정할 수 있고, 보다 현실에 부합하는 신뢰도 높은 데이터 셋을 얻을 수 있다.
도 12는, 본 발명에 따라 입력된, 검사 장비 A, B, C로부터의 검사값의 수로부터 검사값 개수 지수를 계산하고, 이에 근거하여 GAN 모듈을 사용할지, 아니면 통계학적 계산 모듈을 사용할지 결정하는 방법을 도시한 도면이다.
단계 S1210에서, 각각의 검사 장비 A, B, C로부터 동종의 검사 1에 대한 검사값을 수집한다.
단계 S1220에서, 수집된 검사값들이 통계적 계산 방법으로도 의미 있는 정상 범위를 산출할 수 있을지 판단하기 위한 검사값 개수 지수를 결정한다. 상기검사값 개수 지수는 앞서 설명한 수학식 4 혹은 수학식 5에 의해서 결정할 수 있다.
단계 S1230에서, 수학식 4 혹은 수학식 5에 의해 얻어진 검사값 개수 지수가 특정 임계값 (본 실시예에서는 1,000)보다 큰지 판단한다. 만일 검사값 개수 지수가 특정 임계값보다 크거나 같다고 판정되는 경우에는, 통계적 방법으로도 충분히 의미 있는 정상 범위의 설정이 가능한 것이므로, 단계 S1240에서 통계적 방법에 의해 정상 범위를 판정한다.
만일 검사값 개수 지수가 특정 임계값보다 작다고 판정되는 경우에는, 수집된 검사값의 표본의 개수가 충분히 많지 않은 경우에 해당하므로, GAN 모듈에 의해 의사 검사값들을 생성한다 (S1250). 단계 S1260에서, 실제로 수집된 검사값들에 의사 검사값들을 합친다. 이와 같이 얻어진 검사값들로부터, 정상 범위를 설정한다 (S1270).
진단 및 디스플레이
도 13은 본 발명에 따라 진단 예측을 위한 랜덤 포레스트 학습을 수행하는 전반적인 블록 다이어그램이다. 랜덤 포레스트 본 발명의 랜덤 포레스트 학습 엔진 (1300)은, 먼저 랜덤 포레스트 알고리즘에 의해, 반려동물이 내원했을 때의 수의사가 판단한 증상, 예를 들면 콧물, 열, 기침, 구토, 호흡 곤란 등의 증상과 복수의 검사값들을 포함하는 복수의 입력 속성과 확정 진단에 대한 정확한 증상에 해당하는 입력속성에 근거하여 1차 학습을 수행한다. 다음으로, 추출된 입력 속성들에 대해, 기여도가 특정한 정도 이상, 예를 들면 50% 이상인 입력 속성들만을 선별하는 특성 선별 과정 (1330)을 거친다. 다음으로, 최종적으로 선별된 입력 속성들만으로 다시 한번 랜덤 포레스트 알고리즘에 의한 학습을 수행한다 (1340). 이와 같이 2 단계에 걸쳐 랜덤 포레스트 학습을 수행함으로써, 불필요한 입력 속성들에 의한 영향을 제거하여, 랜덤 포레스트 학습 엔진 (1300)으로 하여금, 보다 정확한 예측값을 제시할 수 있도록 한다. 통상 자동화된 의사 결정 메커니즘에 사용되는 결정 트리 (decision tree) 방식은 개별 학습 데이터에 따라 그 구성이 매우 달라지므로, 일반화하여 사용하는 데 어려움이 있다. 이에 반해, 랜덤 포레스트 알고리즘은, 변수 선택의 임의성과 bagging을 통해 각 트리들의 예측들이 비상관화되게 하여, 일반화 성능을 향상시켜 이러한 문제점을 해결한 결과, 노이즈가 포함된 데이터에 이용하기 좋으며, 데이터 세 내의 데이터 분포가 고르지 않은 경우에도 우수한 성능을 나타낸다.
보다 구체적으로, 각각의 단계를 살펴본다.
도 14는, 본 발명에 따라 학습하고자 하는 데이터와 이에 대한 진단 결과가 저장된 데이터베이스 (1400)를 도시하는 도면이다. 먼저, 수의사가 판단한 증상, 예를 들면, 콧물, 열, 기침, 구토, 호흡곤란 등의 증상을 수치화한 값들과, 검사 장비 A로부터 얻어진, 대상 반려동물에 대한 복수의 검사값 및 수의사에 의한 대상 반려동물에 대한 임상 검사 결과 (혈액검사, 화학검사)를 수치화한 데이터 그룹을 합한 입력 속성값들 [X1, X2, ... Xn]과 개개의 입력 속성값들에 대응하는 진단 결과 y로부터 랜덤 포레스트 알고리즘을 적용할 만큼 충분한 수 m의 데이터 집합 (1410)를 마련한다.
다음으로, n 개의 입력 속성값들 중 n1개 (예를 들면, X1, X3, X7..) 를 무작위로 선택하여, 이들 중 진단을 가장 잘 예측하는 요소 한가지 (예를 들면, X3)를 첫번째 노드로서 선택한다. 이와 같이, 진단을 가장 잘 예측하는 요소로서 X3를 선택하는 과정은, 지니 계수 (Gini coefficient)에 의하여 결정한다. 지니 계수는 불균형의 정도를 나타내는 통계학적 지수로서, 지니 계수가 '0'에 가까울수록 분배가 균등하고, '1'에 가까울수록 분배가 불균등함을 나타낸다. 이와 같이 노드를 선택하는 단계를 마지막 노드에 도착할 때까지 반복하여, n1개의 계층을 가지는 랜덤 포레스트 결정 트리를 완성한다.
이상은 일반적인 랜덤 포레스트 알고리즘을 적용한 결과로서, 본 발명에서는 이와 같이 일반적인 랜덤 포레스트 알고리즘에 의해, 랜덤 포레스트 학습 엔진 (1300)의 1차 학습 (1310)을 수행하여 도 15에 도시된 바와 같은 랜덤 포레스트 트리를 생성한다.
다음으로, 본 발명에서는, Gini 계수 또는 MDI (Mean Decrease Impurity)에 근거하여, 모델에서 입력 속성값들 중 기여도가 높은 입력 속성값들만을 critical feature라 판단하고, 이들을 주요 속성값들로 선택한다 (1330). 예를 들어, X1, X7, X10, ... Xn' (가령, 열, 콧물, GRANS)만이 주요 속성값들로서 선택되었다고 가정한다. 본 예에서는 단지 3 개의 주요 속성값을 갖는 것으로 기재하였으나, 이는 설명의 편의를 위한 것으로서, 실제 구현 시에는 3개보다 많은 수의 주요 속성값들이 선택될 수 있다.
다음으로, 본 발명의 랜덤 포레스트 학습 엔진 (1300)은, 주요 속성값들 X1, X7, X10, ... Xn' 및 이에 연관된 진단결과 Y에 근거하여, 재차 랜덤 포레스트 학습을 수행함으로써 랜덤 포레스트 의사결정 트리를 구성한다. 이와 같이 결정된 랜덤 포레스트 결정 트리는, n1보다 작은 n'개의 계층을 가지므로 원래의 랜덤 포레스트 결정 트리에 비해 연산 속도 면에서 우수하다. 또한, 입력 속성값들 중 기여도가 높은 입력 속성값들로만 랜덤 포레스트 의사 결정 트리를 구성함으로써, 보다 정확한 결과를 도출할 수 있다.
2: 정상 범위 설정 장치
410: 정상 범위 판덩 모듈
420: 데이터베이스
430: 통계적 계산 모듈
440: GAN 모듈

Claims (8)

  1. 반려동물 진단 장치에 의해 수행되는 진단 방법에 있어서,
    상기 진단 장치에 의해 복수의 검사 종류들 각각에 대한 검사값을 얻는 단계,
    상기 진단 장치에 의해 얻어진 복수의 검사 종류들 각각에 대한 검사값과, 임상 결과를 표시하는 복수의 수치들 및 이에 각각 대응하는 진단 결과값들을 저장하는 단계,
    저장되어 있는 복수의 검사값들 및 임상 결과에 대한 수치들로부터 임의의 복수개의 속성값들을 선택하는 단계,
    지니 계수에 근거하여, 상기 진단 장치에 의해, 상기 복수의 속성값들 중 진단을 예측하는 정도에 따라 속성값들을 배열하고 학습함으로써, 이들 속성값들에 의해 결정 트리를 생성하는 단계,
    상기 결정 트리에 근거하여, 진단에 대한 예측값을 도출하는 단계,
    상기 예측값을 사용자에게 디스플레이하는 단계를 포함하되,
    상기 복수의 검사값을 얻는 단계는 상기 복수의 검사값 각각에 대해 정상 혹은 비정상의 판정을 수행하는 단계를 더 포함하고,
    상기 정상 혹은 비정상의 판정을 수행하는 단계는, 상기 복수의 검사 종류들 각각의 검사값에 대해 얻어진 정상 범위에 근거하여 행하여 지며,
    상기 복수의 검사 종류들 각각의 검사값에 대해 정상 범위를 얻는 단계는,
    해당 검사 종류에 대해 미리 얻어진 실제 검사값들의 개수를 특정 임계값과 비교하는 단계와,
    상기 특정 임계값과 비교 결과, 상기 특정 임계값보다 적다고 판정된 경우, 상기 특정 임계값에 비해 부족한 수만큼 GAN (Generative Adversarial Network) 모듈에 의해 의사 검사값들을 생성하는 단계와,
    상기 의사 검사값들과 상기 미리 얻어진 실제 검사값들을 조합하여, 상기 특정 임계값 이상의 개수의 검사값들을 포함하는 새로운 검사값 그룹을 생성하는 단계와,
    상기 새로운 검사값 그룹에 근거하여 정상 범위를 얻는 단계를 포함하는
    반려동물 진단 방법.
  2. 제 1 항에 있어서,
    상기 결정 트리는 랜덤 포레스트 (random forest) 결정 트리인
    반려동물 진단 방법.
  3. 삭제
  4. 삭제
  5. 삭제
  6. 제 1 항에 있어서,
    딥러닝 모델을 사용하여 동종 검사 장비의 정규화된 데이터로부터 정상 범위 기준치를 결정하는 단계를 더 포함하는
    반려 동물 진단 방법.





  7. 삭제
  8. 삭제
KR1020190108972A 2019-09-03 2019-09-03 결정 트리를 이용한 반려동물 진단 방법 및 장치 KR102187344B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190108972A KR102187344B1 (ko) 2019-09-03 2019-09-03 결정 트리를 이용한 반려동물 진단 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190108972A KR102187344B1 (ko) 2019-09-03 2019-09-03 결정 트리를 이용한 반려동물 진단 방법 및 장치

Publications (1)

Publication Number Publication Date
KR102187344B1 true KR102187344B1 (ko) 2020-12-04

Family

ID=73776689

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190108972A KR102187344B1 (ko) 2019-09-03 2019-09-03 결정 트리를 이용한 반려동물 진단 방법 및 장치

Country Status (1)

Country Link
KR (1) KR102187344B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230072540A (ko) 2021-11-17 2023-05-25 (주)피플인소프트 라이프 로그 데이터와 문진 데이터에 기반한 반려동물의 건강관리 시스템 및 그 동작방법
KR20230148936A (ko) 2022-04-19 2023-10-26 (주) 로완 반려동물을 위한 인지능력 개발 시스템 및 방법

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008065836A (ja) * 1996-02-09 2008-03-21 Adeza Biomedical Corp ニューラルネットワーク関連アプリケーションを使用して医療診断テストおよび生化学診断テストを選択する方法
JP2012022374A (ja) * 2010-07-12 2012-02-02 Takahito Matsumura 臨床検査データ処理システム
KR20160045429A (ko) * 2014-10-17 2016-04-27 주식회사 펫츠비 반려동물을 위한 이동식 측정 장치
KR20180045086A (ko) * 2016-10-24 2018-05-04 주식회사 위저드아이 반려동물 진단 시스템 및 방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008065836A (ja) * 1996-02-09 2008-03-21 Adeza Biomedical Corp ニューラルネットワーク関連アプリケーションを使用して医療診断テストおよび生化学診断テストを選択する方法
JP2012022374A (ja) * 2010-07-12 2012-02-02 Takahito Matsumura 臨床検査データ処理システム
KR20160045429A (ko) * 2014-10-17 2016-04-27 주식회사 펫츠비 반려동물을 위한 이동식 측정 장치
KR20180045086A (ko) * 2016-10-24 2018-05-04 주식회사 위저드아이 반려동물 진단 시스템 및 방법

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
GILLES LOUPPE, UNDERSTANDING RANDOM FORESTS, University of LIEGE, PhD dissertation, 2014년 07월 1부.* *
Ian Goodfellow 외 7명, "Generative adversarial nets", Advances in neural information processing systems, pp.2672-2680, (2014.06.10) 1부.* *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230072540A (ko) 2021-11-17 2023-05-25 (주)피플인소프트 라이프 로그 데이터와 문진 데이터에 기반한 반려동물의 건강관리 시스템 및 그 동작방법
KR20230148936A (ko) 2022-04-19 2023-10-26 (주) 로완 반려동물을 위한 인지능력 개발 시스템 및 방법

Similar Documents

Publication Publication Date Title
Vaicenavicius et al. Evaluating model calibration in classification
Jakhar et al. Big data deep learning framework using keras: A case study of pneumonia prediction
JP7286863B2 (ja) 医療データの自動化された検証
JP6006081B2 (ja) 疾患診断のための最適の診断要素セット決定装置及び方法
Levashenko et al. Reliability estimation of healthcare systems using fuzzy decision trees
JP6715451B2 (ja) マススペクトル解析システム,方法およびプログラム
CN112037925B (zh) 一种基于lstm算法的新发重大传染病预警方法
JP6828807B2 (ja) データ解析装置、データ解析方法およびデータ解析プログラム
CN110111885B (zh) 属性预测方法、装置、计算机设备及计算机可读存储介质
KR102187344B1 (ko) 결정 트리를 이용한 반려동물 진단 방법 및 장치
JP2020115312A (ja) モデル生成装置、モデル生成方法、モデル生成プログラム、モデル生成システム、検査システム、及び監視システム
KR102033484B1 (ko) 적대적 인공지능 생성망 (gan)을 활용한 반려동물 검사의 정상범위 기준치 설정 방법 및 장치
KR102639558B1 (ko) 관심영역별 골 성숙 분포를 이용한 성장 분석 예측 장치 및 방법
CN117315379B (zh) 面向深度学***性评估方法及装置
JP2021012603A (ja) 情報処理装置、情報処理方法、プログラム及び学習済みモデルの生成方法
JP6422142B1 (ja) 受精卵の画像診断システム、受精卵の画像診断プログラム及び受精卵の画像診断方法。
CN112669973B (zh) 基于大数据深度学习的疾病协同递进预测方法和机器人
CN115565018A (zh) 图像分类方法及装置、设备、存储介质
Sankaravadivel et al. Feature based analysis of endometriosis using machine learning
CN109816632B (zh) 脑图像处理方法、装置、可读存储介质及电子设备
CN118098539B (zh) 基于智慧医疗的导检任务调度分配方法及***
KR102507489B1 (ko) 진단 분류 장치 및 방법
Shirsat et al. Breast Cancer detection based on machine learning feature selection and extraction algorithm
WO2024128576A1 (ko) 생체 신호의 품질을 정량화 하는 방법, 프로그램 및 장치
Boudoua et al. R01. 4 How to combine spatio-temporal information and Danger theory for animal disease surveillance?

Legal Events

Date Code Title Description
GRNT Written decision to grant