KR20190070430A - 빅데이터 분석 기반 질병 진단명 추정 방법 및 추정 장치 - Google Patents

빅데이터 분석 기반 질병 진단명 추정 방법 및 추정 장치 Download PDF

Info

Publication number
KR20190070430A
KR20190070430A KR1020170170917A KR20170170917A KR20190070430A KR 20190070430 A KR20190070430 A KR 20190070430A KR 1020170170917 A KR1020170170917 A KR 1020170170917A KR 20170170917 A KR20170170917 A KR 20170170917A KR 20190070430 A KR20190070430 A KR 20190070430A
Authority
KR
South Korea
Prior art keywords
keyword
data
electronic medical
disease
emr
Prior art date
Application number
KR1020170170917A
Other languages
English (en)
Inventor
심재희
김태형
유지석
김태경
Original Assignee
(주)엔텔스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)엔텔스 filed Critical (주)엔텔스
Priority to KR1020170170917A priority Critical patent/KR20190070430A/ko
Publication of KR20190070430A publication Critical patent/KR20190070430A/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/40ICT specially adapted for the handling or processing of patient-related medical or healthcare data for data related to laboratory analysis, e.g. patient specimen analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Public Health (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Biomedical Technology (AREA)
  • Pathology (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

빅데이터 분석 기반 질병 진단명 추정 방법은 컴퓨터 장치가 타겟 전자의무기록(EMR)의 비정형 데이터에 대한 텍스트 마이닝으로 정형화 데이터를 생성하는 단계, 상기 컴퓨터 장치가 특정 질환과 키워드의 상관 관계에 따라 상기 정형화 데이터에서 키워드를 추출하는 단계 및 상기 컴퓨터 장치가 상기 키워드를 사전에 마련한 나이브 베이즈 분류기에 입력하여 상기 키워드에 대응하는 타겟 진단명을 분류하는 단계를 포함한다.

Description

빅데이터 분석 기반 질병 진단명 추정 방법 및 추정 장치{ESTIMATION METHOD AND APPARATUS FOR NAME OF DISEASE BASED ON BIG DATA ANALYSIS}
이하 설명하는 기술은 빅데이터 분석 기법에 기반하여 전자의무기록으로부터 질명 진단명을 도출하는 기법에 관한 것이다.
현재 많은 병원은 전자의무기록(Electronic Medical Record, EMR)을 사용하고 있다. 현재 EMR은 종래에 수기로 작성하던 내용을 디지털화한 것에 불과하여 환자 관리에 이용하는 정도로 활용되고 있다. 기본적으로 EMR은 작성자가 컴퓨터 장치나 스마트 기기를 이용하여 해당 내용을 기재하는 것으로, 내용 일부에 오류가 존재할 수 있다.
특히 군부대에서 사용하는 국방의료시스템 경우 데이터의 정확도가 떨어지고, 진단명이 입력 또는 업데이트되는 과정에서 각종 오류가 발생하여 진단 기록에 대한 정확한 관리가 어려운 상황이다. 특히, 감염병 진단명에 대한 분류 정확도 여부는 환자의 과거이력과 무관하게 돌발적으로 발생하거나 그 증상구분이 쉽지 않은 질환의 특성상, 환자의 신체검사기록, 계급, 과거병력 등과 같은 통상적인 정형 데이터만으로는 검증이 쉽지 않은 한계가 존재한다.
미국등록특허 US9,477,756
EMR은 주된 내용이 비정형 데이터이다. 따라서 EMR은 진료를 받는 치료 과정 외에 다른 용도로 활용되기 어렵다. 나아가 전술한 바와 같이 EMR은 질병에 대한 오진과 같은 부정확한 정보를 포함할 수 있다.
이하 설명하는 기술은 빅데이터 분석 기술에 기반하여 EMR로부터 질병에 대한 진단명을 도출하는 기법을 제공하고자 한다.
빅데이터 분석 기반 질병 진단명 추정 방법은 컴퓨터 장치가 타겟 전자의무기록(EMR)의 비정형 데이터에 대한 텍스트 마이닝으로 정형화 데이터를 생성하는 단계, 상기 컴퓨터 장치가 특정 질환과 키워드의 상관 관계에 따라 상기 정형화 데이터에서 키워드를 추출하는 단계 및 상기 컴퓨터 장치가 상기 키워드를 사전에 마련한 나이브 베이즈 분류기에 입력하여 상기 키워드에 대응하는 타겟 진단명을 분류하는 단계를 포함한다. 상기 나이브 베이즈 분류기는 키워드와 질병에 대한 관계를 정의한 정보를 포함한다.
이하 설명하는 기술은 EMR로부터 정확한 질병 진단명을 도출하여 진단의 정확성을 제고한다. 이하 설명하는 기술은 EMR을 분석하여 질병과 관련된 키워드 또는 패턴을 제공하여 새로운 의료 정보를 제공한다.
도 1은 빅데이터 분석 기반 질병 진단명 추정 시스템에 대한 예이다.
도 2는 빅데이터 분석 기반 질병 진단명 추정 방법에 대한 순서도의 예이다.
도 3은 전자의무기록에서 빅데이터 분석 모델을 생성하는 과정에 대한 예이다.
도 4는 입력된 전자의무기록에서 질병 진단명을 추정하는 과정에 대한 예이다.
도 5는 전자의무기록의 비정형 데이터를 정형화하는 과정에 대한 예이다.
도 6은 전자의무기록에서 추정한 질병 정보를 시각화한 예이다.
이하 설명하는 기술은 다양한 변경을 가할 수 있고 여러 가지 실시례를 가질 수 있는 바, 특정 실시례들을 도면에 예시하고 상세하게 설명하고자 한다. 그러나, 이는 이하 설명하는 기술을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 이하 설명하는 기술의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 해당 구성요소들은 상기 용어들에 의해 한정되지는 않으며, 단지 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 이하 설명하는 기술의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.
본 명세서에서 사용되는 용어에서 단수의 표현은 문맥상 명백하게 다르게 해석되지 않는 한 복수의 표현을 포함하는 것으로 이해되어야 하고, "포함한다" 등의 용어는 설시된 특징, 개수, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 의미하는 것이지, 하나 또는 그 이상의 다른 특징들이나 개수, 단계 동작 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 배제하지 않는 것으로 이해되어야 한다.
도면에 대한 상세한 설명을 하기에 앞서, 본 명세서에서의 구성부들에 대한 구분은 각 구성부가 담당하는 주기능 별로 구분한 것에 불과함을 명확히 하고자 한다. 즉, 이하에서 설명할 2개 이상의 구성부가 하나의 구성부로 합쳐지거나 또는 하나의 구성부가 보다 세분화된 기능별로 2개 이상으로 분화되어 구비될 수도 있다. 그리고 이하에서 설명할 구성부 각각은 자신이 담당하는 주기능 이외에도 다른 구성부가 담당하는 기능 중 일부 또는 전부의 기능을 추가적으로 수행할 수도 있으며, 구성부 각각이 담당하는 주기능 중 일부 기능이 다른 구성부에 의해 전담되어 수행될 수도 있음은 물론이다.
또, 방법 또는 동작 방법을 수행함에 있어서, 상기 방법을 이루는 각 과정들은 문맥상 명백하게 특정 순서를 기재하지 않은 이상 명기된 순서와 다르게 일어날 수 있다. 즉, 각 과정들은 명기된 순서와 동일하게 일어날 수도 있고 실질적으로 동시에 수행될 수도 있으며 반대의 순서대로 수행될 수도 있다.
이하 설명하는 기술은 전자의무기록(EMR)에 기록된 정보를 기반으로 특정 진료기록으로 추정되는 질병 진단명을 추정한다. 이를 통해 이하 설명하는 기술은 EMR에 잘못 기재된 진단명을 업데이트할 수 있다. 나아가 이하 설명하는 기술은 EMR을 통해 현재 환자의 질병을 사전에 추정할 수 있다. 이하 설명하는 기술은 빅데이터 분석에 사용되는 기술을 활용한다.
도 1은 빅데이터 분석 기반 질병 진단명 추정 시스템(100)에 대한 예이다. 시스템(100)은 클라이언트 장치(110), 분석 서버(120) 및 EMR DB(130)을 포함한다.
클라이언트 장치(110)는 분석 서버(120)에 EMR 데이터에 기반하여 질병 진단명을 추정하라는 명령을 전달한다. 또 클라이언트 장치(110)는 분석 결과에 따른 진단명, 질병과 관련된 정보 등을 수신할 수 있다. 클라이언트 장치(100)는 PC, 스마트 기기 등과 같은 사용자 장치에 해당한다.
EMR DB(130)는 EMR을 저장한 장치이다. EMR은 특정 환자에 대한 진단 및 치료 과정에서 발생한 정보를 저장한다. 따라서 EMR DB(130)는 기본적으로 환자별로 매우 많은 정보를 저장한다.
한편 클라이언트 장치(110)는 특정 EMR DB에 대한 정보(식별자, IP 등), 해당 EMR DB에 저장된 특정 EMR 데이터(데이터 식별자, 환자 식별자 등)를 분석 서버(120)에 전달할 수 있다.
분석 서버(120)는 클라이언트 장치(110)로부터 수신한 명령 및 정보에 기반하여 특정 EMR DB(130)로부터 특정 EMR 데이터에 접근한다. 분석 서버(120)는 수신한 EMR 데이터에 기반하여 대응되는 질병 진단명을 추정한다. 분석 서버(120)는 질병 진단명 추정을 위한 모델을 활용하여 진단명을 추정할 수 있다. 분석 모델 DB(125)는 EMR을 입력으로 질병 진단명을 추정하기 위한 모델을 보유한다. 도 1에서 분석 모델 DB(125)를 별도의 객체로 도시하였으나 분석 서버(120)에 포함된 형태일 수 있다.
나아가 EMR에 기반하여 질명 진단명을 추정하는 기법은 네트워크상의 시스템뿐만 아니라, PC와 같은 개별 컴퓨터 장치에서 동작할 수도 있다. 즉 컴퓨터 장치가 질병 진단명 추정을 위한 프로그램을 실행하고, 일정한 EMR을 입력받아 진단명을 추정할 수 있다. 다만 이하 설명의 편의를 위하여 도 1에서 설명한 빅데이터 분석 기반 질병 진단명 추정 시스템(100)을 기준으로 설명한다. 분석 서버(120)도 일종의 컴퓨터 장치이다. 따라서 컴퓨터 장치가 EMR에 기반하여 질명 진단명을 추정한다고 할 수 있다.
도 2는 빅데이터 분석 기반 질병 진단명 추정 방법(200)에 대한 순서도의 예이다. 컴퓨터 장치는 먼저 빅데이터 기반한 분석 모델을 생성한다(210). 여기서 컴퓨터 장치는 전술한 분석 서버(120), 개별 컴퓨터 장치 등을 포함하는 의미이다. 분석 모델은 이후 EMR 데이터를 이용하여 질병 진단명을 추정하기 위한 모델에 해당한다. 예컨대, 텍스트 분류에 사용되는 나이브 베이즈(Naive Bayes) 분류 모델이 사용될 수 있다.
분석을 위한 모델이 마련된 상황에서 컴퓨터 장치는 진단명 추정을 위한 EMR 데이터를 입력받는다. 진단명 추정을 위한 EMR 데이터를 이하 타겟 EMR이라고 명명한다. 타겟 EMR은 기본적으로 비정형 데이터로 구성된다. 따라서 분석을 위해 먼저 컴퓨터 장치는 타겟 EMR에 대한 텍스트 마이닝을 수행하면서 정형화된 데이터를 생성한다(220).
컴퓨터 장치는 정형화된 EMR 데이터에서 질병과 관련된 키워드를 추출한다(230). 컴퓨터 장치는 추출한 키워드는 분석 모델에 입력하여 질병 진단명을 추정한다(240). 나아가 컴퓨터 장치는 추정한 질병 진단명, 진단한 질병 정보를 일정하게 가공할 수 있다(250). 예컨대, 컴퓨터 장치는 질병 진단명과 함께 관련된 정보를 시각화하여 출력할 수 있다.
도 3은 전자의무기록에서 빅데이터 분석 모델을 생성하는 과정(300)에 대한 예이다. EMR DB(130)는 진료/치료와 관련된 다양한 정보를 저장한다. EMR DB(130)는 입원/퇴원 기록지, 진료/간호기록지, 수술/간호기록지, 응급 기록지 등을 포함한다. 입원 기록지는 입원 과정에서 환자에 대하여 기재한 자료이다. 입원 기록지는 입원을 하게 된 경위, 환자의 상태 등을 기록한다. 퇴원 기록지는 퇴원 과정에서 환자에 대하여 기재한 자료이다. 퇴원 기록지는 퇴원시의 환자 상태, 이후 치료 과정 등에 대한 정보를 기록한다. 진료/간호 기록지는 진료 과정에서 환자에 대하여 기재한 정보이다. 진료/간호 기록지는 시간의 흐름에 따른 환자 상태, 측정한 생체 정보(혈압, 체온, 맥박 등), 처방한 약물 등에 대한 정보를 기록한다. 수술/간호기록지는 수술 과정과 수술 이후 환자를 치료하는 과정에서 발생한 정보를 저장한다. 응급 기록지는 환자에 대한 응급 진료에 대한 정보를 저장한다. 도 3에 도시한 EMR의 종류는 하나의 예이며, 다양한 분류에 따라 환자에 대한 다양한 정보가 저장될 수 있다.
샘플 EMR은 분석 모델 구축에 사용되는 입력 데이터를 의미한다. 도 3은 부석 서버(120)가 분석 모델을 구축하는 예를 설명하였다. 다만 분석 서버(120)가 아닌 별도의 컴퓨터 장치가 사전에 분석 모델을 구축할 수도 있다. 분석 서버(120)는 샘플 EMR을 입력받는다(310). 도 3에서 우측 사각형 점선으로 표시한 부분은 분석 서버(120)가 수행하는 과정에 해당한다. 분석 서버(120)는 샘플 EMR에서 비정형 데이터를 일정하게 전처리한다(320). 이를 통해 분석 서버(120)는 비정형 데이터를 정형 데이터로 변환한다. 전처리 과정은 후술한다. 이후 분석 서버(120)는 정형화된 EMR 데이터에서 질병과 관련된 키워드를 추출한다(330). 분석 서버(120)는 추출한 키워드와 해당 EMR에서 진단된 질병 진단명을 매칭한다(340). 예컨대, 분석 서버(120)는 키워드와 관련된 진별 진단명을 매칭한 테이블을 생성할 수 있다. 분석 서버(120)는 생성한 모델을 분석 모델 DB에 저장할 수 있다. 이후 질병 진단명 추정을 위한 분석 모델은 생성한 테이블을 사용하여 질병 진단명을 추정한다. 한편 분석 모델은 EMR 데이터를 사용하지 않고 다른 루트로 생성될 수도 있다. 예컨대, 분석 모델은 의료 분야에서 널리 알려진 정보를 이용하여 생성될 수도 있다.
도 4는 입력된 전자의무기록에서 질병 진단명을 추정하는 과정(400)에 대한 예이다. 도 4에서 우측 사각형 점선으로 표시한 부분은 분석 서버(120)가 수행하는 과정에 해당한다. 타겟 EMR은 질병 진단명 추정을 위한 입력 데이터를 의미한다. 분석 서버(120)는 EMR DB(130)로부터 타겟 EMR을 입력받는다(410). 분석 서버(120)는 타겟 EMR에서 비정형 데이터를 일정하게 전처리한다(420). 이를 통해 분석 서버(120)는 비정형 데이터를 정형 데이터로 변환한다. 이후 분석 서버(120)는 정형화된 EMR 데이터에서 질병과 관련된 키워드를 추출한다(430).
도 5는 전자의무기록의 비정형 데이터를 정형화하는 과정(500)에 대한 예이다. 도 5는 비정형 데이터를 전처리하여 정형화 데이터를 생성하는 예이다. 분석 서버(120)는 자연어 처리 프로그램을 사용하여 비정형 데이터를 전처리할 수 있다. 예컨대, EMR 데이터의 텍스트가 한국어라면, 자연한 분석 툴인 KoNLP(Korean Natural Language Processing)를 이용하여 비정형 데이터를 전처리할 수도 있다.
분석 서버(120)는 입력 텍스트 데이터에서 불용어를 제거한다(510). 이후 분석 서버(120)는 입력 텍스트 데이터를 문장 단위로 구분 처리한다(520). 분석 서버(120)는 문장 단위 별로 해당 문장(단어)의 어근을 추출하거나, 해당 문장(단어)을 기본형으로 변환한다(530). 마지막으로 분석 서버(120)는 추출한 키워드에 대하여 일정한 가중치를 부여할 수 있다. 예컨대, 분석 서버(120)는 키워드에 대하여 단어/역단어 빈도 결합(TF-IDF) 가중치를 부여할 수 있다. TF-IDF(Term Frequency - Inverse Document Frequency)는 텍스트 마이닝에서 이용하는 가중치이다. 문서군이 있을 때 어떤 단어가 특정 문서 내에서 얼마나 중요한 것인지를 나타내는 통계적 수치이다. TF(단어 빈도, term frequency)는 특정한 단어가 문서 내에 얼마나 자주 등장하는지를 나타내는 값이다. 하지만 단어 자체가 문서군 내에서 자주 사용되는 경우, 이것은 그 단어가 흔하게 등장한다는 것을 의미한다. 이것을 DF(문서 빈도, document frequency)라고 하며, 이 값의 역수를 IDF(역문서 빈도, inverse document frequency)라고 한다. TF-IDF는 TF와 IDF를 곱한 값이다.
도 5는 EMR에 포함된 텍스트 데이터 "포상휴가 중 심한 발열, 두통, 설사 증상이 7일간 지속되어 병원 방문함"을 예로 도시한다. 입력 텍스트 데이터에서 조사 등과 같은 불용어가 제거된다. 도 5에서 제거된 불용어는 사각형 박스로 표시하였다. 불용어가 제거된 텍스트 데이터에서 문장 단위를 텍스트를 구분하면 "포상휴가/ 심한/ 발열/ 두통/ 설사/ 증상/ 7일/ 지속"이 될 수 있다. 이후 문장 단위로 문장(단어)을 어근 또는 기본형으로 변환한다. 변환된 결과는 "포상휴가 심하다 발열 두통 설사 증상 7일 지속"이다. 이후 각 키워드가 등장한 빈도 등을 연산하여 TF-IDF값을 키워드에 부여한다.
분석 서버(120)는 도 5와 같은 텍스트 마이닝 과정을 거쳐 정형화 데이터를 생성한다. 나아가 도 4에는 도시하지 않았지만, 분석 서버(120)는 정형화 데이터로 생성된 모든 단어를 사용하지 않고, 특정 질병과 관련된 키워드를 선택할 수도 있다. 분석 서버(120)는 특정 질병과 키워드의 상관 관계를 이용하여 정형화 데이터에서 키워드를 선택할 수 있다. 상관 관계는 EMR에서 특정 질병에 대하여 특정 키워드가 존재하는 빈도 및 특정 질병에 대하여 특정 키워드가 나타나는 패턴을 기준으로 상기 특정 질병과 상기 특정 키워드의 상관도를 정의한 함수일 수 있다. 예컨대, 상관 관계는 특정 질병과 관련된 EMR에서 특정 단어(키워드)가 등장하는 빈도 또는/및 진단/치료/입원 등의 각 과정에서 해당 키워드가 등장하는 패턴(예컨대, 초기 진단, 입원 과정 또는 치료 후기 중 어떤 기간에 집중도가 높음)을 파악하여 사전에 마련될 수 있다.
도 4에 대한 설명으로 돌아간다. 분석 서버(120)는 추출한 키워드를 기준으로 질병 진단명을 추정한다(440). 분석 서버(120)는 도 3에서 설명한 테이블을 사용하여, 현재 입력된 EMR에서 등장하는 키워드를 기준으로 진단명을 분류할 수 있다. 예컨대, 분석 서버(120)는 키워드의 빈도와 테이블(키워드와 질병 진단명 매칭된)을 이용하여 현재 입력된 EMR에 대응하는 진단명을 추정할 수 있다. 분석 서버(120)는 나이브 베이즈 분류(분류기) 기법을 활용하여 키워드를 기준으로 가장 확률이 높은 진단명을 도출할 수 있다. 도 4의 하단에는 나이브 베이즈 분류에 따라 입력 EMR에서 추출한 키워드로 추정되는 진단명에 대한 예를 도시한다. 도 4에 따르면 입력된 키워드와 가장 연관성 있는 질병은 감기(91%)이다. 따라서 분석 서버(120)는 현재 EMR에 따른 질병 진단명을 감기라고 도출한다.
나이브 베이즈 분류기는 스팸 메일 필터링이나 키워드 검색에 사용되는 지도 학습(Supervised Learning) 분류기이다. 나이브 베이즈 분류기의 기본 원리는 조건부 확률에 베이즈 정리를 적용하고, 문서나 데이터를 구성하는 각각의 요소들이 등장할 확률에 대하여 독립성을 가정하여 입력벡터를 분류하는 확률적 분류 기법이다. 조건부 확률(conditional probability)은 사건 A가 발생했을 때, 사건 B가 발생할 확률을 의미한다. 조건부 확률은 A와 B가 동시에 발생할 확률을 A가 발생할 확률로 나눈 값과 같다. 나이브 베이즈 분류의 동작은 해당 분야에서 널리 알려진 것이므로 자세한 설명은 생략한다. 정리하면 분석 서버(120)는 사전에 키워드와 질병 진단명을 매칭한 테이블을 활용하고, EMR을 정형화 데이터로 처리한 후 도출한 키워드를 기준으로 해당 EMR과 관련성이 높은 질병 진단명을 추정한다.
한편 분석 서버(120)는 진단명 또는 질병과 관련된 정보를 일정하게 가공하여 새로운 정보를 생성할 수 있다. 예컨대, 분석 서버(120)는 질병과 관련된 정보를 시각화한 데이터를 생성할 수 있다. 분석 서버(120)는 생성한 시각화 데이터를 클라이언트 장치에 제공할 수 있다. 클라이언트 장치(110)는 시각화 데이터를 화면에 출력할 수 있다. 도 6은 전자의무기록에서 추정한 질병 정보를 시각화한 예이다. 도 6은 일종의 단어 네트워크를 도시한 예이다. 텍스트 마이닝 분야에서 텍스트 마이닝 결과를 시각적으로 표현하기 위하여 네트워크 형태를 자주 사용한다. 텍스트 마이닝 결과 자주 등장한 단어를 크게 표현할 수 있다. 분석 서버(120)는 EMR에서 추출한 키워드 중 질병과 관련성 높은 단어를 질별 진단명과 가깝게 또는 크게 표시할 수 있다.
나아가 분석 서버(120)는 현재 EMR에 기록된 질병 진단명과 분석 모델을 통해 추정된 진단명이 서로 다른 경우, 추정된 진단명으로 기록을 업데이트할 수 있다. 이 경우 분석 서버(120)는 추정된 진단명을 EMR DB(130)에 전달하고, EMR DB(130)는 타겟 EMR에 새로운 질병 진단명을 기록할 수 있다.
전술한 빅데이터 기반 질병 진단명 추정 방법을 통해 현재 기록된 EMR에 기반하여 특정 환자에 대한 질병을 진단할 수 있다. 또 현재 EMR에 기록된 질병 진단명에 오류가 있다는 것을 알고, 질병 진단명을 갱신할 수 있다.
또한, 상술한 바와 같은 빅데이터 기반 질병 진단명 추정 방법은 컴퓨터에서 실행될 수 있는 실행가능한 알고리즘을 포함하는 프로그램(또는 어플리케이션)으로 구현될 수 있다. 상기 프로그램은 비일시적 판독 가능 매체(non-transitory computer readable medium)에 저장되어 제공될 수 있다.
비일시적 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상술한 다양한 어플리케이션 또는 프로그램들은 CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM 등과 같은 비일시적 판독 가능 매체에 저장되어 제공될 수 있다.
본 실시례 및 본 명세서에 첨부된 도면은 전술한 기술에 포함되는 기술적 사상의 일부를 명확하게 나타내고 있는 것에 불과하며, 전술한 기술의 명세서 및 도면에 포함된 기술적 사상의 범위 내에서 당업자가 용이하게 유추할 수 있는 변형 예와 구체적인 실시례는 모두 전술한 기술의 권리범위에 포함되는 것이 자명하다고 할 것이다.
100 : 빅데이터 분석 기반 질병 진단명 추정 시스템
110 : 클라이언트 장치
120 : 분석 서버
125 : 모델 DB
130 : EMR DB

Claims (13)

  1. 컴퓨터 장치가 자연어 분석 툴인 KoNLP(Korean Natural Language Processing)를 이용하여 타겟 전자의무기록(EMR)의 비정형 데이터에 대한 텍스트 마이닝으로 정형화 데이터를 생성하는 단계;
    상기 컴퓨터 장치가 특정 질환과 키워드의 상관 관계에 따라 상기 정형화 데이터에서 키워드를 추출하는 단계;
    상기 컴퓨터 장치가 상기 키워드를 사전에 마련한 나이브 베이즈 분류기에 입력하여 상기 키워드에 대응하는 타겟 진단명을 분류하는 단계; 및
    상기 컴퓨터 장치가 상기 타겟 전자의무기록에 대하여 분류된 상기 타겟 진단명을 시각화하여 화면에 출력하는 단계를 포함하되,
    상기 나이브 베이즈 분류기는 키워드와 질병에 대한 관계를 정의한 정보를 포함하고,
    상관 관계는 전자의무기록에서 특정 질병에 대하여 특정 키워드가 존재하는 빈도 및 상기 특정 질병에 대하여 상기 특정 키워드가 나타나는 패턴을 기준으로 상기 특정 질병과 상기 특정 키워드의 상관도를 정의한 정보이고,
    상기 정형화 데이터를 생성하는 단계는 상기 비정형 데이터에서 불용어를 제거하는 단계, 상기 비정형 데이터에서 문장을 구분하는 단계, 상기 비정형 데이터에 포함된 단어를 어근형 또는 기본형으로 변환하는 단계 및 상기 어근형 또는 기본형으로 변환된 단어에 TF-IDF(Term Frequency - Inverse Document Frequency) 가중치를 부여하는 단계를 포함하는 빅데이터 분석 기반 질병 진단명 추정 방법.
  2. 컴퓨터 장치가 타겟 전자의무기록(EMR)의 비정형 데이터에 대한 텍스트 마이닝으로 정형화 데이터를 생성하는 단계;
    상기 컴퓨터 장치가 특정 질환과 키워드의 상관 관계에 따라 상기 정형화 데이터에서 키워드를 추출하는 단계; 및
    상기 컴퓨터 장치가 상기 키워드를 사전에 마련한 나이브 베이즈 분류기에 입력하여 상기 키워드에 대응하는 타겟 진단명을 분류하는 단계를 포함하되,
    상기 나이브 베이즈 분류기는 키워드와 질병에 대한 관계를 정의한 정보를 포함하는 빅데이터 분석 기반 질병 진단명 추정 방법.
  3. 제2항에 있어서,
    상기 전자의무기록은 입원기록, 퇴원기록, 진료기록, 수술기록, 간호기록 및 응급기록 중 적어도 하나를 포함하는 빅데이터 분석 기반 질병 진단명 추정 방법.
  4. 제2항에 있어서,
    상기 정형화 데이터를 생성하는 단계는
    상기 비정형 데이터에서 불용어를 제거하는 단계;
    상기 비정형 데이터에서 문장을 구분하는 단계;
    상기 비정형 데이터에 포함된 단어를 어근형 또는 기본형으로 변환하는 단계; 및
    상기 어근형 또는 기본형으로 변환된 단어에 TF-IDF(Term Frequency - Inverse Document Frequency) 가중치를 부여하는 단계를 포함하는 빅데이터 분석 기반 질병 진단명 추정 방법.
  5. 제2항에 있어서,
    상기 컴퓨터 장치는 자연어 분석 툴인 KoNLP(Korean Natural Language Processing)를 이용하여 상기 정형화 데이터를 생성하는 빅데이터 분석 기반 질병 진단명 추정 방법.
  6. 제2항에 있어서,
    상기 상관 관계는 전자의무기록에서 특정 질병에 대하여 특정 키워드가 존재하는 빈도 및 상기 특정 질병에 대하여 상기 특정 키워드가 나타나는 패턴을 기준으로 상기 특정 질병과 상기 특정 키워드의 상관도를 정의한 정보인 빅데이터 분석 기반 질병 진단명 추정 방법.
  7. 제2항에 있어서,
    상기 컴퓨터 장치가 상기 타겟 전자의무기록에 대하여 분류된 상기 타겟 진단명을 시각화하여 화면에 출력하는 단계를 더 포함하는 빅데이터 분석 기반 질병 진단명 추정 방법.
  8. 제2항에 있어서,
    상기 컴퓨터 장치가 상기 타겟 전자의무기록에 저장된 진단명을 상기 타겟 진단명으로 수정하는 단계를 더 포함하는 빅데이터 분석 기반 질병 진단명 추정 방법.
  9. 컴퓨터에서 상기 제2항 내지 제8항 중 어느 하나의 항에 기재된 빅데이터 분석 기반 질병 진단명 추정 방법을 실행하기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체.
  10. 전자의무기록(EMR)을 저장하는 데이터베이스;
    상기 데이터베이스에 저장된 전자의무기록 중 타겟 전자의무기록에 대한 데이터 분석 명령을 전달하는 클라이언트 장치; 및
    상기 분석 명령을 수신하고, 상기 데이터베이스에 접급하여 상기 타겟 전자의무기록을 수신하고, 수신한 상기 타겟 전자의무기록에 포함된 비정형 데이터를 정형화하고, 특정 질환과 키워드의 상관 관계에 따라 상기 정형화된 데이터에서 키워드를 추출하고, 상기 키워드를 사전에 마련한 나이브 베이즈 분류기에 입력하여 상기 키워드에 대응하는 타겟 진단명을 도출하는 분석 서버를 포함하는 빅데이터 분석 기반 질병 진단명 추정 장치.
  11. 제10항에 있어서,
    상기 분석 서버는 자연어 분석 소프트웨어를 사용하여 상기 비정형 데이터에서 불용어를 제거하고, 상기 비정형 데이터에 포함된 단어를 어근형 또는 기본형으로 변환한 후 상기 어근형 또는 기본형으로 변환된 단어에 TF-IDF(Term Frequency - Inverse Document Frequency) 가중치를 부여하여 상기 정형화된 데이터를 생성하는 빅데이터 분석 기반 질병 진단명 추정 장치.
  12. 제10항에 있어서,
    상기 분석 서버는 상기 타겟 전자의무기록에 대하여 분류된 상기 타겟 진단명을 시각화한 데이터를 상기 클라이언트 장치에 전송하는 빅데이터 분석 기반 질병 진단명 추정 장치.
  13. 제10항에 있어서,
    상기 분석 서버는 상기 데이터베이스에 상기 타겟 진단명을 전송하는 빅데이터 분석 기반 질병 진단명 추정 장치.
KR1020170170917A 2017-12-13 2017-12-13 빅데이터 분석 기반 질병 진단명 추정 방법 및 추정 장치 KR20190070430A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020170170917A KR20190070430A (ko) 2017-12-13 2017-12-13 빅데이터 분석 기반 질병 진단명 추정 방법 및 추정 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170170917A KR20190070430A (ko) 2017-12-13 2017-12-13 빅데이터 분석 기반 질병 진단명 추정 방법 및 추정 장치

Publications (1)

Publication Number Publication Date
KR20190070430A true KR20190070430A (ko) 2019-06-21

Family

ID=67056496

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170170917A KR20190070430A (ko) 2017-12-13 2017-12-13 빅데이터 분석 기반 질병 진단명 추정 방법 및 추정 장치

Country Status (1)

Country Link
KR (1) KR20190070430A (ko)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110752035A (zh) * 2019-09-06 2020-02-04 深圳壹账通智能科技有限公司 健康数据处理方法、装置、计算机设备及存储介质
CN111199802A (zh) * 2020-01-10 2020-05-26 北京百度网讯科技有限公司 一种电子病历数据挖掘方法、装置、设备和介质
CN111599483A (zh) * 2020-05-29 2020-08-28 安徽科大讯飞医疗信息技术有限公司 一种病历集优化方法、装置、设备及存储介质
CN111724898A (zh) * 2020-06-15 2020-09-29 中国医学科学院医学信息研究所 基于大数据技术的皮肤病智能监控预警***
CN112002413A (zh) * 2020-08-23 2020-11-27 吾征智能技术(北京)有限公司 一种心血管***感染智能认知***、设备及存储介质
CN112394984A (zh) * 2020-10-29 2021-02-23 北京软安科技有限公司 一种固件代码分析方法及装置
KR20210039640A (ko) * 2019-10-02 2021-04-12 (주)디지탈쉽 비정형 데이터를 이용한 군 장비 정비 이력 모니터링 시스템 및 방법
KR20210059954A (ko) 2019-11-18 2021-05-26 주식회사 메드올스 의료 전문 자료의 과목 분류 시스템 및 방법
KR20210112041A (ko) * 2020-03-04 2021-09-14 인하대학교 산학협력단 앙상블 딥러닝과 형상 융합 기반 심장병 예측을 위한 스마트 헬스케어 모니터링 방법 및 시스템
KR20230007008A (ko) * 2021-07-05 2023-01-12 주식회사 유비케어 Phr과 진료기록에 기반한 임상의사결정 지원 방법 및 장치
WO2024005305A1 (ko) * 2022-06-27 2024-01-04 후다닥 주식회사 질병 추정 방법 및 질병 추정 장치

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9477756B1 (en) 2012-01-16 2016-10-25 Amazon Technologies, Inc. Classifying structured documents

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9477756B1 (en) 2012-01-16 2016-10-25 Amazon Technologies, Inc. Classifying structured documents

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110752035A (zh) * 2019-09-06 2020-02-04 深圳壹账通智能科技有限公司 健康数据处理方法、装置、计算机设备及存储介质
KR20210039640A (ko) * 2019-10-02 2021-04-12 (주)디지탈쉽 비정형 데이터를 이용한 군 장비 정비 이력 모니터링 시스템 및 방법
KR20210059954A (ko) 2019-11-18 2021-05-26 주식회사 메드올스 의료 전문 자료의 과목 분류 시스템 및 방법
CN111199802A (zh) * 2020-01-10 2020-05-26 北京百度网讯科技有限公司 一种电子病历数据挖掘方法、装置、设备和介质
KR20210112041A (ko) * 2020-03-04 2021-09-14 인하대학교 산학협력단 앙상블 딥러닝과 형상 융합 기반 심장병 예측을 위한 스마트 헬스케어 모니터링 방법 및 시스템
CN111599483A (zh) * 2020-05-29 2020-08-28 安徽科大讯飞医疗信息技术有限公司 一种病历集优化方法、装置、设备及存储介质
CN111599483B (zh) * 2020-05-29 2023-12-22 讯飞医疗科技股份有限公司 一种病历集优化方法、装置、设备及存储介质
CN111724898A (zh) * 2020-06-15 2020-09-29 中国医学科学院医学信息研究所 基于大数据技术的皮肤病智能监控预警***
CN112002413B (zh) * 2020-08-23 2023-09-29 吾征智能技术(北京)有限公司 一种心血管***感染智能认知***、设备及存储介质
CN112002413A (zh) * 2020-08-23 2020-11-27 吾征智能技术(北京)有限公司 一种心血管***感染智能认知***、设备及存储介质
CN112394984A (zh) * 2020-10-29 2021-02-23 北京软安科技有限公司 一种固件代码分析方法及装置
CN112394984B (zh) * 2020-10-29 2022-09-30 北京智联安行科技有限公司 一种固件代码分析方法及装置
KR20230007008A (ko) * 2021-07-05 2023-01-12 주식회사 유비케어 Phr과 진료기록에 기반한 임상의사결정 지원 방법 및 장치
WO2024005305A1 (ko) * 2022-06-27 2024-01-04 후다닥 주식회사 질병 추정 방법 및 질병 추정 장치

Similar Documents

Publication Publication Date Title
KR20190070430A (ko) 빅데이터 분석 기반 질병 진단명 추정 방법 및 추정 장치
JP7008772B2 (ja) 電子診療レコードからの医学的状態および事実の自動的特定および抽出
US11094034B2 (en) Determining appropriate medical image processing pipeline based on machine learning
JP7157758B2 (ja) モデル支援コホート選択を行うシステム及び方法
US10929420B2 (en) Structured report data from a medical text report
US11881293B2 (en) Methods for automatic cohort selection in epidemiologic studies and clinical trials
US20200160510A1 (en) Automated Patient Complexity Classification for Artificial Intelligence Tools
US11651252B2 (en) Prognostic score based on health information
JP2017174405A (ja) オープンデータ及び臨床医の入力を用いて患者の治療リスクを評価するシステム及び方法
US11527312B2 (en) Clinical report retrieval and/or comparison
US11728014B2 (en) Deep learning architecture for analyzing unstructured data
EP2191399A1 (en) System and method for analyzing electronic data records
US20180121603A1 (en) Identification of Related Electronic Medical Record Documents in a Question and Answer System
Morioka et al. Automatic classification of ultrasound screening examinations of the abdominal aorta
Abaho et al. Assessment of contextualised representations in detecting outcome phrases in clinical trials
Pella et al. Application for text processing of cardiology medical records
Crowson et al. Machine learning for pattern detection in cochlear implant FDA adverse event reports
EP4076153A1 (en) Aortic stenosis classification
JP7355303B2 (ja) レセプトデータ有意性判定プログラム、レセプトデータ有意性判定方法、及び、情報処理装置
Al-Ars et al. NLICE: Synthetic Medical Record Generation for Effective Primary Healthcare Differential Diagnosis
Chen et al. Ontology-based and user-focused automatic text summarization (OATS): Using COVID-19 risk factors as an example
US20240185972A1 (en) Line of Therapy Identification from Clinical Documents
JP6501531B2 (ja) 情報処理装置、情報処理方法及びプログラム
Ashcroft The consistency of a variety of machine learning and statistical models in predicting clinical risks of individual patients: A Longitudinal cohort study using cardiovascular disease as exemplar
Shamout Machine learning for the detection of clinical deterioration on hospital wards

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application