KR20200010624A - 머신러닝을 이용한 빅데이터 통합진단 예측 시스템 - Google Patents

머신러닝을 이용한 빅데이터 통합진단 예측 시스템 Download PDF

Info

Publication number
KR20200010624A
KR20200010624A KR1020180072207A KR20180072207A KR20200010624A KR 20200010624 A KR20200010624 A KR 20200010624A KR 1020180072207 A KR1020180072207 A KR 1020180072207A KR 20180072207 A KR20180072207 A KR 20180072207A KR 20200010624 A KR20200010624 A KR 20200010624A
Authority
KR
South Korea
Prior art keywords
data
analysis
machine learning
unit
collected
Prior art date
Application number
KR1020180072207A
Other languages
English (en)
Inventor
임학수
Original Assignee
주식회사 링크트리
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 링크트리 filed Critical 주식회사 링크트리
Priority to KR1020180072207A priority Critical patent/KR20200010624A/ko
Publication of KR20200010624A publication Critical patent/KR20200010624A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 머신러닝을 이용한 빅데이터 통합진단 예측 시스템 및 그 방법에 관한 것으로서, 수집부가 접속된 웹사이트로 또는 IoT디바이스로부터 설정된 키워드에 대응하는 데이터를 수집하는 (a) 단계; 분류부가 수집한 데이터의 분석 및 학습을 위해 기 설정된 값과 부합하도록 분류하여 데이터베이스에 저장하는 (b) 단계; 분석부가 분석수행 정의데이터에 부합하도록 데이터베이스에 저장된 데이터를 분석하여 분석정보를 생성하는 (c) 단계; 학습부가 수집한 데이터 또는 분류한 데이터에 대한 기계학습을 수행하는 (d) 단계; 및 예측진단부가 기계학습 결과를 토대로 수집한 데이터 또는 분류한 데이터에 대한 예측값과 그에 따른 신뢰도를 포함하는 보고서를 생성하는 (e) 단계를 포함한다.

Description

머신러닝을 이용한 빅데이터 통합진단 예측 시스템{Big Data Integrated Diagnosis Prediction System Using Machine Learning}
본 발명은 머신러닝을 이용한 빅데이터 통합진단 예측 시스템 및 그 방법에 관한 것으로 더욱 상세하게는, 웹사이트 또는 IoT 디바이스로부터 수집한 각종 데이터에 대한 분류와 분석을 통해 평가항목을 계량화하고, 계량화한 편향과 가중치를 딥러닝 기법을 통해 학습하여 신뢰도와 오차를 함께 도출해 정확성을 향상시키는 기술에 관한 것이다.
빅데이터란 기존의 데이터베이스 관리 도구로 데이터를 수집, 저장, 관리, 분석할 수 있는 역량을 넘어서는 대량의 정형 또는 비정형 데이터 집합 및 이러한 데이터로부터 가치를 추출하고 결과를 분석하는 기술을 의미한다.
다양한 종류의 대용량 데이터에 대한 생성, 수집, 분석, 표현을 그 특징으로 하는 빅데이터 기술의 발전은 다변화된 현대 사회를 더욱 정확하게 예측하여 효율적으로 작동하게 하고 개인화된 현대 사회 구성원마다 맞춤형정보를 제공, 관리, 분석할 수 있도록 한다.
이와 같이, 빅데이터는 정치, 사회, 경제, 문화, 과학 기술 등 전 영역에 걸쳐서 사회와 인류에게 유용한 정보를 제공할 수 있는 가능성을 제시하며 그 중요성이 부각되고 있다.
빅데이터 분석에는 기존 통계학과 전산학에서 사용되던 데이터 마이닝, 기계 학습, 자연 언어 처리, 패턴 인식등이 동원될 수 있다. 특히, 최근 소셜 미디어와 같은 비정형 데이터의 증가로 인해 분석 기법들 중에서 텍스트 마이닝, 오피니언 마이닝, 소셜 네트워크 분석, 군집 분석 등이 주목을 받고 있다.
그러나, 종래의 빅데이터 분석은 데이터의 형태나 특징이 변하는 경우 모델을 다시 분석하고 지정하여 분석 프로그램을 다시 실행해야만 하며, 정해진 데이터에 정해진 분석만이 가능하다는 문제점이 있다.
또한, 정해진 빅데이터 저장용 데이터베이스에서 값을 추출하여 프로그램이 가공 분석하는 형태로 운영되는데, 원본 데이터베이스와 타겟 데이터베이스를 지정할 수 없다는 문제점이 있다.
아울러, 종래의 빅데이터 분석 도구는 데이터베이스에 저장된 데이터만을 색인하여 분석결과를 제공하기 때문에, 빅데이터 수집 중에는 분석결과 확인이 어렵고 빅데이터 수집이 완료된 이후 데이터베이스로부터 수집된 데이터를 색인하여 분석해야하는 번거로움이 있다.
한국등록특허 제1638986호
본 발명의 목적은, 웹사이트 또는 IoT 디바이스로부터 수집한 각종 데이터에 대한 분류와 분석을 통해 평가항목을 계량화하고, 계량화한 편향과 가중치를 딥러닝 기법을 통해 학습하여 신뢰도와 오차를 함께 도출해 정확성을 향상시키는데 있다.
본 발명의 목적은, 수집대상 데이터의 형태 및 모델이 변경될 때 마다 분석도구를 재개발 하지 않고, 로직의 변경 없이 파라미터 변경만으로 실시간으로 수집대상 데이터에 대한 분석이 가능함으로써, 원본 데이터베이스, 통신장비의 테이블 규격 및 통신 프로토콜이 변경되어도 분석 프로그램을 다시 실행하지 않아도 됨에 따라 유연하고 유지보수가 용이하며 재개발에 소요되는 비용을 절감하는데 있다.
이러한 기술적 과제를 달성하기 위한 본 발명의 일 실시예는 머신러닝을 이용한 빅데이터 통합진단 예측 시스템으로서, 디바이스로부터 설정된 기초데이터에 대응하는 데이터를 수집하는 수집부; 수집한 데이터의 분석 및 학습을 위해 기 설정된 값과 부합하도록 분류한 데이터를 데이터베이스에 저장하는 분류부; 기 설정된 분석수행 정의데이터에 부합하도록 데이터베이스에 저장된 데이터를 분석하여 분석정보를 생성하는 분석부; 수집한 데이터 또는 분류한 데이터에 대한 기계학습을 수행하는 학습부; 및 기계학습 결과를 토대로 상기 수집한 데이터 또는 분류한 데이터에 대한 예측값과 그에 따른 신뢰도를 포함하는 보고서를 생성하는 예측진단부를 포함하는 것을 특징으로 한다.
수집부는 디바이스와 접속된 웹사이트로부터 수집한 데이터를 빅데이터 분석을 위한 데이터베이스에 저장하는 Legacy DB모듈; 및 디바이스와 접속된 IoT 기기로부터 수집한 데이터를 빅데이터 분석을 위한 데이터베이스에 저장하는 IoT DB모듈을 포함하는 것을 특징으로 한다.
기초데이터는, 데이터 수집방법, 수집한 데이터 저장경로, 테이블 정보, 필드 정보, 키워드, 수집한 데이터의 크기, 데이터 수집 시간 또는 수집대상 사이트 중에 어느 하나를 포함하는 것을 특징으로 한다.
분석부는 수집한 데이터의 분석 및 학습을 위해 기 설정된 값과 부합하도록 분류하는 코디네이터모듈; 및 코디네이터모듈에 의해 분류된 데이터를 메모리 기반으로 저장 및 관리하는 통합DB를 포함하는 것을 특징으로 한다.
분석수행 정의데이터는 분석실행 방식, 분석수행 주기, 분석대상 평가항목 또는 가중치 중에 어느 하나를 포함하고, 분석정보는 키워드 각각에 대한 빈도수를 수치화한 데이터를 포함하는 것을 특징으로 한다.
예측값은 수집한 데이터 또는 분류한 데이터에 대한 판매량, 호감도, 증가율 또는 수요량 중에 어느 하나의 수치형 예측값과, 업/다운, 매수/매도 또는 호감/비호감 중에 어느 하나의 범주형 예측값을 포함하는 것을 특징으로 한다.
전술한 시스템을 기반으로 하는 본 발명의 일 실시예에 따른 머신러닝을 이용한 빅데이터 통합진단 예측 방법은, 수집부가 접속된 웹사이트로 또는 IoT디바이스로부터 설정된 키워드에 대응하는 데이터를 수집하는 (a) 단계; 분류부가 수집한 데이터의 분석 및 학습을 위해 기 설정된 값과 부합하도록 분류하여 데이터베이스에 저장하는 (b) 단계; 분석부가 분석수행 정의데이터에 부합하도록 데이터베이스에 저장된 데이터를 분석하여 분석정보를 생성하는 (c) 단계; 학습부가 수집한 데이터 또는 분류한 데이터에 대한 기계학습을 수행하는 (d) 단계; 및 예측진단부가 기계학습 결과를 토대로 수집한 데이터 또는 분류한 데이터에 대한 예측값과 그에 따른 신뢰도를 포함하는 보고서를 생성하는 (e) 단계를 포함한다.
바람직하게 (a) 단계는 수집부가 설정된 기초데이터에 포함된 데이터 수집대상이 웹사이트인지 또는 IoT 디바이스인지 여부를 판단하는 (a-1) 단계; (a-1) 단계의 판단결과, 데이터 수집대상이 웹사이트인 경우, 수집부가 접속한 웹사이트로부터 수집한 데이터를 Legacy DB모듈을 통해 데이터베이스에 저장하는 (a-2) 단계; 및 (a-1) 단계의 판단결과, 데이터 수집대상이 IoT 디바이스인 경우, 수집부가 접속한 IoT 디바이스로부터 수집한 데이터를 IoT DB모듈을 통해 데이터베이스에 저장하는 (a-3) 단계를 포함하는 것을 특징으로 한다.
(b) 단계는, 분류부가 코디네이터모듈에 의해 설정된 값을 색인하는 (b-1) 단계; 분류부가 코디네이터모듈이 색인한 설정값과 부합하도록 수집된 데이터를 분류하는 (b-2) 단계; 및 분류부가 분류된 데이터를 통합DB를 통해 메모리 기반의 저장소에 저장하는 (b-3) 단계를 포함하는 것을 특징으로 한다.
(c) 단계는, 분석부가 분석실행 방식, 분석수행 주기, 분석대상 평가항목 또는 가중치 중에 어느 하나를 포함하는 분석수행 정의데이터를 색인하는 (c-1) 단계; 분석부가 데이터 분석대상이 웹사이트인지 또는 IoT 디바이스인지 여부를 판단하는 (c-2) 단계; (c-2) 단계의 판단결과, 데이터 분석대상이 웹사이트인 경우, 분석부가 Legacy DB모듈에 저장된 데이터를 분석수행 정의데이터에 부합하도록 분석하는 (c-3) 단계; (c-2) 단계의 판단결과, 데이터 분석대상이 IoT 디바이스인 경우, 분석부가 IoT DB모듈에 저장된 데이터를 분석수행 정의데이터에 부합하도록 분석하는 (c-4) 단계; 및 분석부가 분석한 데이터를 키워드 각각에 대한 빈도수를 수치화한 분석정보를 생성하는 (c-5) 단계를 포함하는 것을 특징으로 한다.
(d) 단계는, 학습부가 기계학습을 위해 입력층, 은닉층, 학습모델 및 파라미터 각각의 값을 입력받는 (d-1) 단계; 학습부가 기계학습 수행을 위해 정의된 기능을 색인하는 (d-2) 단계; 학습부가 기계학습 수행을 위한 데이터 마이닝 기법을 색인하는 (d-3) 단계; 및 학습부가 색인한 기능 및 데이터 마이닝 기법을 통해 기계학습을 실행하여 기계학습 결과정보를 생성하는 (d-4) 단계를 포함하는 것을 특징으로 한다.
(e) 단계는, 예측진단부가 학습부로부터 기계학습 결과를 인가받는 (e-1) 단계; 예측진단부가 수집한 데이터 또는 분류한 데이터를 인가받는 (e-2) 단계; 및 예측진단부가 기계학습 결과를 토대로 수집한 데이터 또는 분류한 데이터에 대한 예측값과 그에 따른 신뢰도를 포함하는 보고서를 생성하는 (e-3) 단계를 포함하는 것을 특징으로 한다.
상기와 같은 본 발명에 따르면, 웹사이트 또는 IoT 디바이스로부터 수집한 각종 데이터에 대한 분류와 분석을 통해 평가항목을 계량화하고, 계량화한 편향과 가중치를 딥러닝 기법을 통해 학습하여 신뢰도와 오차를 함께 도출해 정확성을 향상시키는 효과가 있다.
본 발명에 따르면, 수집대상 데이터의 형태 및 모델이 변경될 때 마다 분석도구를 재개발 하지 않고, 로직의 변경 없이 파라미터 변경만으로 실시간으로 수집대상 데이터에 대한 분석이 가능함으로써, 원본 데이터베이스, 통신장비의 테이블 규격 및 통신 프로토콜이 변경되어도 분석 프로그램을 다시 실행하지 않아도 됨에 따라 유연하고 유지보수가 용이하며 재개발에 소요되는 비용을 절감하는 효과가 있다.
도 1은 본 발명의 일 실시예에 따른 머신러닝을 이용한 빅데이터 통합진단 예측 시스템을 도시한 구성도.
도 2는 본 발명의 일 실시예에 따른 머신러닝을 이용한 빅데이터 통합진단 예측 시스템의 세부구성을 도시한 도면.
도 3은 본 발명의 일 실시예에 따른 머신러닝을 이용한 빅데이터 통합진단 예측 시스템의 동작흐름을 도시한 도면.
도 4는 본 발명의 일 실시예에 따른 머신러닝을 이용한 빅데이터 통합진단 예측 시스템의 프레임워크를 도시한 도면.
도 5는 본 발명의 일 실시예에 따른 머신러닝을 이용한 빅데이터 통합진단 예측 방법을 도시한 순서도.
도 6은 본 발명의 일 실시예에 따른 머신러닝을 이용한 빅데이터 통합진단 예측 방법의 제S100단계를 도시한 순서도.
도 7은 본 발명의 일 실시예에 따른 머신러닝을 이용한 빅데이터 통합진단 예측 방법의 제S200단계를 도시한 순서도.
도 8은 본 발명의 일 실시예에 따른 머신러닝을 이용한 빅데이터 통합진단 예측 방법의 제S300단계를 도시한 순서도.
도 9는 본 발명의 일 실시예에 따른 머신러닝을 이용한 빅데이터 통합진단 예측 방법의 제S400단계를 도시한 순서도.
도 10은 본 발명의 일 실시예에 따른 머신러닝을 이용한 빅데이터 통합진단 예측 방법의 제S500단계를 도시한 순서도.
본 발명의 구체적인 특징 및 이점들은 첨부 도면에 의거한 다음의 상세한 설명으로 더욱 명백해질 것이다. 이에 앞서, 본 명세서 및 청구범위에 사용된 용어나 단어는 발명자가 그 자신의 발명을 가장 최선의 방법으로 설명하기 위해 용어의 개념을 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야 할 것이다. 또한, 본 발명에 관련된 공지 기능 및 그 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는, 그 구체적인 설명을 생략하였음에 유의해야 할 것이다.
도 1은 본 발명의 일 실시예에 따른 머신러닝을 이용한 빅데이터 통합진단 예측 시스템(S)을 도시한 구성도이고, 도 2는 본 발명의 일 실시예에 따른 머신러닝을 이용한 빅데이터 통합진단 예측 시스템(S)의 세부구성을 도시한 도면이다.
이하에서는 그 구체적인 언급을 생략하겠으나, 본 발명의 일 실시예에 따른 머신러닝을 이용한 빅데이터 통합진단 예측 시스템(S)은 파이선(python)이 제공하는 scikit-learn, tensorflow 또는 keras 중에 어느 하나의 라이브러리 및 함수를 설정하여 모듈별로 선택 적용이 가능한 프레임워크가 탑재되어 있는 것으로 상정한다.
도 1 및 도 2에 도시된 바와 같이, 본 발명의 일 실시예에 따른 머신러닝을 이용한 빅데이터 통합진단 예측 시스템(S)은, 수집부(100) 분류부(200), 분석부(300), 학습부(400) 및 예측진단부(500)를 포함하여 구성된다.
먼저, 수집부(100)는 설정된 키워드 및 기초데이터에 대응하는 데이터를 수집하되, 수집한 데이터를 빅데이터 분석을 위한 데이터베이스에 저장하는 Legacy DB모듈(102)과, IoT 디바이스로부터 수집한 데이터를 빅데이터 분석을 위한 데이터베이스에 저장하는 IoT DB모듈(104)을 포함하여 구성된다.
이때, 기초데이터는 데이터 수집방법, 수집한 데이터 저장경로, 테이블 정보, 필드 정보, 키워드, 수집한 데이터의 크기, 데이터 수집 시간 또는 수집대상 사이트 중에 어느 하나를 포함할 수 있다.
또한, 빅데이터 저장을 위한 데이터베이스는 카산드라(Kasandra), 하둡(hadoop) 또는 몽고DB(mongoDB) 중에 어느 하나로 구성될 수 있으나, 본 발명이 이에 국한되는 것은 아니다.
아울러, 수집부(100)가 수집하는 데이터는 텍스트, 음성 또는 이미지 중에 어느 하나를 포함하고, 태그와 키워드를 기준으로 댓글을 수집할 수 있다.
분류부(200)는 수집한 데이터의 분석 및 학습을 위해 기 설정된 값과 부합하도록 분류하는 코디네이터모듈(202)과, 코디네이터모듈(202)에 의해 분류된 데이터를 메모리 기반으로 저장 및 관리하는 통합DB(204)를 포함하여 구성된다.
이때, 수집한 데이터 분류를 위해 기 설정된 값은 데이터 분류 방식과 파라미터 설정을 위한 값으로 관리자에 의해 변경될 수 있다.
본 발명의 일 실시예에 따른 분류부(200)에 의하면 수집대상 데이터의 형태, 통신장비의 테이블 규격, 또는 통신 프로토콜이 변경될 경우, 로직의 변경 없이 파라미터 변경만으로 변경된 수집대상 데이터나 모델에 대한 데이터 분류가 가능하다.
분석부(300)는 수집한 데이터 분석을 위해 분석대상 데이터가 저장된 데이터베이스를 선별하고, 분석수행 정의데이터에 부합하도록 데이터베이스에 저장된 데이터를 분석하여 분석정보를 생성한다.
이때, 데이터베이스 선별은 원본 데이터가 저장된 수집부(100)의 Legacy DB모듈(102) 또는 IoT DB모듈(104)와, 분류된 데이터가 저장된 분류부(200)의 통합DB(204) 중에 어느 하나를 선별하는 것으로 이해함이 바람직하다.
또한, 분석수행 정의데이터는 분석실행 방식, 분석수행 주기, 분석대상 평가항목 또는 가중치 중에 어느 하나를 포함하며, 분석정보는 키워드 각각에 대한 빈도수를 수치화한 데이터를 포함하여 구성된다.
학습부(400)는 입력받은 입력층, 은닉층, 학습모델 및 파라미터 각각의 값에 부합하도록 딥러닝을 통한 학습을 수행하되, 수집부(100)에 의해 수집된 데이터 또는 분류부(200)에 의해 분류된 데이터의 학습 수행을 위한 기능들을 정의하는 기계학습 정의모듈(402)과, 기계학습 정의모듈(402)에 정의된 기능을 통해 기계학습을 실행하여 기계학습 결과정보를 생성하는 기계학습 실행모듈(404)을 포함하여 구성된다.
이때, 기계학습 실행모듈(404)은 규칙 정의에 의한 지도학습(supervised learning) 또는 규칙을 찾아내는 비지도학습(unsupervised learning) 중에 어느 하나의 데이터 마이닝 기법으로 학습을 수행하며, 관리자에 의해 학습 기법에 대한 설정이 변경될 수 있다.
본 발명의 일 실시예에 따른 학습부(400)의 지도학습을 통해 지식베이스(Knowledge Base)와 의사결정규칙(Decision Rules)을 내재한 전문가시스템(Expert System)을 보완하고, 비지도학습을 통해 비구조적인 의사결정을 지원하는 의사결정지원시스템(Decision support system)을 보완할 수 있다.
예측진단부(500)는 학습부(400)로부터 인가받은 기계학습 결과정보를 토대로 수집한 데이터 또는 분류한 데이터에 대한 예측값과 그에 따른 신뢰도를 포함하는 보고서를 생성한다.
이때, 예측값은 판매량, 호감도, 증가율 또는 수요량 중에 어느 하나의 수치형 예측값과, 업/다운, 매수/매도 또는 호감/비호감 중에 어느 하나의 범주형 예측값을 포함할 수 있다.
또한, 예측진단부(500)가 생성하는 보고서는 시계열적인 차트, 다이어그램 또는 동영상 형태의 데이터 흐름도 중에 어느 하나를 포함하며,
도 3은 본 발명의 일 실시예에 따른 머신러닝을 이용한 빅데이터 통합진단 예측 시스템(S)의 동작흐름을 도시한 도면이다.
도 3에 도시된 바와 같이, 먼저 수집부(100)가 머신러닝을 수행할 프론트엔드 및 백엔드 프레임워크를 입력받는다(step 1).
이어서, 수집부(100)가 데이터의 수집방법, 데이터베이스, 테이블 정보, 필드정보 및 통합데이터베이스에 대한 설정을 정의한다(step 2).
뒤이어, 분류부(200)가 데이터분석을 위한 방식과 파라미터를 정의한다(step 3).
이어서, 분석부(300)가 지정한 주기 동안 정해진 규칙에 따라 수집된 정보를 분석한다(step 4).
뒤이어, 학습부(400)가 기계학습을 위한 입력층, 은닉층, 학습모델 및 파라미터를 정의한다(step 5).
이어서, 학습부(400)가 정의된 값에 부합하도록 기계학습을 수행한다(step 6).
그리고, 예측진단부(500)가 학습 결과를 토대로 예측값과 그에 따른 신뢰도를 포함하는 보고서를 생성한다(step 7).
이때, step 1은 최초에 한번 실행되고, step 2, step 3 및 step 5는 모델의 변경이 있는 경우 사용자에 의해 변경이 가능하며(모델 변경의 제안은 머신러닝 엔진의 자동 추천을 통해 변경될 수 있음), step 4 및 step 6은 주기적으로 자동 실행된다.
도 4는 본 발명의 일 실시예에 따른 머신러닝을 이용한 빅데이터 통합진단 예측 시스템(S)의 프레임워크 구성을 도시한 도면이다.
도 4에 도시된 바와 같이, 프레임워크 하단부터 머신러닝을 위한 파이선 라이브러리인 Scikit-learn라이브러리와 수치해석을 위한 Numpy, 수치해석과 시각화를 위한 pandas, 시각화를 위한 matplotlib와 seaborn을 구성하여 공통 라이브러리로 사용한다.
또한, 사용자의 설정에 따라 backend를 tensorflow나 theano등을 선별적으로 구성할 수 있도록 하고 frontend는 keras/pytorch로 구성하였다.
각종 레거시 데이터베이스와 IoT 디바이스로부터 정보 수집을 위한 Collector를 구성하였고, 인티그레이션 용도로 Oracle과 MySQL을, 기존 빅데이터 저장 도구인 Hadoop, MonogoDB, Redis, Cassandra 및 elastic connnector들을 배치하였다.
데이터 분류 및 분석을 위해 Data coordinator와 Integration DB를 구성하였고, M/L level의 분석과 학습을 ML student가 맡아서 진행하고, D/L level(신경망)의 분석과 학습을 DL student가 맡아서 진행하도록 구성하였다.
WAS는 각종 웹 Application을 이용하여 Report를 자동으로 생성하게 되고 이것을 Election Viewer로 사용자에게 보여줌으로써, Mobile Device, Web, Application 등 다양한 매체로 정보를 제공할 수 있다.
이하, 도 5를 참조하여 본 발명의 일 실시예에 따른 머신러닝을 이용한 빅데이터 통합진단 예측 방법에 대해 살피면 아래와 같다.
먼저, 수집부(100)가 접속된 웹사이트 또는 IoT디바이스로부터 설정된 키워드에 대응하는 데이터를 수집한다(S100).
이어서, 분류부(200)가 수집한 데이터의 분석 및 학습을 위해 기 설정된 값과 부합하도록 분류하여 데이터베이스에 저장한다(S200).
뒤이어, 분석부(300)가 분석수행 정의데이터에 부합하도록 데이터베이스에 저장된 데이터를 분석하여 분석정보를 생성한다(S300).
이어서, 학습부(400)가 수집한 데이터 또는 분류한 데이터에 대한 기계학습을 수행한다(S400).
그리고, 예측진단부(500)가 기계학습 결과를 토대로 수집한 데이터 또는 분류한 데이터에 대한 예측값과 그에 따른 신뢰도를 포함하는 보고서를 생성한다(S500).
이하, 도 6을 참조하여 본 발명의 일 실시예에 따른 머신러닝을 이용한 빅데이터 통합진단 예측 방법의 제S100단계에 대해 살피면 아래와 같다.
먼저, 수집부(100)가 설정된 기초데이터에 포함된 데이터 수집대상이 웹사이트인지 또는 IoT 디바이스인지 여부를 판단한다(S102).
제S102단계의 판단결과, 데이터 수집대상이 웹사이트인 경우, 수집부(100)가 접속한 웹사이트로부터 수집한 데이터를 Legacy DB모듈(102)을 통해 데이터베이스에 저장한다(S104).
제S102단계의 판단결과, 데이터 수집대상이 IoT 디바이스인 경우, 수집부(100)가 접속한 IoT 디바이스로부터 수집한 데이터를 IoT DB모듈(104)을 통해 데이터베이스에 저장한다(S106).
이하, 도 7을 참조하여 본 발명의 일 실시예에 따른 머신러닝을 이용한 빅데이터 통합진단 예측 방법의 제S200단계의 세부과정에 대해 살피면 아래와 같다.
제S100단계 이후, 분류부(200)가 코디네이터모듈(202)에 의해 설정된 값을 색인한다(S202). 이때, 설정된 값은 데이터 분류 방식과 파라미터 설정을 위한 값이며, 관리자에 의해 변경될 수 있다.
이어서, 분류부(200)가 코디네이터모듈(202)이 색인한 설정값과 부합하도록 수집된 데이터를 분류한다(S204).
그리고, 분류부(200)가 분류된 데이터를 통합DB(204)를 통해 메모리 기반의 저장소에 저장한다(S206).
이하, 도 8을 참조하여 본 발명의 일 실시예에 따른 머신러닝을 이용한 빅데이터 통합진단 예측 방법의 제S300단계의 세부과정에 대해 살피면 아래와 같다.
제S200단계 이후, 분석부(300)가 분석실행 방식, 분석수행 주기, 분석대상 평가항목 또는 가중치 중에 어느 하나를 포함하는 분석수행 정의데이터를 색인한다(S302).
이어서, 분석부(300)가 데이터 분석대상이 웹사이트인지 또는 IoT 디바이스인지 여부를 판단한다(S304).
제S304단계의 판단결과, 데이터 분석대상이 웹사이트인 경우, 분석부(300)가 Legacy DB모듈(102)에 저장된 데이터를 분석수행 정의데이터에 부합하도록 분석한다(S306).
제S304단계의 판단결과, 데이터 분석대상이 IoT 디바이스인 경우, 분석부(300)가 IoT DB모듈(104)에 저장된 데이터를 분석수행 정의데이터에 부합하도록 분석한다(S308).
그리고, 분석부(300)가 분석한 데이터를 키워드 각각에 대한 빈도수를 수치화한 분석정보를 생성한다(S310).
이하, 도 9를 참조하여 본 발명의 일 실시예에 따른 머신러닝을 이용한 빅데이터 통합진단 예측 방법의 제S400단계의 세부과정에 대해 살피면 아래와 같다.
제S300단계 이후, 학습부(400)가 기계학습을 위해 입력층, 은닉층, 학습모델 및 파라미터 각각의 값을 입력받는다(S402).
이어서, 학습부(400)가 기계학습 수행을 위해 정의된 기능을 색인한다(S404).
뒤이어, 학습부(400)가 기계학습 수행을 위한 데이터 마이닝 기법을 색인한다(S406).
그리고, 학습부(400)가 색인한 기능 및 데이터 마이닝 기법을 통해 기계학습을 실행하여 기계학습 결과정보를 생성한다(S408).
이하, 도 10 참조하여 본 발명의 일 실시예에 따른 머신러닝을 이용한 빅데이터 통합진단 예측 방법의 제S500단계의 세부과정에 대해 살피면 아래와 같다.
제S400단계 이후, 예측진단부(500)가 학습부(400)로부터 기계학습 결과를 인가받는다(S502).
이어서, 예측진단부(500)가 수집한 데이터 또는 분류한 데이터를 인가받는다(S504).
그리고, 예측진단부(500)가 기계학습 결과를 토대로 수집한 데이터 또는 분류한 데이터에 대한 예측값과 그에 따른 신뢰도를 포함하는 보고서를 생성한다(S506).
전술한바와 같이 본 발명의 일 실시예에 따르면, 수집대상 데이터의 형태 및 모델이 변경될 때 마다 분석도구를 재개발 하지 않고, 로직의 변경 없이 파라미터 변경만으로 실시간으로 수집대상 데이터에 대한 분석이 가능함으로써, 원본 데이터베이스, 통신장비의 테이블 규격 및 통신 프로토콜이 변경되어도 분석 프로그램을 다시 실행하지 않아도 됨에 따라 유연하고 유지보수가 용이하며 재개발에 소요되는 비용을 절감할 수 있다.
이상으로 본 발명의 기술적 사상을 예시하기 위한 바람직한 실시예와 관련하여 설명하고 도시하였지만, 본 발명은 이와 같이 도시되고 설명된 그대로의 구성 및 작용에만 국한되는 것이 아니며, 기술적 사상의 범주를 일탈함이 없이 본 발명에 대해 다수의 변경 및 수정이 가능함을 당업자들은 잘 이해할 수 있을 것이다. 따라서 그러한 모든 적절한 변경 및 수정과 균등 물들도 본 발명의 범위에 속하는 것으로 간주되어야 할 것이다.
S: 머신러닝을 이용한 빅데이터 통합진단 예측 시스템
100: 수집부
102: Legacy DB모듈
104: IoT DB모듈
200: 분류부
202: 코디네이터모듈
204: 통합DB
300: 분석부
400: 학습부
402: 기계학습 정의모듈
404: 기계학습 실행모듈
500: 예측진단부

Claims (12)

  1. 디바이스로부터 설정된 기초데이터에 대응하는 데이터를 수집하는 수집부;
    수집한 데이터의 분석 및 학습을 위해 기 설정된 값과 부합하도록 분류한 데이터를 데이터베이스에 저장하는 분류부;
    기 설정된 분석수행 정의데이터에 부합하도록 상기 데이터베이스에 저장된 데이터를 분석하여 분석정보를 생성하는 분석부;
    상기 수집한 데이터 또는 분류한 데이터에 대한 기계학습을 수행하는 학습부; 및
    기계학습 결과를 토대로 상기 수집한 데이터 또는 분류한 데이터에 대한 예측값과 그에 따른 신뢰도를 포함하는 보고서를 생성하는 예측진단부를
    포함하는 것을 특징으로 하는 머신러닝을 이용한 빅데이터 통합진단 예측 시스템.
  2. 제1항에 있어서,
    상기 수집부는,
    상기 디바이스와 접속된 웹사이트로부터 수집한 데이터를 빅데이터 분석을 위한 데이터베이스에 저장하는 Legacy DB모듈; 및
    상기 디바이스와 접속된 IoT 기기로부터 수집한 데이터를 빅데이터 분석을 위한 데이터베이스에 저장하는 IoT DB모듈을
    포함하는 것을 특징으로 하는 머신러닝을 이용한 빅데이터 통합진단 예측 시스템.
  3. 제1항에 있어서,
    상기 기초데이터는,
    데이터 수집방법, 수집한 데이터 저장경로, 테이블 정보, 필드 정보, 키워드, 수집한 데이터의 크기, 데이터 수집 시간 또는 수집대상 사이트 중에 어느 하나를 포함하는 것을 특징으로 하는 머신러닝을 이용한 빅데이터 통합진단 예측 시스템.
  4. 제1항에 있어서,
    상기 분석부는,
    수집한 데이터의 분석 및 학습을 위해 기 설정된 값과 부합하도록 분류하는 코디네이터모듈; 및
    상기 코디네이터모듈에 의해 분류된 데이터를 메모리 기반으로 저장 및 관리하는 통합DB를
    포함하는 것을 특징으로 하는 머신러닝을 이용한 빅데이터 통합진단 예측 시스템.
  5. 제1항에 있어서,
    상기 분석수행 정의데이터는 분석실행 방식, 분석수행 주기, 분석대상 평가항목 또는 가중치 중에 어느 하나를 포함하고,
    상기 분석정보는 키워드 각각에 대한 빈도수를 수치화한 데이터를 포함하는 것을 특징으로 하는 머신러닝을 이용한 빅데이터 통합진단 예측 시스템.
  6. 제1항에 있어서,
    상기 예측값은,
    상기 수집한 데이터 또는 분류한 데이터에 대한 판매량, 호감도, 증가율 또는 수요량 중에 어느 하나의 수치형 예측값과, 업/다운, 매수/매도 또는 호감/비호감 중에 어느 하나의 범주형 예측값을 포함하는 것을 특징으로 하는 머신러닝을 이용한 빅데이터 통합진단 예측 시스템.
  7. (a) 수집부가 접속된 웹사이트로 또는 IoT디바이스로부터 설정된 키워드에 대응하는 데이터를 수집하는 단계;
    (b) 분류부가 수집한 데이터의 분석 및 학습을 위해 기 설정된 값과 부합하도록 분류하여 데이터베이스에 저장하는 단계;
    (c) 분석부가 분석수행 정의데이터에 부합하도록 데이터베이스에 저장된 데이터를 분석하여 분석정보를 생성하는 단계;
    (d) 학습부가 수집한 데이터 또는 분류한 데이터에 대한 기계학습을 수행하는 단계; 및
    (e) 예측진단부가 기계학습 결과를 토대로 수집한 데이터 또는 분류한 데이터에 대한 예측값과 그에 따른 신뢰도를 포함하는 보고서를 생성하는 단계를
    포함하는 것을 특징으로 하는 머신러닝을 이용한 빅데이터 통합진단 예측 방법.
  8. 제7항에 있어서,
    상기 (a) 단계는,
    (a-1) 수집부가 설정된 기초데이터에 포함된 데이터 수집대상이 웹사이트인지 또는 IoT 디바이스인지 여부를 판단하는 단계;
    (a-2) 상기 (a-1) 단계의 판단결과, 데이터 수집대상이 웹사이트인 경우, 수집부가 접속한 웹사이트로부터 수집한 데이터를 Legacy DB모듈을 통해 데이터베이스에 저장하는 단계; 및
    (a-3) 상기 (a-1) 단계의 판단결과, 데이터 수집대상이 IoT 디바이스인 경우, 수집부가 접속한 IoT 디바이스로부터 수집한 데이터를 IoT DB모듈을 통해 데이터베이스에 저장하는 단계를
    포함하는 것을 특징으로 하는 머신러닝을 이용한 빅데이터 통합진단 예측 방법.
  9. 제7항에 있어서,
    상기 (b) 단계는,
    (b-1) 분류부가 코디네이터모듈에 의해 설정된 값을 색인하는 단계;
    (b-2) 분류부가 코디네이터모듈이 색인한 설정값과 부합하도록 수집된 데이터를 분류하는 단계; 및
    (b-3) 분류부가 분류된 데이터를 통합DB를 통해 메모리 기반의 저장소에 저장하는 단계를
    포함하는 것을 특징으로 하는 머신러닝을 이용한 빅데이터 통합진단 예측 방법.
  10. 제7항에 있어서,
    상기 (c) 단계는,
    (c-1) 분석부가 분석실행 방식, 분석수행 주기, 분석대상 평가항목 또는 가중치 중에 어느 하나를 포함하는 분석수행 정의데이터를 색인하는 단계;
    (c-2) 분석부가 데이터 분석대상이 웹사이트인지 또는 IoT 디바이스인지 여부를 판단하는 단계;
    (c-3) 상기 (c-2) 단계의 판단결과, 데이터 분석대상이 웹사이트인 경우, 분석부가 Legacy DB모듈에 저장된 데이터를 분석수행 정의데이터에 부합하도록 분석하는 단계;
    (c-4) 상기 (c-2) 단계의 판단결과, 데이터 분석대상이 IoT 디바이스인 경우, 분석부가 IoT DB모듈에 저장된 데이터를 분석수행 정의데이터에 부합하도록 분석하는 단계; 및
    (c-5) 분석부가 분석한 데이터를 키워드 각각에 대한 빈도수를 수치화한 분석정보를 생성하는 단계를
    포함하는 것을 특징으로 하는 머신러닝을 이용한 빅데이터 통합진단 예측 방법.
  11. 제7항에 있어서,
    상기 (d) 단계는,
    (d-1) 학습부가 기계학습을 위해 입력층, 은닉층, 학습모델 및 파라미터 각각의 값을 입력받는 단계;
    (d-2) 학습부가 기계학습 수행을 위해 정의된 기능을 색인하는 단계;
    (d-3) 학습부가 기계학습 수행을 위한 데이터 마이닝 기법을 색인하는 단계; 및
    (d-4) 학습부가 색인한 기능 및 데이터 마이닝 기법을 통해 기계학습을 실행하여 기계학습 결과정보를 생성하는 단계를
    포함하는 것을 특징으로 하는 머신러닝을 이용한 빅데이터 통합진단 예측 방법.
  12. 제7항에 있어서,
    상기 (e) 단계는,
    (e-1) 예측진단부가 학습부로부터 기계학습 결과를 인가받는 단계;
    (e-2) 예측진단부가 수집한 데이터 또는 분류한 데이터를 인가받는 단계; 및
    (e-3) 예측진단부가 기계학습 결과를 토대로 수집한 데이터 또는 분류한 데이터에 대한 예측값과 그에 따른 신뢰도를 포함하는 보고서를 생성하는 단계를
    포함하는 것을 특징으로 하는 머신러닝을 이용한 빅데이터 통합진단 예측 방법.
KR1020180072207A 2018-06-22 2018-06-22 머신러닝을 이용한 빅데이터 통합진단 예측 시스템 KR20200010624A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180072207A KR20200010624A (ko) 2018-06-22 2018-06-22 머신러닝을 이용한 빅데이터 통합진단 예측 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180072207A KR20200010624A (ko) 2018-06-22 2018-06-22 머신러닝을 이용한 빅데이터 통합진단 예측 시스템

Publications (1)

Publication Number Publication Date
KR20200010624A true KR20200010624A (ko) 2020-01-31

Family

ID=69369384

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180072207A KR20200010624A (ko) 2018-06-22 2018-06-22 머신러닝을 이용한 빅데이터 통합진단 예측 시스템

Country Status (1)

Country Link
KR (1) KR20200010624A (ko)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IT202100013871A1 (it) 2021-05-27 2021-08-27 Innova S R L Sistema d'ausilio motorio
WO2022108427A1 (ko) * 2020-11-20 2022-05-27 한국과학기술원 5g 기반 iot 환경을 위한 지능형 트러스트 인에이블러 시스템
KR20220105792A (ko) * 2021-01-21 2022-07-28 인하대학교 산학협력단 동적 텍스트 소스를 활용한 ai 기반 의사결정지원 시스템
US11494424B2 (en) 2019-05-13 2022-11-08 Tata Consultancy Services Limited System and method for artificial intelligence based data integration of entities post market consolidation
KR102509553B1 (ko) * 2022-05-17 2023-03-10 백승훈 빅데이터 분석 프레임워크 플랫폼을 활용한 소비 패턴 분석 및 미래 수요 예측 시스템
WO2023080275A1 (ko) * 2021-11-04 2023-05-11 (주)한국플랫폼서비스기술 성별 및 나이를 분류하는 딥러닝 프레임워크 응용 데이터베이스 서버 및 그 방법

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101638986B1 (ko) 2015-03-04 2016-07-22 오상용 사용자 기반 빅데이터 분류 및 정보제공 시스템, 방법 및 서버와 그를 구현하기 위한 프로그램이 기록된 기록매체

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101638986B1 (ko) 2015-03-04 2016-07-22 오상용 사용자 기반 빅데이터 분류 및 정보제공 시스템, 방법 및 서버와 그를 구현하기 위한 프로그램이 기록된 기록매체

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11494424B2 (en) 2019-05-13 2022-11-08 Tata Consultancy Services Limited System and method for artificial intelligence based data integration of entities post market consolidation
WO2022108427A1 (ko) * 2020-11-20 2022-05-27 한국과학기술원 5g 기반 iot 환경을 위한 지능형 트러스트 인에이블러 시스템
US11832106B2 (en) 2020-11-20 2023-11-28 Korea Advanced Institute Of Science And Technology 5G-IoT intelligent trust enabler system
KR20220105792A (ko) * 2021-01-21 2022-07-28 인하대학교 산학협력단 동적 텍스트 소스를 활용한 ai 기반 의사결정지원 시스템
IT202100013871A1 (it) 2021-05-27 2021-08-27 Innova S R L Sistema d'ausilio motorio
WO2023080275A1 (ko) * 2021-11-04 2023-05-11 (주)한국플랫폼서비스기술 성별 및 나이를 분류하는 딥러닝 프레임워크 응용 데이터베이스 서버 및 그 방법
KR102509553B1 (ko) * 2022-05-17 2023-03-10 백승훈 빅데이터 분석 프레임워크 플랫폼을 활용한 소비 패턴 분석 및 미래 수요 예측 시스템

Similar Documents

Publication Publication Date Title
KR20200010624A (ko) 머신러닝을 이용한 빅데이터 통합진단 예측 시스템
Neelakandan et al. RETRACTED ARTICLE: An automated exploring and learning model for data prediction using balanced CA-SVM
JP6817426B2 (ja) マシンラーニング基盤の半導体製造の収率予測システム及び方法
CN111324642A (zh) 一种面向电网大数据分析的模型算法选型与评价方法
CN106528874B (zh) 基于Spark内存计算大数据平台的CLR多标签数据分类方法
CN107193967A (zh) 一种多源异构行业领域大数据处理全链路解决方案
CN114722746B (zh) 一种芯片辅助设计方法、装置、设备及可读介质
CN103336790A (zh) 基于Hadoop的邻域粗糙集快速属性约简方法
KR101953190B1 (ko) 복잡한 양자 또는 다자 상대방 관계를 탐색하기 위해 이용되는 다차원 재귀적 학습 과정 및 시스템
CN111221920A (zh) 变电设备运维装置的案例库构建方法、装置及计算机存储介质
CN116611546B (zh) 基于知识图谱的目标研究区域滑坡预测方法及***
CN107045511A (zh) 一种目标特征数据的挖掘方法和装置
CN115358481A (zh) 一种企业外迁预警识别的方法、***及装置
CN117668205B (zh) 智慧物流客服处理方法、***、设备及存储介质
CN112364093B (zh) 一种学习型大数据可视化方法及***
Wallace et al. Towards explaining metaheuristic solution quality by data mining surrogate fitness models for importance of variables
CN113095680A (zh) 电力大数据模型的评价指标体系与构建方法
CN117875293A (zh) 一种业务表单模板快速数字化的生成方法
CN113254517A (zh) 一种基于互联网大数据的服务提供方法
CN112667869A (zh) 数据处理方法、设备、***及存储介质
CN115062791A (zh) 一种人工智能的解释方法、装置、设备及存储介质
KR20200000208A (ko) 소셜 데이터 수집 분석 시스템
KR20220095654A (ko) 소셜 데이터 수집 분석 시스템
KR20220074571A (ko) 마케팅 지식 그래프의 채널 기반 정보 수집을 위한 딥러닝 sns 콘텐츠 임베딩 방법 및 그 장치
JP2021152751A (ja) 分析支援装置及び分析支援方法

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E601 Decision to refuse application