KR20180024367A - 하둡 기반 대용량 데이터 수집 관리 방법 및 이의 시스템 - Google Patents

하둡 기반 대용량 데이터 수집 관리 방법 및 이의 시스템 Download PDF

Info

Publication number
KR20180024367A
KR20180024367A KR1020160110420A KR20160110420A KR20180024367A KR 20180024367 A KR20180024367 A KR 20180024367A KR 1020160110420 A KR1020160110420 A KR 1020160110420A KR 20160110420 A KR20160110420 A KR 20160110420A KR 20180024367 A KR20180024367 A KR 20180024367A
Authority
KR
South Korea
Prior art keywords
data
agent
collection
module
information
Prior art date
Application number
KR1020160110420A
Other languages
English (en)
Inventor
한재용
임동일
김건태
Original Assignee
디포커스 (주)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 디포커스 (주) filed Critical 디포커스 (주)
Priority to KR1020160110420A priority Critical patent/KR20180024367A/ko
Publication of KR20180024367A publication Critical patent/KR20180024367A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/16Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Software Systems (AREA)
  • Debugging And Monitoring (AREA)
  • Computer And Data Communications (AREA)

Abstract

본 발명의 실시예에 따른 하둡 기반 대용량 데이터 수집 관리 시스템은 데이터 수집 관리 하는 제어 모듈; 예약 작업을 처리하는 작업배치모듈; 에이전트를 관리하는 관리모듈; 및 에이전트가 수집 작업을 수행하도록 하는 에이전트 수집 모듈;을 포함하고, 상기 관리모듈은, 데이터 수집을 위한 에이전트의 설정을 수행하는 데이터 수집 모델러; 상기 에이전트를 수집서버로 배포하는 에이전트 배포 모듈; 및 배포된 에이전트의 작업 내용과 성능 정보를 모니터링하는 에이전트 모니터링 모듈;을 포함하는 하둡 기반 대용량 데이터 수집 관리 시스템을 제공할 수 있다.

Description

하둡 기반 대용량 데이터 수집 관리 방법 및 이의 시스템{METHOD AND SYSTEM FOR MANAGEMENT OF COLLECTING BULK DATA BASED ON HADOOP}
본 발명은 하둡 기반 대용량 데이터 수집 관리 방법 및 이의 시스템에 관한 것이다. 보다 상세하게는 다양한 형태의 데이터를 데이터 수집 모델링 및 에이전트 배포를 통해 간편하게 수집하여 하둡 기반 스토리지에 저장하고 수집 상대를 모니터링 하는 방법 및 이의 시스템에 관한 것이다.
최근 컴퓨팅 패러다임이 클라우드 환경으로 전환되면서 빅데이터의 처리에 대한 관심이 고조되고 있다. 하지만 다수의 사용자가 생성한 데이터를 수집 및 저장, 분석하기 위하여 추가적인 자원이 필요하다. 이러한 문제는 데이터를 수집하는 것뿐만 아니라 데이터를 분석할 수 있는 플랫폼을 필요로 한다. 이러한 플랫폼의 개발에 따라 하둡(Hadoop) 기반으로 동작하는 플랫폼에 대한 관심이 높아지고 있다.
하둡이란 대용량 데이터를 분산 처리할 수 있는 오픈소스 프레임워크로서, 데이터를 분산된 여러 컴퓨터가 병렬로 나누어서 동시에 처리하는 방식으로 빠른 속도로 데이터를 처리하고 값싼 범용 컴퓨터들로 이루어진 클러스터를 구축하는 것 또한 비용면에서도 유리하여 최근 주목 받고 있는 기술이다.
그러나 빅데이터가 이슈가 되면서 하둡을 비롯한 다양한 빅데이터 분석 도구들이 나왔지만 빅데이터를 수집하는 툴의 기능은 상대적으로 미미한 상태이다.
그리고 기 존재하는 빅데이터 수집 툴은 특정 위치에서 데이터를 가지고 오는 간단한 기능만 제공하고 복잡한 수집이나 예약 기능을 처리하기 위해서는 프로그램을 추가로 개발하는 과정이 필요한 한계가 있다.
또한 많은 서버에서 발생된 데이터를 수집하기 위해서는 각 서버마다 설정을 통해 수집해야 하는 과정이 필요하기 때문에 수집 대상 서버가 많으면 많을수록 설정 이 복잡해지고 시간이 오래 걸리는 문제가 지적되고 있다.
(공개문헌001) 한국특허공개공보(출원번호: 10-2015-0021461)
본 발명의 목적은 다양한 형태의 데이터를 데이터 수집 모델링 및 에이전트 배포를 통해 간편하게 수집하여 하둡 기반 스토리지에 저장하고 수집 상대를 모니터링 하는 방법 및 이의 시스템을 제공할 수 있다.
본 발명의 실시예에 따른 하둡 기반 대용량 데이터 수집 관리 시스템은 데이터 수집 관리 하는 제어 모듈; 예약 작업을 처리하는 작업배치모듈; 에이전트를 관리하는 관리모듈; 및 에이전트가 수집 작업을 수행하도록 하는 에이전트 수집 모듈;을 포함하고, 상기 관리모듈은, 데이터 수집을 위한 에이전트의 설정을 수행하는 데이터 수집 모델러; 상기 에이전트를 수집서버로 배포하는 에이전트 배포 모듈; 및 배포된 에이전트의 작업 내용과 성능 정보를 모니터링하는 에이전트 모니터링 모듈;을 포함하는 하둡 기반 대용량 데이터 수집 관리 시스템을 제공할 수 있다.
또한 본 발명의 실시예에 따른 하둡 기반 대용량 데이터 수집 관리 시스템의 상기 데이터 수집 모델러는 데이터 수집을 위한 에이전트의 설정을 수행하기 위해 유저인터페이스를 제공하는 것을 특징으로 하는 하둡 기반 대용량 데이터 수집 관리 시스템을 제공할 수 있다.
또한 본 발명의 실시예에 따른 하둡 기반 대용량 데이터 수집 관리 시스템의 상기 에이전트 수집 모듈은 웹사이트를 통해 데이터를 수집하는 웹크롤러; 데이터베이스로부터 데이터를 수집하는 데이터베이스 연동부; 로그가 저장되는 서버에서 로그 데이터를 수집하는 로그 파일 수집부; 및 센서에서 발생되는 데이터를 수집하는 센서 데이터 수집부;를 포함하는 것을 특징으로 하는 하둡 기반 대용량 데이터 수집 관리 시스템을 제공할 수 있다.
또한 본 발명의 실시예에 따른 하둡 기반 대용량 데이터 수집 관리 시스템의 상기 데이터 수집 모델러는 수집 데이터의 종류, 에이전트의 수집 위치, 저장 데이터 타입, 수집 주기 및 수집 서버의 접속 정보 중 적어도 하나를 설정하는 것을 특징으로 하는 하둡 기반 대용량 데이터 수집 관리 시스템을 제공할 수 있다.
또한 본 발명의 실시예에 따른 하둡 기반 대용량 데이터 수집 관리 시스템는 상기 웹크롤러에 의해 수집되는 데이터는 포털 사이트에 게재된 사항, 소셜 네트워크 상에 게재된 사항, 기상 정보 그리고 정부의 공공 데이터 정보 중 적어도 하나를 포함하는 것을 특징으로 하는 하둡 기반 대용량 데이터 수집 관리 시스템을 제공할 수 있다.
또한 본 발명의 실시예에 따른 하둡 기반 대용량 데이터 수집 관리 시스템의 상기 데이터베이스 연동부에 의해 수집되는 데이터는 접속한 데이터베이스의 테이블 정보에 따라 수집 대상 테이블이 설정되어 해당 데이터베이스의 저장 정보를 수집하는 것을 특징으로 하는 하둡 기반 대용량 데이터 수집 관리 시스템을 제공할 수 있다.
또한 본 발명의 실시예에 따른 하둡 기반 대용량 데이터 수집 관리 시스템의 상기 로그 파일 수집부 또는 센서 데이터 수집부는 상기 데이터 수집 모델러에 의해 설정된 정보에 기초하여 로그 파일을 수집하는 것을 특징으로 하는 하둡 기반 대용량 데이터 수집 관리 시스템을 제공할 수 있다.
또한 본 발명의 실시예에 따른 하둡 기반 대용량 데이터 수집 관리 방법은 수집서버로 전송될 에이전트를 설정하는 단계; 상기 에이전트를 상기 수집서버로 배포하는 단계; 상기 에이전트를 통해 데이터를 수집하는 단계; 및 상기 에이전트를 모니터링 하는 단계;를 포함하고, 복수의 상기 에이전트는 상기 수집서버로 일괄 배포되는 하둡 기반 대용량 데이터 수집 관리 방법을 제공할 수도 있다.
또한 본 발명의 실시예에 따른 하둡 기반 대용량 데이터 수집 관리 방법의 상기 수집서버로 전송될 에이전트를 설정하는 단계는, 수집 데이터 종류를 설정하는 단계; 상기 에이전트의 수집 위치를 설정하는 단계; 저장 데이터 타입을 설정하는 단계; 수집 주기를 설정하는 단계; 및 수집 서버의 접속 정보를 설정하는 단계;를 포함하는 것을 특징으로 하는 하둡 기반 대용량 데이터 수집 관리 방법을 제공할 수도 있다.
또한 본 발명의 실시예에 따른 하둡 기반 대용량 데이터 수집 관리 방법의 상기 수집서버로 전송될 에이전트를 설정하는 단계는, 유저인터페이스로 사용자가 설정하는 것을 특징으로 하는 하둡 기반 대용량 데이터 수집 관리 방법을 제공할 수도 있다.
또한 본 발명의 실시예에 따른 하둡 기반 대용량 데이터 수집 관리 방법의 상기 에이전트 수집 위치를 설정하는 단계에서 설정된 수집 위치로 상기 에이전트가 일괄 배포되는 것을 특징으로 하는 하둡 기반 대용량 데이터 수집 관리 방법을 제공할 수도 있다.
또한 본 발명의 실시예에 따른 하둡 기반 대용량 데이터 수집 관리 방법의 상기 에이전트를 모니터링 하는 단계는, 상기 에이전트가 데이터 수집 과정에서 에러 발생 시 에러 발생 관련 로그 정보를 확인하는 단계; 상기 에이전트의 상태 정보를 확인하는 단계; 및 수집 서버의 성능 정보를 확인하는 단계;를 포함하는 것을 특징으로 하는 하둡 기반 대용량 데이터 수집 관리 방법을 제공할 수도 있다.
본 발명의 실시예에 따른 하둡 기반 대용량 데이터 수집 관리 방법 및 이의 시스템은 원격지에서 수집 서버로 에이전트를 쉽고 빠르게 배포할 수 있는 기술을 통해 데이터 수집에 대한 설정 시간 및 과정을 향상 시킬 수 있다.
도 1은 본 발명의 실시예에 따른 하둡 기반 대용량 데이터 수집 관리 방법 및 이의 시스템의 구성도이다.
도 2는 하둡 기반 대용량 데이터 수집 관리 방법의 흐름도이다.
도 3은 에이전트 설정 단계의 흐름도이다.
도 4는 에이전트 설정을 위한 유저인터페이스 환경의 예시도이다.
도 5는 에이전트에 따른 데이터 수집의 일 예를 나타낸 도면이다.
도 6은 데이터 수집 요청에서부터 수집된 데이터를 저장하는 예시도이다.
도 7은 본 발명의 실시예에 따른 하둡 기반 대용량 데이터 수집 관리 시스템의 일 구성을 데이터 에이전트 컨테이너를 이용한 데이터 수집 시스템의 구성도이다.
도 8은 본 발명의 실시예에 따른 데이터 에이전트 컨테이너를 이용한 데이터 수집 시스템을 구성하는 에이전트의 일 예를 나타낸 블록도이다.
도 9는 본 발명의 실시예에 따른 데이터 에이전트 컨테이너를 이용한 데이터 수집 시스템을 구성하는 에이전트의 다른 예를 나타낸 블록도이다.
도 10은 본 발명의 실시예에 따른 데이터 에이전트 컨테이너를 이용한 데이터 수집 시스템을 구성하는 에이전트의 또 다른 예를 나타낸 블록도이다.
이하, 본 발명의 실시예에 의한 하둡 기반 대용량 데이터 수집 관리 방법 및 이의 시스템의 도면을 참고하여 상세하게 설명한다. 다음에 소개되는 실시 예들은 당업자에게 본 발명의 사상이 충분히 전달될 수 있도록 하기 위해 예로서 제공되는 것이다. 따라서, 본 발명은 이하 설명되는 실시 예들에 한정되지 않고 다른 형태로 구체화될 수도 있다. 그리고, 도면들에 있어서, 장치의 크기 및 두께 등은 편의를 위하여 과장되어 표현될 수도 있다. 명세서 전체에 걸쳐서 동일한 참조 번호들은 동일한 구성요소들을 나타낸다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시 예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시 예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시 예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성요소를 지칭한다. 도면에서 층 및 영역들의 크기 및 상대적인 크기는 설명의 명료성을 위해 과장될 수 있다.
본 명세서에서 사용된 용어는 실시 예들을 설명하기 위한 것이며, 따라서 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다 (comprise)" 및/또는 "포함하는(comprising)"은 언급된 구성요소, 단계, 동작 및/ 또는 소자는 하나 이상의 다른 구성요소, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.
도 1은 본 발명의 실시예에 따른 하둡 기반 대용량 데이터 수집 관리 방법 및 이의 시스템의 구성도이다.
도 1을 참조하면, 본 발명의 실시예에 따른 하둡 기반 대용량 데이터 수집 관리 시스템(10)은 제어모듈(100), 작업배치모듈(200), 관리모듈(300), 에이전트 수집 모듈(400)을 포함할 수 있다.
제어모듈(100)은 데이터 수집 관리의 전반적인 제어 동작을 수행할 수 있다.
작업배치모듈(200)은 예약 작업을 처리하는 기능을 수행할 수 있다.
관리모듈(300)은 에이전트를 관리하는 기능을 수행할 수 있다.
관리모듈(300)은 데이터 수집 모델러(310), 에이전트 배포 모듈(320) 및 에이전트 모니터링 모듈(330)을 포함할 수 있다.
데이터 수집 모델러(310)는 데이터를 수집하기 위한 에이전트 설정 처리를 위한 유저인터페이스를 제공할 수 있다.
에이전트 배포 모듈(320)은 에이전트를 각각의 수집서버로 일괄 배포하는 작업을 처리하는 기능을 수행할 수 있다.
에이전트 모니터링 모듈(330)은 수집서버로 배포된 에어전트의 작업 내역과 성능 정보를 모니터링 하는 기능을 수행할 수 있다.
에이전트 수집 모듈(400)은 에이전트에서 수집 작업을 하기 위한 지원 모듈에 관한 것이다.
에이전트 수집 모듈(400)은 웹크롤러부(410), 데이터베이스(이하 DB: DataBase) 연동부(420), 로그파일 수집부(430) 및 센서 데이터 수집부(440)를 포함할 수 있다.
웹크롤러부(410)은 웹사이트를 통해 데이터를 수집하는 기능을 수행할 수 있다.
DB 연동부(420)는 데이터베이스로부터 데이터를 수집하는 기능을 수행할 수 있다.
로그파일 수집부(430)는 로그가 저장되는 서버에서 로그 데이터를 수집하는 기능을 수행할 수 있다.
센서 데이터 수집부(440)는 각종 센서에서 발생되는 데이터를 수집하는 기능을 수행할 수 있다.
도 2는 하둡 기반 대용량 데이터 수집 관리 방법의 흐름도이고, 도 3은 에이전트 설정 단계의 흐름도이며, 도 4는 에이전트 설정을 위한 유저인터페이스 환경의 예시도이다. 그리고 도 5는 에이전트에 따른 데이터 수집의 일 예를 나타낸 도면이고, 도 6은 데이터 수집 요청에서부터 수집된 데이터를 저장하는 예시도이다.
도 2를 참조하면, 하둡 기반 대용량 데이터 수집 관리 방법은 에이전트 설정 단계(S100), 에이전트 배포 단계(S200) 및 에이전트 모니터링 단계(S300)를 포함할 수 있다.
에이전트 설정 단계(S100)는 데이터 수집 모델러(310)를 통해 에이전트의 수집 정보를 유저인터페이스를 통해 설정하는 단계이다.
도 3 및 도 4를 참조하면, 에이전트 설정 단계(S100)는 수집 데이터의 종류를 결정하는 단계(S110), 에이전트의 수집 위치 설정 단계(S120), 저장 데이터 타입 설정 단계(S130), 수집 주기 설정 단계(S140) 및 수집 서버의 접속 정보 설정 단계(S150)를 포함할 수 있다. 여기서의 수집 데이터는 웹 사이트 소셜 네트워크, 로그, 센서 등이 될 수 있으나 이에 한정하는 것은 아니다.
도 5를 참조하면, 또한 에이전트를 통해 수집 가능한 데이터 종류를 예를 들면, 웹클롤러부(410)에 의해 포털 사이트에 게재된 뉴스, 소셜 네트워크, 기상 정보, 정부의 공공 데이터를 수집할 수 있다. 그리고 각각의 데이터를 키워드, 수집기간 별로 수집될 수 있고, 수집된 정보를 하둡 파일 시스템에 저장될 수 있다.
또한 에이전트를 통해 수집된 데이터는 HDFS(Hadoop Distributed File System) 기술에 따라 데이터가 저장될 수 있다. HDFS는 클러스터(Cluster)로 구성된 서버에 데이터를 분산하여 저장하는 기술이다.
도 6을 참조하면, 또한 DB 연동부(420)에 의해 데이터베이스에 접속하고, 접속한 데이터베이스의 테이블 정보를 확인하고 수집 대상 테이블을 선택할 수 있고, 에이전트는 DB 연동부(420)를 이용하여 데이터를 수집하여 하둡 파일 시스템에 저장할 수 있다.
또한 하둡 기반 대용량 데이터 수집 관리 시스템(10)으로부터의 데이터 수집 요청에 대응하여 로그 파일 수집부(430)와 센서 데이터 수집부(440)는 데이터 수집 모델러(310)를 통해 에이전트의 수집 위치, 데이터 타입, 수집주기 및 수집 서버의 접속 정보를 유저인터페이스를 통해서 설정하고, 에이전트 배포 모듈(320)을 이용하여 각각의 수집 서버에 에이전트를 원격으로 배포하고, 배포된 에이전트는 설정된 정보를 바탕으로 해당 로그 파일이나 센서 데이터를 전송하고, 수집된 데이터는 지정된 시스템에 HDFS 기술로 저장되거나 데이터베이스에 저장될 수 있다.
에이전트 배포 단계(S200)은 에이전트 배포 모듈(320)을 이용하여 수집 대상 서버에 에이전트를 원격으로 배포할 수 있다. 이 경우, 에이전트는 데이터 수집 모델러(310)에서 설정된 수집 대상 서버로 일괄 배포될 수 있다.
에이전트 모니터링 단계(S300)에서 사용자는 수집 과정의 진행 상태를 모니터링 할 수 있고, 에이전트의 수집 과정에서 에러 발생 시 관련 로그를 확인할 수 있으며, 에이전트의 상태 정보 및 수집 서버의 성능을 모니터링 할 수 있다.
본 발명의 실시예에 따른 하둡 기반 대용량 데이터 수집 관리 방법 및 이의 시스템은 원격지에서 수집 서버로 에이전트를 쉽고 빠르게 배포할 수 있는 기술을 통해 데이터 수집에 대한 설정 시간 및 과정을 향상 시킬 수 있다.
이하 전술한 데이터 수집을 위한 에이전트와 이를 제어하기 위한 에이전트 제어기에 대해 구체적으로 설명한다.
도 7은 본 발명의 실시예에 따른 하둡 기반 대용량 데이터 수집 관리 시스템의 일 구성을 데이터 에이전트 컨테이너를 이용한 데이터 수집 시스템의 구성도이다.
도 7을 참조하면, 본 발명의 실시예에 따른 데이터 에이전트 컨테이너를 이용한 데이터 수집 시스템(50)은 에이전트(500)와 에이전트 제어기(700)를 포함할 수 있다. 그리고 본 발명의 실시예에 따른 데이터 에이전트 컨테이너를 이용한 데이터 수집 시스템(50)은 데이터 에이전트 리소스 로더(800)를 더 포함할 수 있다.
에이전트(500)는 복수의 에이전트로 구성될 수 있고, 도면의 예에 따르면 에이전트(500)는 제1 내지 제3 에이전트기(510, 520, 530)를 포함할 수 있다.
에이전트 제어기(700)는 복수의 에이전트 제어기로 구성될 수 있고, 도면의 예에 따르면 에이전트 제어기(700)는 제2 내지 제3 에이전트(510, 520, 530)를 포함할 수 있다.
제1 내지 제3 에이전트(510, 520, 530) 각각은 제1 내지 제3 제어 모니터링 채널(810, 820, 830)을 통해 에이전트 제어기(700)와 연결될 수 있다.
제1 내지 제3 제어 모니터링 채널(810, 820, 830) 각각은 제1 내지 제3 제어 채널과 제1 내지 제3 모니터링 채널로 구분될 수 있다.
에이전트 제어기(700)는 수집서버 상에서의 에이전트(500)의 설치 또는 설치된 에이전트(500)의 제거 기능을 수행할 수 있고, 에이전트(500)와 연결된 제1 내지 제3 제어 채널을 구성할 수 있으며, 에이전트(500)와 연결된 별도의 각각의 제1 내지 제3 제어 채널을 통해 에이전트(500)의 수집 동작 시작 또는 수집 동작이 시작된 에이전트(500)의 수집 동작 종료를 제어할 수 있다.
또한 에이전트 제어기(700)는 에이전트 제어기(700)와 연결된 별도의 제1 내지 제3 모니터링 채널을 구성할 수 있고, 에이전트 제어기(700)는 에이전트(500)와 연결된 별도의 각각의 제1 내지 제3 모니터링 채널을 통해 에이전트 제어기(700)의 상태를 모니터링 할 수 있다.
또한 에이전트 제어기(700)는 에이전트 설치 및 제거 제어 모듈(710)과 에이전트 시작 및 종료 제어 모듈(720) 그리고 에이전트 상태 모니터링 모듈(730)을 포함할 수 있다.
에이전트 설치 및 제거 제어 모듈(710)은 제1 제어 채널(810)을 통해 제1 내지 제3 에이전트(510, 520), 530) 각각의 설치 및 제거를 제어하는 기능을 수행할 수 있다.
에이전트 시작 및 종료 제어 모듈(720)은 제2 제어 채널(820)을 통해 제1 내지 제3 에이전트(510, 520, 530) 각각의 시작 및 종료를 제어할 수 있다.
에이전트 상태 모니터링 모듈(730)은 제3 모니터링 채널(830)을 통해 제1 내지 제3 에이전트(510, 520, 530) 각각의 상태를 모니터링 할 수 있다.
또한 데이터 에이전트 리소스 로더(400)는 에이전트(500)에서 사용되는 환경 설정 정보와 에이전트(500)의 리소스를 표준 형태로 관리하고 제공할 수 있다.
도 8은 본 발명의 실시예에 따른 데이터 에이전트 컨테이너를 이용한 데이터 수집 시스템을 구성하는 에이전트의 일 예를 나타낸 블록도이다.
도 8을 참조하면, 에이전트(500)는 데이터 리더 플러그인(Data Reader Plugin: 501)과 데이터 라이트 플러그인(Data Write Plugin: 502) 그리고 데이터 리더 플러그인(501)과 데이터 라이트 플러그인(502)을 서로 연결하는 데이터 파이프 플러그인(Data Pipe Plugin: 503)을 포함할 수 있다.
데이터 리더 플러그인(501)은 다양한 형태의 데이터 소스로부터 데이터를 읽어드리고, 데이터 라이트 플러그인(502)은 다양한 형태의 데이터 소스에 데이터를 기록할 수 있고, 데이터 리더 플러그인(501)과 데이터 라이트 플러그인(502) 사이의 데이터 파이프 플러그인(503) 통해 데이터가 전송될 수 있다.
도 9는 본 발명의 실시예에 따른 데이터 에이전트 컨테이너를 이용한 데이터 수집 시스템을 구성하는 에이전트의 다른 예를 나타낸 블록도이다.
도 9를 참조하면, 본 발명의 실시예에 따른 데이터 에이전트 컨테이너를 구성하는 다른 예인 에이전트(500)는 제1 에이전트(510) 및 제2 에이전트(520)를 포함할 수 있다.
제1 에이전트(510)는 제1 데이터 리더 플러그인(511)과 제1 데이터 라이트 플러그인(512) 그리고 제1 데이터 파이프 플러그인(513)을 포함할 수 있다.
제1 데이터 리더 플러그인(511)은 다양한 형태의 데이터 소스로부터 데이터를 읽어드리고, 제1 데이터 라이트 플러그인(512)은 다양한 형태의 데이터 소스에 데이터를 기록할 수 있고, 제1 데이터 리더 플러그인(511)과 제1 데이터 라이트 플러그인(512) 사이의 제1 데이터 파이프 플러그인(513) 통해 데이터가 전송될 수 있다.
제2 에이전트(520)는 제2 데이터 리더 플러그인(521)과 제2 데이터 라이트 플러그인(522) 그리고 제2 데이터 파이프 플러그인(523)을 포함할 수 있다.
제2 데이터 리더 플러그인(521)은 다양한 형태의 데이터 소스로부터 데이터를 읽어드리고, 제2 데이터 라이트 플러그인(522)은 다양한 형태의 데이터 소스에 데이터를 기록할 수 있고, 제2 데이터 리더 플러그인(521)과 제2 데이터 라이트 플러그인(522) 사이의 제2 데이터 파이프 플러그인(523) 통해 데이터가 전송될 수 있다.
또한 제1 데이터 라이트 플러그인(512)은 원격 전송을 통해 제2 데이터 리더 플러그인(521)에 데이터 전송이 가능하여, 제2 데이터 리더 플러그인(521)에 데이터 기록이 가능하고, 제2 데이터 리더 플러그인(521)은 제1 데이터 라이트 플러그인(512)으로부터 데이터를 읽어 드릴 수 있다.
본 발명의 실시예에 따른 데이터 에이전트 컨테이너(50)를 구성하는 제1 및 제2 에이전트(510, 520)는 통신 망이 분리된 곳에서도 데이터 전송이 가능한 이점이 있다.
도 10은 본 발명의 실시예에 따른 데이터 에이전트 컨테이너를 이용한 데이터 수집 시스템을 구성하는 에이전트의 또 다른 예를 나타낸 블록도이다.
도 10을 참조하면, 본 발명의 실시예에 따른 데이터 에이전트 컨테이너를 구성하는 또 다른 예인 에이전트(500)는 제1 에이전트(510), 제2 에이전트(520) 그리고 제3 에이전트(530)를 포함할 수 있다.
제1 에이전트(510)는 제1 데이터 리더 플러그인(511)과 제1 데이터 라이트 플러그인(512) 그리고 제1 데이터 파이프 플러그인(513)을 포함할 수 있다.
제1 데이터 리더 플러그인(511)은 다양한 형태의 데이터 소스(DB)로부터 데이터를 읽어드리고, 제1 데이터 라이트 플러그인(512)은 다양한 형태의 데이터 소스에 데이터를 기록할 수 있고, 제1 데이터 리더 플러그인(511)과 제1 데이터 라이트 플러그인(512) 사이의 제1 데이터 파이프 플러그인(513) 통해 데이터가 전송될 수 있다.
제2 에이전트(520)는 제2 데이터 리더 플러그인(521)과 제2 데이터 라이트 플러그인(522) 그리고 제2 데이터 파이프 플러그인(523)을 포함할 수 있다.
제2 데이터 리더 플러그인(521)은 다양한 형태의 데이터 소스로부터 데이터를 읽어드리고, 제2 데이터 라이트 플러그인(522)은 다양한 형태의 데이터 소스에 데이터를 기록할 수 있고, 제2 데이터 리더 플러그인(521)과 제2 데이터 라이트 플러그인(522) 사이의 제2 데이터 파이프 플러그인(523) 통해 데이터가 전송될 수 있다.
또한 제1 데이터 라이트 플러그인(512)은 원격 전송을 통해 제2 데이터 리더 플러그인(521)에 데이터 전송이 가능하여, 제2 데이터 리더 플러그인(521)에 데이터 기록이 가능하고, 제2 데이터 리더 플러그인(521)은 제1 데이터 라이트 플러그인(512)으로부터 데이터를 읽어 드릴 수 있다.
제3 에이전트(530)는 제3 데이터 리더 플러그인(531)과 제3 데이터 라이트 플러그인(532) 그리고 제3 데이터 파이프 플러그인(533)을 포함할 수 있다.
제3 데이터 리더 플러그인(531)은 다양한 형태의 데이터 소스로부터 데이터를 읽어드리고, 제3 데이터 라이트 플러그인(532)은 다양한 형태의 데이터 소스에 데이터를 기록할 수 있고, 제3 데이터 리더 플러그인(531)과 제3 데이터 라이트 플러그인(532) 사이의 제3 데이터 파이프 플러그인(533) 통해 데이터가 전송될 수 있다.
또한 제1 데이터 라이트 플러그인(512)은 원격 전송을 통해 제3 데이터 리더 플러그인(531)에 데이터 전송이 가능하여 제3 데이터 리더 플러그인(531)에 데이터 기록이 가능하고, 제3 데이터 리더 플러그인(531)은 제1 데이터 라이트 플러그인(512)으로부터 데이터를 읽어 드릴 수 있다.
본 발명의 실시예에 따른 데이터 에이전트 컨테이너(50)를 구성하는 제1 내지 제3 에이전트(510, 520, 530)는 통신 망이 분리된 곳에서도 데이터 전송이 가능한 이점이 있다.
전술한 제1 내지 제3 에이전트(510, 520, 530) 각각의 데이터 리드 플러그인은 다양한 형태의 데이터를 읽어 들일 수 있도록 데이터 리드를 플러그인 형태로 구성한 것이고, 데이터 라이트 플러그인은 데이터 파이프로부터 읽어 들인 데이터를 다양한 저장소로 데이터의 전송 및 기록할 수 있도록 플러그인 형태로 구성할 수 있고, 데이터 리더로부터 읽어 들인 데이터를 데이터 라이트로 전달하는 데이터 파이프를 플러그인 형태로 구성할 수 있으며, 데이터 에이전트 컨테이너를 이용한 데이터 수집 시스템(50)에 자신의 해당 데이터 에이전트의 환경 설정 정보 및 다양한 리소스를 요청하여 가져다 사용할 수 있다.
본 발명에 따른 실시예는 다양한 형태의 데이터를 플러그인(Plug-in) 형태의 수집 기능을 실행시켜주는 에이전트를 제공하며 에이전트 간의 자유로운 연결을 통해 복잡한 데이터 수집이 가능하며 다양한 에이전트를 에이전트 컨테이너를 통해 쉽게 관리 및 제어 그리고 모니터링 할 수 있다.
이상에서 설명한 본 발명의 상세한 설명에서는 본 발명의 바람직한 실시 예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자 또는 해당 기술분야에 통상의 지식을 갖는 자라면 후술할 특허청구범위에 기재된 본 발명의 사상 및 기술 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다. 따라서, 본 발명의 기술적 범위는 명세서의 상세한 설명에 기재된 내용으로 한정되는 것이 아니라 특허청구범위에 의해 정하여져야만 할 것이다.
하둡 기반 대용량 데이터 수집 시스템(10)
제어모듈(100)
작업 배치 모듈(200)
관리 모듈(300)
데이터 수집 모델러(310)
에이전트 배포 모듈(320)
에이전트 모니터링 모듈(330)
에이전트 수집 모듈(400)
웹크롤러부(410)
DB 연동부(420)
로그파일 수집부(430)
센서데이터 수집부(440)
데이터 에이전트 컨테이너를 이용한 데이터 수집 시스템(50)
에이전트(500)
데이터 리더 플러그인(501)
데이터 라이트 플러그인(502)
데이터 파이프 플러그인(503)
제1 내지 제3 에이전트(510, 520, 530)
제1 데이터 리더 플러그인(511)
제1 데이터 라이트 플러그인(512)
제1 데이터 파이프 플러그인(513)
제2 데이터 리더 플러그인(521)
제2 데이터 라이트 플러그인(522)
제2 데이터 파이프 플러그인(523)
제3 데이터 리더 플러그인(531)
제3 데이터 라이트 플러그인(532)
제3 데이터 파이프 플러그인(533)
에이전트 제어기(700)
데이터 수집기 설치 및 제거 제어 모듈(710)
데이터 수집기 시작 및 종료 제어 모듈(720)
데이터 수집기 상태 모니터링 모듈(730)
제1 내지 제3 제어 모니터링 채널(810, 820, 830)
에이전트 리소스 로더(800)

Claims (12)

  1. 데이터 수집 관리 하는 제어 모듈;
    예약 작업을 처리하는 작업배치모듈;
    에이전트를 관리하는 관리모듈; 및
    에이전트가 수집 작업을 수행하도록 하는 에이전트 수집 모듈;을 포함하고,
    상기 관리모듈은,
    데이터 수집을 위한 에이전트의 설정을 수행하는 데이터 수집 모델러;
    상기 에이전트를 수집서버로 배포하는 에이전트 배포 모듈; 및
    배포된 에이전트의 작업 내용과 성능 정보를 모니터링하는 에이전트 모니터링 모듈;을 포함하는 하둡 기반 대용량 데이터 수집 관리 시스템.
  2. 제1 항에 있어서,
    상기 데이터 수집 모델러는 데이터 수집을 위한 에이전트의 설정을 수행하기 위해 유저인터페이스를 제공하는 것을 특징으로 하는 하둡 기반 대용량 데이터 수집 관리 시스템.
  3. 제1 항에 있어서,
    상기 에이전트 수집 모듈은
    웹사이트를 통해 데이터를 수집하는 웹크롤러;
    데이터베이스로부터 데이터를 수집하는 데이터베이스 연동부;
    로그가 저장되는 서버에서 로그 데이터를 수집하는 로그 파일 수집부; 및
    센서에서 발생되는 데이터를 수집하는 센서 데이터 수집부;를 포함하는 것을 특징으로 하는 하둡 기반 대용량 데이터 수집 관리 시스템.
  4. 제1 항에 있어서,
    상기 데이터 수집 모델러는 수집 데이터의 종류, 에이전트의 수집 위치, 저장 데이터 타입, 수집 주기 및 수집 서버의 접속 정보 중 적어도 하나를 설정하는 것을 특징으로 하는 하둡 기반 대용량 데이터 수집 관리 시스템.
  5. 제3 항에 있어서,
    상기 웹크롤러에 의해 수집되는 데이터는 포털 사이트에 게재된 사항, 소셜 네트워크 상에 게재된 사항, 기상 정보 그리고 정부의 공공 데이터 정보 중 적어도 하나를 포함하는 것을 특징으로 하는 하둡 기반 대용량 데이터 수집 관리 시스템.
  6. 제3 항에 있어서,
    상기 데이터베이스 연동부에 의해 수집되는 데이터는 접속한 데이터베이스의 테이블 정보에 따라 수집 대상 테이블이 설정되어 해당 데이터베이스의 저장 정보를 수집하는 것을 특징으로 하는 하둡 기반 대용량 데이터 수집 관리 시스템.
  7. 제3 항에 있어서,
    상기 로그 파일 수집부 또는 센서 데이터 수집부는 상기 데이터 수집 모델러에 의해 설정된 정보에 기초하여 로그 파일을 수집하는 것을 특징으로 하는 하둡 기반 대용량 데이터 수집 관리 시스템.
  8. 수집서버로 전송될 에이전트를 설정하는 단계;
    상기 에이전트를 상기 수집서버로 배포하는 단계;
    상기 에이전트를 통해 데이터를 수집하는 단계; 및
    상기 에이전트를 모니터링 하는 단계;를 포함하고,
    복수의 상기 에이전트는 상기 수집서버로 일괄 배포되는 하둡 기반 대용량 데이터 수집 관리 방법.
  9. 제8 항에 있어서,
    상기 수집서버로 전송될 에이전트를 설정하는 단계는,
    수집 데이터 종류를 설정하는 단계;
    상기 에이전트의 수집 위치를 설정하는 단계;
    저장 데이터 타입을 설정하는 단계;
    수집 주기를 설정하는 단계; 및
    수집 서버의 접속 정보를 설정하는 단계;를 포함하는 것을 특징으로 하는 하둡 기반 대용량 데이터 수집 관리 방법.
  10. 제8 항에 있어서,
    상기 수집서버로 전송될 에이전트를 설정하는 단계는,
    유저인터페이스로 사용자가 설정하는 것을 특징으로 하는 하둡 기반 대용량 데이터 수집 관리 방법.
  11. 제9 항에 있어서,
    상기 에이전트 수집 위치를 설정하는 단계에서 설정된 수집 위치로 상기 에이전트가 일괄 배포되는 것을 특징으로 하는 하둡 기반 대용량 데이터 수집 관리 방법.
  12. 제8 항에 있어서,
    상기 에이전트를 모니터링 하는 단계는,
    상기 에이전트가 데이터 수집 과정에서 에러 발생 시 에러 발생 관련 로그 정보를 확인하는 단계;
    상기 에이전트의 상태 정보를 확인하는 단계; 및
    수집 서버의 성능 정보를 확인하는 단계;를 포함하는 것을 특징으로 하는 하둡 기반 대용량 데이터 수집 관리 방법.
KR1020160110420A 2016-08-30 2016-08-30 하둡 기반 대용량 데이터 수집 관리 방법 및 이의 시스템 KR20180024367A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020160110420A KR20180024367A (ko) 2016-08-30 2016-08-30 하둡 기반 대용량 데이터 수집 관리 방법 및 이의 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160110420A KR20180024367A (ko) 2016-08-30 2016-08-30 하둡 기반 대용량 데이터 수집 관리 방법 및 이의 시스템

Publications (1)

Publication Number Publication Date
KR20180024367A true KR20180024367A (ko) 2018-03-08

Family

ID=61726421

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160110420A KR20180024367A (ko) 2016-08-30 2016-08-30 하둡 기반 대용량 데이터 수집 관리 방법 및 이의 시스템

Country Status (1)

Country Link
KR (1) KR20180024367A (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102188132B1 (ko) * 2020-05-27 2020-12-07 비코어(주) 데이터 적재 및 처리 시스템 및 그 방법
WO2022005915A1 (en) * 2020-06-30 2022-01-06 Stripe, Inc. Cluster job submission
KR102668339B1 (ko) * 2023-09-11 2024-05-23 인스피언 주식회사 인터페이스 관리 방법, 인터페이스 거버넌스 시스템, 및 인터페이스를 관리하는, 컴퓨터로 실행가능한 프로그램을 저장하는 저장매체

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102188132B1 (ko) * 2020-05-27 2020-12-07 비코어(주) 데이터 적재 및 처리 시스템 및 그 방법
WO2021242000A1 (ko) * 2020-05-27 2021-12-02 비코어(주) 데이터 적재 및 처리 시스템 및 그 방법
US11797513B2 (en) 2020-05-27 2023-10-24 Bcore Data loading and processing system, and method therefor
WO2022005915A1 (en) * 2020-06-30 2022-01-06 Stripe, Inc. Cluster job submission
US11748161B1 (en) 2020-06-30 2023-09-05 Stripe, Inc. Cluster job submission
KR102668339B1 (ko) * 2023-09-11 2024-05-23 인스피언 주식회사 인터페이스 관리 방법, 인터페이스 거버넌스 시스템, 및 인터페이스를 관리하는, 컴퓨터로 실행가능한 프로그램을 저장하는 저장매체

Similar Documents

Publication Publication Date Title
JP7460237B2 (ja) 分散型工業パフォーマンス監視及び分析
Barika et al. Orchestrating big data analysis workflows in the cloud: research challenges, survey, and future directions
CN110222036B (zh) 用于自动数据库迁移的方法和***
CN105631026A (zh) 一种安全数据分析***
US9135071B2 (en) Selecting processing techniques for a data flow task
US20100257227A1 (en) Cloud computing as a basis for a process historian
CN105049268A (zh) 分布式计算资源分配***和任务处理方法
CN101652838B (zh) 配方和元件控制模块及其方法
CN103532780A (zh) 用于it领域的运维监控一体化***及一体化监控方法
CN102999400A (zh) 一种云存储***数据备份方法及装置
CN107612984B (zh) 一种基于互联网的大数据平台
KR20210049551A (ko) 컴퓨팅 자원을 유동적으로 할당하는 엣지 컴퓨팅 방법 및 시스템
CN111324606B (zh) 数据分片的方法及装置
CN104050248A (zh) 一种文件存储***及存储方法
CN111338893A (zh) 进程日志处理方法、装置、计算机设备以及存储介质
CN105095103A (zh) 用于云环境下的存储设备管理方法和装置
KR20180024367A (ko) 하둡 기반 대용량 데이터 수집 관리 방법 및 이의 시스템
KR20180024360A (ko) 데이터 에이전트 컨테이너를 이용한 데이터 수집 방법 및 이의 시스템
CN103973516A (zh) 一种数据处理***中实现监控功能的方法及装置
CN110400085B (zh) 信息处理方法、信息处理装置和信息处理***
CN104517067A (zh) 访问数据的方法、装置及***
CN108282347A (zh) 一种服务器数据在线管理方法和***
CN103514044A (zh) 一种动态行为分析***的资源优化方法、装置和***
CN104717091B (zh) 服务器品质验证方法及其***
KR102406905B1 (ko) 산업 IoT 플랫폼을 이용한 엣지 컴퓨팅 기반 HMI 시스템