KR20220060871A - 데이터 센터용 인공지능 통합 자원 관리 시스템 - Google Patents

데이터 센터용 인공지능 통합 자원 관리 시스템 Download PDF

Info

Publication number
KR20220060871A
KR20220060871A KR1020200146987A KR20200146987A KR20220060871A KR 20220060871 A KR20220060871 A KR 20220060871A KR 1020200146987 A KR1020200146987 A KR 1020200146987A KR 20200146987 A KR20200146987 A KR 20200146987A KR 20220060871 A KR20220060871 A KR 20220060871A
Authority
KR
South Korea
Prior art keywords
backup
data
node
recovery
load
Prior art date
Application number
KR1020200146987A
Other languages
English (en)
Inventor
김성윤
박성호
Original Assignee
주식회사 테라텍
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 테라텍 filed Critical 주식회사 테라텍
Priority to KR1020200146987A priority Critical patent/KR20220060871A/ko
Publication of KR20220060871A publication Critical patent/KR20220060871A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/485Task life-cycle, e.g. stopping, restarting, resuming execution
    • G06F9/4856Task life-cycle, e.g. stopping, restarting, resuming execution resumption being on a different machine, e.g. task migration, virtual machine migration
    • G06F9/4862Task life-cycle, e.g. stopping, restarting, resuming execution resumption being on a different machine, e.g. task migration, virtual machine migration the task being a mobile agent, i.e. specifically designed to migrate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1458Management of the backup or restore process
    • G06F11/1461Backup scheduling policy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3442Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for planning or managing the needed capacity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • G06F9/5033Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering data affinity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • G06F9/505Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering the load

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Hardware Design (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

본 발명은 데이터 센터용 인공지능 통합 자원 관리 시스템에 관한 것으로, 이는 SNS 및 뉴스 매체에 업로드된 데이터를 수집 및 분석하여 사회 이슈를 자동으로 탐지한 후, 기 설정된 표준 데이터 형태로 변환하여 저장하는 이슈 탐지부; 데이터 센터의 부하 상태, 장애 발생 상태, 이상 발생 상태를 파악하기 위한 이벤트 로그를 수집한 후, 기 설정된 표준 데이터 형태로 변환하여 저장하는 이벤트 탐지부; 상기 이벤트 로그에 기반하여 시스템 부하, 장애 발생 상태, 및 이상 발생 상태를 분석 및 예측함과 동시에 사회 이슈 발생 패턴과 시스템 부하 변화 패턴간의 인과관계를 파악 및 분석하여 현재 사회 이슈에 따른 부하 증가량을 사전 예측하여, 백업, 복구 또는 마이그레이션 실행을 위한 시스템 스케쥴러를 작성하는 시스템 예측부; 및 상기 데이터 센터를 구성하는 서버 또는 스토리지를 노드로써 자동 인식 및 등록한 후, 시스템 스케쥴러에 따라 노드 백업, 복구 및 마이그레이션 절차를 수행하는 시스템 관리부를 포함한다.

Description

데이터 센터용 인공지능 통합 자원 관리 시스템{System for artificial intelligence integrated resource management of data cente}
본 발명은 무질서한 자원 이용을 방지하고, 인공 지능 기술을 이용하여 데이터 센터의 백업, 복구 및 마이그레이션을 통합 관리할 수 있도록 하는 데이터 센터용 인공지능 통합 자원 관리 시스템에 관한 것이다.
데이터 센터는 다수의 컴퓨팅 장치를 통해 데이터를 저장 관리하는 시스템으로, 시스템 자원의 효율적 이용을 위해 시스템 부하 및 기타 장애, 이벤트 (하드웨어, 운영체제, 어플리케이션) 및 사회 이벤트를 빅데이터 및 AI 분석하여 오토 마이그레이션 및 자율 백업 복구를 자동 수행할 수 있는 환경을 제공한다.
종래에는 부하를 사전에 예측 및 인지하고, 사용자에 의해 상위 시스템으로 데이터를 마이그레이션시키는 솔루션은 다수 존재 하나, 계획되지 않는 부하 인자 요소(예를 들어, 빅 이벤트(Big Event), 시스템 장애 등)에 대응, 상위 시스템으로 자동 마이그레이션 솔루션은 전무한 실정이다.
또한, 부하 예측에 관련하여 사회 이슈에 대한 과정을 모니터링하여 반영하는 기술은 현재까지 존재하지 않는다.
클라우드 데이터 센터의 복잡성(운영체제, 클라우드 미들웨어, 어플리케이션)으로 마이그레이션 및 시스템 장애 시 복구의 어려움 증가에 따라 이를 해결 할 수 있는 시스템이 요구되고 있다.
국내공개특허 제10-2019-0106488호(공개일자 : 2019.09.18)
이에 상기와 같은 문제점을 해결하기 위한 것으로서, 본 발명은 무질서한 자원 이용을 방지하고 데이터 센터의 백업, 복구 및 마이그레이션을 통합 관리할 수 있도록 하는 데이터 센터용 인공지능 통합 자원 관리 시스템에 관한 것이다.
또한 사회 이슈 발생 패턴을 고려한 데이터 센터 자원 관리 동작을 수행할 수 있도록 하는 데이터 센터용 인공지능 통합 자원 관리 시스템을 제공하고자 한다.
본 발명의 목적은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 본 발명이 속하는 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
상기 과제를 해결하기 위한 수단으로서, 본 발명의 일 실시 형태에 따르면 SNS 및 뉴스 매체에 업로드된 데이터를 수집 및 분석하여 사회 이슈를 자동으로 탐지한 후, 기 설정된 표준 데이터 형태로 변환하여 저장하는 이슈 탐지부; 데이터 센터의 부하 상태, 장애 발생 상태, 이상 발생 상태를 파악하기 위한 이벤트 로그를 수집한 후, 기 설정된 표준 데이터 형태로 변환하여 저장하는 이벤트 탐지부; 상기 이벤트 로그에 기반하여 시스템 부하, 장애 발생 상태, 및 이상 발생 상태를 분석 및 예측함과 동시에 사회 이슈 발생 패턴과 시스템 부하 변화 패턴간의 인과관계를 파악 및 분석하여 현재 사회 이슈에 따른 부하 증가량을 사전 예측하여, 백업, 복구 또는 마이그레이션 실행을 위한 시스템 스케쥴러를 작성하는 시스템 예측부; 및 상기 데이터 센터를 구성하는 서버 또는 스토리지를 노드로써 자동 인식 및 등록한 후, 시스템 스케쥴러에 따라 노드 백업, 복구 및 마이그레이션 절차를 수행하는 시스템 관리부를 포함하는 것을 특징으로 하는 데이터 센터용 인공지능 통합 자원 관리 시스템을 제공한다.
상기 시스템 예측부는 사회 이슈 수집 결과에 기반하여 사회 이슈별 관심도 변화 패턴를 파악하는 사회 이슈 분석부; 이벤트 로그 수집 결과에 기반하여 시스템 부하 변화 패턴과 시간대별 시스템 부하 예측치를 획득 및 출력하는 시스템 부하 분석부; 이벤트 로그 수집 결과에 기반하여 장애 발생 시점을 예측하는 장애 예측부; 이벤트 로그 수집 결과에 기반하여 이상 발생을 감지 및 통보하는 이상 감지부; 및 사회 이슈 발생 패턴과 시스템 부하 변화 패턴간의 인과관계를 파악 및 분석하여 현재 사회 이슈에 따른 부하 증가량을 사전 예측한 후, 시스템 부하, 장애 및 이상 예측값에 기반하여 백업, 복구 및 마이그레이션 실행을 위한 시스템 스케쥴러를 작성하는 시스템 스케쥴러 작성부를 포함할 수 있다.
상기 시스템 관리부는 레거시, 가상 머신(Virtual Machine), 컨테이너 중 어느 하나에 기반하여 노드 백업, 복구 및 마이그레이션 절차를 수행하는 것을 특징으로 한다.
또한 상기 시스템 관리부는 노드 정보를 영구 메모리에 1차 백업한 후, 백업 미디어에 2차 백업하는 것을 특징으로 한다.
상기 시스템 관리부는 상기 영구 메모리에 저장된 노드 정보에 기반하여 복구 또는 마이그레이션을 수행하되, 상기 영구 메모리의가 사용 불가 상태이면 상기 백업 미디에 저장된 노드 정보에 기반하여 복구 또는 마이그레이션을 수행하는 것을 특징으로 한다.
상기 노드 정보는 노드 시스템과 노드 데이터로 구분되는 것을 특징으로 한다.
본 발명은 무질서한 자원 이용을 방지하고 데이터 센터의 백업, 복구 및 마이그레이션을 통합 관리할 수 있도록 함으로써, 데이터 센터 자원의 보다 효율적인 운용이 가능하도록 한다.
또한 사회 이슈에 따른 시스템 부하 변화량을 사전 예측하고 활용할 수 있도록 하며, 빅 이벤트 등 사전에 예고 되지 않는 부하를 대비한 시스템 운영까지 지원할 수 있도록 한다.
그리고 이기종 시스템에 대한 하드웨어 이벤트 관리 및 하드웨어 제어 동작이 가능하도록 하며, 부하 예측 결과에 따른 부하 요구 사항에 맞는 최적의 물리 노드를 선택하여 복구 및 마이그레이션이 수행될 수 있도록 한다.
마지막으로 영구 메모리 채택을 통해 최소한의 서비스 다운 타임을 위한 메모리 중심 컴퓨팅 환경까지 제공할 수 있도록 한다.
도 1은 본 발명의 일 실시예에 따른 데이터 센터용 인공지능 통합 자원 관리 시스템을 설명하기 위한 도면이다.
도 2는 본 발명의 일 실시예에 따른 시스템 예측부의 상세 구성을 설명하기 위한 도면이다.
도 3은 본 발명의 일 실시예에 따른 시스템 관리부의 노드 인식 및 등록 방법을 보다 상세히 설명하기 위한 도면이다.
도 4는 본 발명의 일 실시예에 따른 이벤트 탐지부의 이벤트 로그 수집 방법을 보다 상세히 설명하기 위한 도면이다.
도 5 및 도 6은 본 발명의 일 실시예에 따른 시스템 관리부의 백업 방법을 보다 상세히 설명하기 위한 도면이다.
도 7은 본 발명의 일 실시예에 따른 시스템 관리부의 복구 및 마이그레이션 방법을 보다 상세히 설명하기 위한 도면이다.
이하의 내용은 단지 본 발명의 원리를 예시한다. 그러므로 당업자는 비록 본 명세서에 명확히 설명되거나 도시되지 않았지만 본 발명의 원리를 구현하고 본 발명의 개념과 범위에 포함된 다양한 장치를 발명할 수 있는 것이다. 또한, 본 명세서에 열거된 모든 조건부 용어 및 실시예들은 원칙적으로, 본 발명의 개념이 이해되도록 하기 위한 목적으로만 명백히 의도되고, 이와 같이 특별히 열거된 실시예들 및 상태들에 제한적이지 않는 것으로 이해되어야 한다.
또한, 본 발명의 원리, 관점 및 실시예들 뿐만 아니라 특정 실시예를 열거하는 모든 상세한 설명은 이러한 사항의 구조적 및 기능적 균등물을 포함하도록 의도되는 것으로 이해되어야 한다. 또한 이러한 균등물들은 현재 공지된 균등물뿐만 아니라 장래에 개발될 균등물 즉 구조와 무관하게 동일한 기능을 수행하도록 발명된 모든 소자를 포함하는 것으로 이해되어야 한다.
따라서, 예를 들어, 본 명세서의 블럭도는 본 발명의 원리를 구체화하는 예시적인 회로의 개념적인 관점을 나타내는 것으로 이해되어야 한다. 이와 유사하게, 모든 흐름도, 상태 변환도, 의사 코드 등은 컴퓨터가 판독 가능한 매체에 실질적으로 나타낼 수 있고 컴퓨터 또는 프로세서가 명백히 도시되었는지 여부를 불문하고 컴퓨터 또는 프로세서에 의해 수행되는 다양한 프로세스를 나타내는 것으로 이해되어야 한다.
도 1은 본 발명의 일 실시예에 따른 데이터 센터용 인공지능 통합 자원 관리 시스템을 설명하기 위한 도면이다.
도 1을 참고하면, 본 발명의 시스템은 이슈 탐지부(110), 이벤트 탐지부(120), 시스템 예측부(130), 및 시스템 관리부(140) 등을 포함하여 구성된다.
이슈 탐지부(110)는 인터넷 망의 SNS 및 뉴스 매체 등에 업로드된 데이터를 수집 및 분석하여 사회 이슈를 자동으로 탐지하고, 탐지된 사회 이슈를 기 설정된 표준 데이터 형태로 변환 및 저장한다.
이벤트 탐지부(120)는 데이터 센터를 구성하는 서버, 스토리지, 네트워크 장비 및 기타 장비 각각으로부터 부하 상태, 장애 발생 상태, 이상 발생 상태를 파악하기 위한 각종 이벤트 로그를 수집한 후, 수집된 이벤트 로그를 기 설정된 표준 데이터 형태로 변환 및 저장한다.
시스템 예측부(130)는 이벤트 로그에 기반하여 시스템 부하, 장애 발생 상태, 이상 발생 상태를 분석 및 예측한다. 또한 사회 이슈 발생 패턴과 시스템 부하 변화 패턴간의 인과관계를 파악 및 분석하여 현재 사회 이슈에 따른 부하 증가량을 사전 예측한다. 그리고 시스템 부하, 장애 및 이상 예측값에 기반하여 백업, 복구 또는 마이그레이션 실행을 위한 시스템 스케쥴러를 작성한다.
시스템 관리부(140)는 데이터 센터를 구성하는 서버 또는 스토리지를 클러스터 노드로써 자동 인식하고, 노드 정보를 획득 및 등록한다. 그리고 시스템 스케쥴러에 따라 노드 백업, 복구 및 마이그레이션 절차를 실제로 수행하도록 한다.
도 2는 본 발명의 일 실시예에 따른 시스템 예측부의 상세 구성을 설명하기 위한 도면이다.
도 2을 참고하면, 본 발명의 시스템 예측부(130)는 사회 이슈 분석부(131), 시스템 부하 분석부(132), 장애 예측부(133), 이상 감지부(134) 및 시스템 스케쥴러 작성부(135) 등을 포함한다.
사회 이슈 분석부(31)는 사회 이슈 수집 결과에 기반하여 사회 이슈별 관심도 변화 패턴을 파악한다.
시스템 부하 분석부(32)는 이벤트 로그 수집 결과에 기반하여 시스템 부하(즉, 하드웨어 사용율)의 변화 패턴을 일간, 주간, 월간 단위로 분석한다. 또한 시스템 부하의 변화 패턴을 기반으로 시간대별 시스템 부하 예측치를 획득 및 제공한다.
장애 예측부(33)는 이벤트 로그 수집 결과에 기반하여 시스템 장애 여부를 검출하고, 시스템 장애 발생 패턴을 일간, 주간, 월간 단위로 분석하여 이동평균을 생성한 후, 장애 발생 패턴의 트렌드를 파악한다. 그리고 실제 장애 발생 이벤트 및 통계 수치 기반으로 임계치를 설정한 후, 이를 이용하여 장애 발생 시점을 예측한다.
이상 감지부(33)는 이벤트 로그 수집 결과에 기반하여 시스템 이상을 검출하고, 시스템 이상 감지 패턴을 일간, 주간, 월간 단위로 분석하여 이상 감지 결과의 신뢰 구간을 설정하고, 군집 형성한다. 그리고 군집 형성된 신뢰 구간을 비교하고, 중심점으로부터 거리 비교를 통해 이상 발생을 분류 분석한다.
시스템 스케쥴러 작성부(35)는 사회 이슈 발생 패턴과 시스템 부하 변화 패턴간의 인과관계를 파악하여 인공지능망을 통해 반복 학습시킨 후, 인공 지능망을 이용하여 현재 사회 이슈에 따른 부하 증가량을 사전 예측한다. 그리고 시스템 부하, 장애 및 이상 예측값에 기반하여 복구 및 마이그레이션 실행을 위한 시스템 스케쥴러를 작성한다.
도 3은 본 발명의 일 실시예에 따른 시스템 관리부의 노드 인식 및 등록 방법을 보다 상세히 설명하기 위한 도면이다.
도 3에 도시된 바와 같이, 본 발명의 시스템 관리부(140)는 데이터 센터를 구성하거나, 데이터 센터에 새로이 추가되는 서버 및 스토리지를 클라우드 노드로써 자동 인식한다.
그리고 시스템 관리부(140)는 IPMI(Intelligent Platform Management Interface)를 통해 각 노드에 설치된 BMC(Base Mother Controller)와 상호 연동하여 각 노드의 하드웨어 및 소프트웨어 정보를 수집한 후, 백업 대상 기초 자료로써 데이터베이스화하여 저장한다.
이때, 하드웨어 정보는 CPU 구성, 사용자 구성 옵션, 부팅 모드, 부팅 디바이스, RAID(Redundant Array of Independent Disks), iSCSI(Internet Small Computer System Interface) 및 PXE(Pre-boot eXecution Environment), PXE(Pre-boot eXecution Environment) 등에 대한 정보일 수 있으며, 소프트웨어 정보는 OS 종류, 부트 매니저, 파티션, 파일 시스템 등에 대한 정보일 수 있다.
도 4는 본 발명의 일 실시예에 따른 이벤트 탐지부의 이벤트 로그 수집 방법을 보다 상세히 설명하기 위한 도면이다.
도 4에 도시된 바와 같이, 본 발명의 이벤트 탐지부는 IPM를 통해 노드, 네트워크 장비, 기타 장비 각각에 설치된 BMC(Base Mother Controller)와 상호 연동하여 노드, 네트워크 장비, 기타 장비 각각의 이벤트 로그를 수집한 후, 데이터베이스화하여 저장한다. 이때, 이벤트 로그 각각은 기 설정된 표준 데이터 형태로 변환하여 저장하는 데, 이는 노드, 네트워크 장비, 기타 장비 각각이 이기종 형태로 구현될 수 있음을 고려하여, 이기종 이벤트까지도 통합적으로 수집 및 분석할 수 있기 위함이다.
본 발명의 이벤트 로그는 하드웨어 이벤트 로그 및 OS 운영 체제 로그로 구분되며, 하드웨어 이벤트 로그는 온도, 팬, 파워, 하드웨어 오류 이벤트 로그, 사용자 정의 이벤트 로그 등일 수 있으며, OS 운영 체제 로그는 운영체제 장애 로그, 장애 발생 횟수 등일 수 있다.
도 5 및 도 6은 본 발명의 일 실시예에 따른 시스템 관리부의 백업 방법을 보다 상세히 설명하기 위한 도면이다.
도 5에 도시된 바와 같이, 본 발명에서는 시스템 부하, 장애 및 이상 예측값에 기반하여 백업 필요 노드를 파악하고, 백업 필요 노드의 백업 시점을 결정하는 백업 스케쥴을 작성하고, 이를 통해 노드 단위 백업을 수행하도록 한다.
특히, 본 발명에서는 레거시, 가상 머신(Virtual Machine), 컨테이너 중 어느 하나를 이용하여 노드 백업 작업을 수행할 수 있도록 함으로써, 시스템의 유연성을 확보할 수 있도록 한다.
레거시는 운영체제 위에서 서비스 형태의 미들웨어를 백업 복구 기술이고, 가상 머신 및 컨테이너는 가상화 및 컨테이너화 된 작업 관리 계층에서 자원 모니터링 및 백업 복구 관리 기술이다.
또한 본 발명은 백업 미디어(SSD, Disk)와 기존의 저장 매체 이외에 고성능 백업을 위한 영구 메모리를 추가 구비한 후, 노드 정보를 1차로 영구 메모리상에 백업한 후, 2차로 백업 미디어(SSD, Disk)에 백업하도록 함으로써, 실시간 백업 환경을 구축 및 제공할 수 있다.
이때, 백업 방식은 전체 백업, 증분 백업, 스냅샷 백업 중 어느 하나일 수 있으며, 노드 정보는 노드 시스템과 노드 데이터로 구분될 수 있도록 한다.
도 7은 본 발명의 일 실시예에 따른 시스템 관리부의 복구 및 마이그레이션 방법을 보다 상세히 설명하기 위한 도면이다.
도 7에 도시된 바와 같이, 본 발명에서는 시스템 부하, 장애 및 이상 예측값에 기반하여 복구 또는 마이그레이션이 필요한 노드를 파악하고, 해당 노드의 복구 또는 마이그레이션 시점을 결정하는 복구 또는 마이그레이션 스케쥴을 작성한다.
그리고 복구 또는 마이그레이션 스케쥴에 따라 특정 노드의 복구 또는 마이그레이션 시점이 되면, 유휴 자원을 탐색하여 부하 요구 사항에 맞는 최적의 물리 노드를 탐색한 후, 최적의 물리 노드에 기반한 해당 노드의 복구 또는 마이그레이션을 수행하도록 한다.
또한 해당 노드의 하드웨어 정보의 부팅 모드와 소프트웨어 정보의 부트 매니저 중 적어도 하나를 고려하여 백업 환경을 파악한 후, 백업 환경에 따라 가상 머신(Virtual Machine), 컨테이너 중 어느 하나를 이용하여 노드 복구 또는 마이그레이션 작업을 수행할 수 있도록 한다.
뿐 만 아니라, 본 발명은 빠른 복구 또는 마이그레이션을 보장하기 위해, 영구 메모리에 기반하여 노드를 복구 또는 마이그레이션을 수행하되, 영구 메모리가 사용 불가 상태이면 백업 미디어에 기반하여 노드를 추가적으로 복구 또는 마이그레이션하도록 한다.
이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형 실시가 가능한 것은 물론이고, 이러한 변형 실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어서는 안될 것이다.

Claims (6)

  1. SNS 및 뉴스 매체에 업로드된 데이터를 수집 및 분석하여 사회 이슈를 자동으로 탐지한 후, 기 설정된 표준 데이터 형태로 변환하여 저장하는 이슈 탐지부;
    데이터 센터의 부하 상태, 장애 발생 상태, 이상 발생 상태를 파악하기 위한 이벤트 로그를 수집한 후, 기 설정된 표준 데이터 형태로 변환하여 저장하는 이벤트 탐지부;
    상기 이벤트 로그에 기반하여 시스템 부하, 장애 발생 상태, 및 이상 발생 상태를 분석 및 예측함과 동시에 사회 이슈 발생 패턴과 시스템 부하 변화 패턴간의 인과관계를 파악 및 분석하여 현재 사회 이슈에 따른 부하 증가량을 사전 예측하여, 백업, 복구 또는 마이그레이션 실행을 위한 시스템 스케쥴러를 작성하는 시스템 예측부;
    상기 데이터 센터를 구성하는 서버 또는 스토리지를 노드로써 자동 인식 및 등록한 후, 시스템 스케쥴러에 따라 노드 백업, 복구 및 마이그레이션 절차를 수행하는 시스템 관리부를 포함하는 것을 특징으로 하는 데이터 센터용 인공지능 통합 자원 관리 시스템.
  2. 제1항에 있어서, 상기 시스템 예측부는
    사회 이슈 수집 결과에 기반하여 사회 이슈별 관심도 변화 패턴를 파악하는 사회 이슈 분석부;
    이벤트 로그 수집 결과에 기반하여 시스템 부하 변화 패턴과 시간대별 시스템 부하 예측치를 획득 및 출력하는 시스템 부하 분석부;
    이벤트 로그 수집 결과에 기반하여 장애 발생 시점을 예측하는 장애 예측부;
    이벤트 로그 수집 결과에 기반하여 이상 발생을 감지 및 통보하는 이상 감지부; 및
    사회 이슈 발생 패턴과 시스템 부하 변화 패턴간의 인과관계를 파악 및 분석하여 현재 사회 이슈에 따른 부하 증가량을 사전 예측한 후, 시스템 부하, 장애 및 이상 예측값에 기반하여 백업, 복구 및 마이그레이션 실행을 위한 시스템 스케쥴러를 작성하는 시스템 스케쥴러 작성부를 포함하는 것을 특징으로 하는 데이터 센터용 인공지능 통합 자원 관리 시스템.
  3. 제1항에 있어서, 상기 시스템 관리부는
    레거시, 가상 머신(Virtual Machine), 컨테이너 중 어느 하나에 기반하여 노드 백업, 복구 및 마이그레이션 절차를 수행하는 것을 특징으로 하는 데이터 센터용 인공지능 통합 자원 관리 시스템.
  4. 제1항에 있어서, 상기 시스템 관리부는
    노드 정보를 영구 메모리에 1차 백업한 후, 백업 미디어에 2차 백업하는 것을 특징으로 하는 데이터 센터용 인공지능 통합 자원 관리 시스템.
  5. 제4항에 있어서, 상기 시스템 관리부는
    상기 영구 메모리에 저장된 노드 정보에 기반하여 복구 또는 마이그레이션을 수행하되, 상기 영구 메모리의가 사용 불가 상태이면 상기 백업 미디에 저장된 노드 정보에 기반하여 복구 또는 마이그레이션을 수행하는 것을 특징으로 하는 데이터 센터용 인공지능 통합 자원 관리 시스템.
  6. 제4항에 있어서, 상기 노드 정보는
    노드 시스템과 노드 데이터로 구분되는 것을 특징으로 하는 데이터 센터용 인공지능 통합 자원 관리 시스템.
KR1020200146987A 2020-11-05 2020-11-05 데이터 센터용 인공지능 통합 자원 관리 시스템 KR20220060871A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200146987A KR20220060871A (ko) 2020-11-05 2020-11-05 데이터 센터용 인공지능 통합 자원 관리 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200146987A KR20220060871A (ko) 2020-11-05 2020-11-05 데이터 센터용 인공지능 통합 자원 관리 시스템

Publications (1)

Publication Number Publication Date
KR20220060871A true KR20220060871A (ko) 2022-05-12

Family

ID=81590458

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200146987A KR20220060871A (ko) 2020-11-05 2020-11-05 데이터 센터용 인공지능 통합 자원 관리 시스템

Country Status (1)

Country Link
KR (1) KR20220060871A (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115150460A (zh) * 2022-06-30 2022-10-04 济南浪潮数据技术有限公司 一种节点安全注册方法、装置、设备及可读存储介质
KR102531879B1 (ko) * 2022-10-21 2023-05-12 위템 주식회사 인공지능 기반 기업용 전자 장비의 유지 보수를 위한 이벤트 발생 예측 및 모니터링 방법, 장치 및 시스템

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190106488A (ko) 2018-03-09 2019-09-18 울산과학기술원 통합 서버의 자원 분배 관리장치 및 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190106488A (ko) 2018-03-09 2019-09-18 울산과학기술원 통합 서버의 자원 분배 관리장치 및 방법

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115150460A (zh) * 2022-06-30 2022-10-04 济南浪潮数据技术有限公司 一种节点安全注册方法、装置、设备及可读存储介质
KR102531879B1 (ko) * 2022-10-21 2023-05-12 위템 주식회사 인공지능 기반 기업용 전자 장비의 유지 보수를 위한 이벤트 발생 예측 및 모니터링 방법, 장치 및 시스템

Similar Documents

Publication Publication Date Title
Tan et al. Adaptive system anomaly prediction for large-scale hosting infrastructures
Oliner et al. What supercomputers say: A study of five system logs
US9485160B1 (en) System for optimization of input/output from a storage array
US9729401B2 (en) Automatic remediation of poor-performing virtual machines for scalable applications
US10375169B1 (en) System and method for automatically triggering the live migration of cloud services and automatically performing the triggered migration
Zheng et al. Co-analysis of RAS log and job log on Blue Gene/P
KR101351688B1 (ko) 서버 관리 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체, 관리 서버, 가상 서버 배치 방법
CN107544839B (zh) 虚拟机迁移***、方法及装置
Panda et al. {IASO}: A {Fail-Slow} Detection and Mitigation Framework for Distributed Storage Services
EP3956771B1 (en) Timeout mode for storage devices
KR20220060871A (ko) 데이터 센터용 인공지능 통합 자원 관리 시스템
Pannu et al. A self-evolving anomaly detection framework for developing highly dependable utility clouds
Moghaddam et al. Performance-aware management of cloud resources: A taxonomy and future directions
US20230016199A1 (en) Root cause detection of anomalous behavior using network relationships and event correlation
US11714396B2 (en) Hybrid internet of things evaluation framework
CN112306802A (zh) ***的数据获取方法、装置、介质和电子设备
Diallo et al. AutoMigrate: a framework for developing intelligent, self-managing cloud services with maximum availability
CN106875018B (zh) 一种超大规模机器自动化维修的方法和装置
KR102415027B1 (ko) 대규모 클라우드 데이터 센터 자율 운영을 위한 백업 복구 방법
US11656944B1 (en) Code function checkpoint and restore
Sarkar et al. Automated Incident Management for a {Platform-as-a-Service} Cloud
Gainaru et al. Errors and faults
Egwutuoha et al. Cost-oriented proactive fault tolerance approach to high performance computing (HPC) in the cloud
US10454773B2 (en) Virtual machine mobility
JP5684640B2 (ja) 仮想環境管理システム

Legal Events

Date Code Title Description
E601 Decision to refuse application