KR20220060871A - 데이터 센터용 인공지능 통합 자원 관리 시스템 - Google Patents
데이터 센터용 인공지능 통합 자원 관리 시스템 Download PDFInfo
- Publication number
- KR20220060871A KR20220060871A KR1020200146987A KR20200146987A KR20220060871A KR 20220060871 A KR20220060871 A KR 20220060871A KR 1020200146987 A KR1020200146987 A KR 1020200146987A KR 20200146987 A KR20200146987 A KR 20200146987A KR 20220060871 A KR20220060871 A KR 20220060871A
- Authority
- KR
- South Korea
- Prior art keywords
- backup
- data
- node
- recovery
- load
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/48—Program initiating; Program switching, e.g. by interrupt
- G06F9/4806—Task transfer initiation or dispatching
- G06F9/4843—Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
- G06F9/485—Task life-cycle, e.g. stopping, restarting, resuming execution
- G06F9/4856—Task life-cycle, e.g. stopping, restarting, resuming execution resumption being on a different machine, e.g. task migration, virtual machine migration
- G06F9/4862—Task life-cycle, e.g. stopping, restarting, resuming execution resumption being on a different machine, e.g. task migration, virtual machine migration the task being a mobile agent, i.e. specifically designed to migrate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/14—Error detection or correction of the data by redundancy in operation
- G06F11/1402—Saving, restoring, recovering or retrying
- G06F11/1446—Point-in-time backing up or restoration of persistent data
- G06F11/1458—Management of the backup or restore process
- G06F11/1461—Backup scheduling policy
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3442—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for planning or managing the needed capacity
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/48—Program initiating; Program switching, e.g. by interrupt
- G06F9/4806—Task transfer initiation or dispatching
- G06F9/4843—Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
- G06F9/4881—Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5027—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
- G06F9/5033—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering data affinity
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5027—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
- G06F9/505—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering the load
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Quality & Reliability (AREA)
- Data Mining & Analysis (AREA)
- Computer Hardware Design (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
본 발명은 데이터 센터용 인공지능 통합 자원 관리 시스템에 관한 것으로, 이는 SNS 및 뉴스 매체에 업로드된 데이터를 수집 및 분석하여 사회 이슈를 자동으로 탐지한 후, 기 설정된 표준 데이터 형태로 변환하여 저장하는 이슈 탐지부; 데이터 센터의 부하 상태, 장애 발생 상태, 이상 발생 상태를 파악하기 위한 이벤트 로그를 수집한 후, 기 설정된 표준 데이터 형태로 변환하여 저장하는 이벤트 탐지부; 상기 이벤트 로그에 기반하여 시스템 부하, 장애 발생 상태, 및 이상 발생 상태를 분석 및 예측함과 동시에 사회 이슈 발생 패턴과 시스템 부하 변화 패턴간의 인과관계를 파악 및 분석하여 현재 사회 이슈에 따른 부하 증가량을 사전 예측하여, 백업, 복구 또는 마이그레이션 실행을 위한 시스템 스케쥴러를 작성하는 시스템 예측부; 및 상기 데이터 센터를 구성하는 서버 또는 스토리지를 노드로써 자동 인식 및 등록한 후, 시스템 스케쥴러에 따라 노드 백업, 복구 및 마이그레이션 절차를 수행하는 시스템 관리부를 포함한다.
Description
본 발명은 무질서한 자원 이용을 방지하고, 인공 지능 기술을 이용하여 데이터 센터의 백업, 복구 및 마이그레이션을 통합 관리할 수 있도록 하는 데이터 센터용 인공지능 통합 자원 관리 시스템에 관한 것이다.
데이터 센터는 다수의 컴퓨팅 장치를 통해 데이터를 저장 관리하는 시스템으로, 시스템 자원의 효율적 이용을 위해 시스템 부하 및 기타 장애, 이벤트 (하드웨어, 운영체제, 어플리케이션) 및 사회 이벤트를 빅데이터 및 AI 분석하여 오토 마이그레이션 및 자율 백업 복구를 자동 수행할 수 있는 환경을 제공한다.
종래에는 부하를 사전에 예측 및 인지하고, 사용자에 의해 상위 시스템으로 데이터를 마이그레이션시키는 솔루션은 다수 존재 하나, 계획되지 않는 부하 인자 요소(예를 들어, 빅 이벤트(Big Event), 시스템 장애 등)에 대응, 상위 시스템으로 자동 마이그레이션 솔루션은 전무한 실정이다.
또한, 부하 예측에 관련하여 사회 이슈에 대한 과정을 모니터링하여 반영하는 기술은 현재까지 존재하지 않는다.
클라우드 데이터 센터의 복잡성(운영체제, 클라우드 미들웨어, 어플리케이션)으로 마이그레이션 및 시스템 장애 시 복구의 어려움 증가에 따라 이를 해결 할 수 있는 시스템이 요구되고 있다.
이에 상기와 같은 문제점을 해결하기 위한 것으로서, 본 발명은 무질서한 자원 이용을 방지하고 데이터 센터의 백업, 복구 및 마이그레이션을 통합 관리할 수 있도록 하는 데이터 센터용 인공지능 통합 자원 관리 시스템에 관한 것이다.
또한 사회 이슈 발생 패턴을 고려한 데이터 센터 자원 관리 동작을 수행할 수 있도록 하는 데이터 센터용 인공지능 통합 자원 관리 시스템을 제공하고자 한다.
본 발명의 목적은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 본 발명이 속하는 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
상기 과제를 해결하기 위한 수단으로서, 본 발명의 일 실시 형태에 따르면 SNS 및 뉴스 매체에 업로드된 데이터를 수집 및 분석하여 사회 이슈를 자동으로 탐지한 후, 기 설정된 표준 데이터 형태로 변환하여 저장하는 이슈 탐지부; 데이터 센터의 부하 상태, 장애 발생 상태, 이상 발생 상태를 파악하기 위한 이벤트 로그를 수집한 후, 기 설정된 표준 데이터 형태로 변환하여 저장하는 이벤트 탐지부; 상기 이벤트 로그에 기반하여 시스템 부하, 장애 발생 상태, 및 이상 발생 상태를 분석 및 예측함과 동시에 사회 이슈 발생 패턴과 시스템 부하 변화 패턴간의 인과관계를 파악 및 분석하여 현재 사회 이슈에 따른 부하 증가량을 사전 예측하여, 백업, 복구 또는 마이그레이션 실행을 위한 시스템 스케쥴러를 작성하는 시스템 예측부; 및 상기 데이터 센터를 구성하는 서버 또는 스토리지를 노드로써 자동 인식 및 등록한 후, 시스템 스케쥴러에 따라 노드 백업, 복구 및 마이그레이션 절차를 수행하는 시스템 관리부를 포함하는 것을 특징으로 하는 데이터 센터용 인공지능 통합 자원 관리 시스템을 제공한다.
상기 시스템 예측부는 사회 이슈 수집 결과에 기반하여 사회 이슈별 관심도 변화 패턴를 파악하는 사회 이슈 분석부; 이벤트 로그 수집 결과에 기반하여 시스템 부하 변화 패턴과 시간대별 시스템 부하 예측치를 획득 및 출력하는 시스템 부하 분석부; 이벤트 로그 수집 결과에 기반하여 장애 발생 시점을 예측하는 장애 예측부; 이벤트 로그 수집 결과에 기반하여 이상 발생을 감지 및 통보하는 이상 감지부; 및 사회 이슈 발생 패턴과 시스템 부하 변화 패턴간의 인과관계를 파악 및 분석하여 현재 사회 이슈에 따른 부하 증가량을 사전 예측한 후, 시스템 부하, 장애 및 이상 예측값에 기반하여 백업, 복구 및 마이그레이션 실행을 위한 시스템 스케쥴러를 작성하는 시스템 스케쥴러 작성부를 포함할 수 있다.
상기 시스템 관리부는 레거시, 가상 머신(Virtual Machine), 컨테이너 중 어느 하나에 기반하여 노드 백업, 복구 및 마이그레이션 절차를 수행하는 것을 특징으로 한다.
또한 상기 시스템 관리부는 노드 정보를 영구 메모리에 1차 백업한 후, 백업 미디어에 2차 백업하는 것을 특징으로 한다.
상기 시스템 관리부는 상기 영구 메모리에 저장된 노드 정보에 기반하여 복구 또는 마이그레이션을 수행하되, 상기 영구 메모리의가 사용 불가 상태이면 상기 백업 미디에 저장된 노드 정보에 기반하여 복구 또는 마이그레이션을 수행하는 것을 특징으로 한다.
상기 노드 정보는 노드 시스템과 노드 데이터로 구분되는 것을 특징으로 한다.
본 발명은 무질서한 자원 이용을 방지하고 데이터 센터의 백업, 복구 및 마이그레이션을 통합 관리할 수 있도록 함으로써, 데이터 센터 자원의 보다 효율적인 운용이 가능하도록 한다.
또한 사회 이슈에 따른 시스템 부하 변화량을 사전 예측하고 활용할 수 있도록 하며, 빅 이벤트 등 사전에 예고 되지 않는 부하를 대비한 시스템 운영까지 지원할 수 있도록 한다.
그리고 이기종 시스템에 대한 하드웨어 이벤트 관리 및 하드웨어 제어 동작이 가능하도록 하며, 부하 예측 결과에 따른 부하 요구 사항에 맞는 최적의 물리 노드를 선택하여 복구 및 마이그레이션이 수행될 수 있도록 한다.
마지막으로 영구 메모리 채택을 통해 최소한의 서비스 다운 타임을 위한 메모리 중심 컴퓨팅 환경까지 제공할 수 있도록 한다.
도 1은 본 발명의 일 실시예에 따른 데이터 센터용 인공지능 통합 자원 관리 시스템을 설명하기 위한 도면이다.
도 2는 본 발명의 일 실시예에 따른 시스템 예측부의 상세 구성을 설명하기 위한 도면이다.
도 3은 본 발명의 일 실시예에 따른 시스템 관리부의 노드 인식 및 등록 방법을 보다 상세히 설명하기 위한 도면이다.
도 4는 본 발명의 일 실시예에 따른 이벤트 탐지부의 이벤트 로그 수집 방법을 보다 상세히 설명하기 위한 도면이다.
도 5 및 도 6은 본 발명의 일 실시예에 따른 시스템 관리부의 백업 방법을 보다 상세히 설명하기 위한 도면이다.
도 7은 본 발명의 일 실시예에 따른 시스템 관리부의 복구 및 마이그레이션 방법을 보다 상세히 설명하기 위한 도면이다.
도 2는 본 발명의 일 실시예에 따른 시스템 예측부의 상세 구성을 설명하기 위한 도면이다.
도 3은 본 발명의 일 실시예에 따른 시스템 관리부의 노드 인식 및 등록 방법을 보다 상세히 설명하기 위한 도면이다.
도 4는 본 발명의 일 실시예에 따른 이벤트 탐지부의 이벤트 로그 수집 방법을 보다 상세히 설명하기 위한 도면이다.
도 5 및 도 6은 본 발명의 일 실시예에 따른 시스템 관리부의 백업 방법을 보다 상세히 설명하기 위한 도면이다.
도 7은 본 발명의 일 실시예에 따른 시스템 관리부의 복구 및 마이그레이션 방법을 보다 상세히 설명하기 위한 도면이다.
이하의 내용은 단지 본 발명의 원리를 예시한다. 그러므로 당업자는 비록 본 명세서에 명확히 설명되거나 도시되지 않았지만 본 발명의 원리를 구현하고 본 발명의 개념과 범위에 포함된 다양한 장치를 발명할 수 있는 것이다. 또한, 본 명세서에 열거된 모든 조건부 용어 및 실시예들은 원칙적으로, 본 발명의 개념이 이해되도록 하기 위한 목적으로만 명백히 의도되고, 이와 같이 특별히 열거된 실시예들 및 상태들에 제한적이지 않는 것으로 이해되어야 한다.
또한, 본 발명의 원리, 관점 및 실시예들 뿐만 아니라 특정 실시예를 열거하는 모든 상세한 설명은 이러한 사항의 구조적 및 기능적 균등물을 포함하도록 의도되는 것으로 이해되어야 한다. 또한 이러한 균등물들은 현재 공지된 균등물뿐만 아니라 장래에 개발될 균등물 즉 구조와 무관하게 동일한 기능을 수행하도록 발명된 모든 소자를 포함하는 것으로 이해되어야 한다.
따라서, 예를 들어, 본 명세서의 블럭도는 본 발명의 원리를 구체화하는 예시적인 회로의 개념적인 관점을 나타내는 것으로 이해되어야 한다. 이와 유사하게, 모든 흐름도, 상태 변환도, 의사 코드 등은 컴퓨터가 판독 가능한 매체에 실질적으로 나타낼 수 있고 컴퓨터 또는 프로세서가 명백히 도시되었는지 여부를 불문하고 컴퓨터 또는 프로세서에 의해 수행되는 다양한 프로세스를 나타내는 것으로 이해되어야 한다.
도 1은 본 발명의 일 실시예에 따른 데이터 센터용 인공지능 통합 자원 관리 시스템을 설명하기 위한 도면이다.
도 1을 참고하면, 본 발명의 시스템은 이슈 탐지부(110), 이벤트 탐지부(120), 시스템 예측부(130), 및 시스템 관리부(140) 등을 포함하여 구성된다.
이슈 탐지부(110)는 인터넷 망의 SNS 및 뉴스 매체 등에 업로드된 데이터를 수집 및 분석하여 사회 이슈를 자동으로 탐지하고, 탐지된 사회 이슈를 기 설정된 표준 데이터 형태로 변환 및 저장한다.
이벤트 탐지부(120)는 데이터 센터를 구성하는 서버, 스토리지, 네트워크 장비 및 기타 장비 각각으로부터 부하 상태, 장애 발생 상태, 이상 발생 상태를 파악하기 위한 각종 이벤트 로그를 수집한 후, 수집된 이벤트 로그를 기 설정된 표준 데이터 형태로 변환 및 저장한다.
시스템 예측부(130)는 이벤트 로그에 기반하여 시스템 부하, 장애 발생 상태, 이상 발생 상태를 분석 및 예측한다. 또한 사회 이슈 발생 패턴과 시스템 부하 변화 패턴간의 인과관계를 파악 및 분석하여 현재 사회 이슈에 따른 부하 증가량을 사전 예측한다. 그리고 시스템 부하, 장애 및 이상 예측값에 기반하여 백업, 복구 또는 마이그레이션 실행을 위한 시스템 스케쥴러를 작성한다.
시스템 관리부(140)는 데이터 센터를 구성하는 서버 또는 스토리지를 클러스터 노드로써 자동 인식하고, 노드 정보를 획득 및 등록한다. 그리고 시스템 스케쥴러에 따라 노드 백업, 복구 및 마이그레이션 절차를 실제로 수행하도록 한다.
도 2는 본 발명의 일 실시예에 따른 시스템 예측부의 상세 구성을 설명하기 위한 도면이다.
도 2을 참고하면, 본 발명의 시스템 예측부(130)는 사회 이슈 분석부(131), 시스템 부하 분석부(132), 장애 예측부(133), 이상 감지부(134) 및 시스템 스케쥴러 작성부(135) 등을 포함한다.
사회 이슈 분석부(31)는 사회 이슈 수집 결과에 기반하여 사회 이슈별 관심도 변화 패턴을 파악한다.
시스템 부하 분석부(32)는 이벤트 로그 수집 결과에 기반하여 시스템 부하(즉, 하드웨어 사용율)의 변화 패턴을 일간, 주간, 월간 단위로 분석한다. 또한 시스템 부하의 변화 패턴을 기반으로 시간대별 시스템 부하 예측치를 획득 및 제공한다.
장애 예측부(33)는 이벤트 로그 수집 결과에 기반하여 시스템 장애 여부를 검출하고, 시스템 장애 발생 패턴을 일간, 주간, 월간 단위로 분석하여 이동평균을 생성한 후, 장애 발생 패턴의 트렌드를 파악한다. 그리고 실제 장애 발생 이벤트 및 통계 수치 기반으로 임계치를 설정한 후, 이를 이용하여 장애 발생 시점을 예측한다.
이상 감지부(33)는 이벤트 로그 수집 결과에 기반하여 시스템 이상을 검출하고, 시스템 이상 감지 패턴을 일간, 주간, 월간 단위로 분석하여 이상 감지 결과의 신뢰 구간을 설정하고, 군집 형성한다. 그리고 군집 형성된 신뢰 구간을 비교하고, 중심점으로부터 거리 비교를 통해 이상 발생을 분류 분석한다.
시스템 스케쥴러 작성부(35)는 사회 이슈 발생 패턴과 시스템 부하 변화 패턴간의 인과관계를 파악하여 인공지능망을 통해 반복 학습시킨 후, 인공 지능망을 이용하여 현재 사회 이슈에 따른 부하 증가량을 사전 예측한다. 그리고 시스템 부하, 장애 및 이상 예측값에 기반하여 복구 및 마이그레이션 실행을 위한 시스템 스케쥴러를 작성한다.
도 3은 본 발명의 일 실시예에 따른 시스템 관리부의 노드 인식 및 등록 방법을 보다 상세히 설명하기 위한 도면이다.
도 3에 도시된 바와 같이, 본 발명의 시스템 관리부(140)는 데이터 센터를 구성하거나, 데이터 센터에 새로이 추가되는 서버 및 스토리지를 클라우드 노드로써 자동 인식한다.
그리고 시스템 관리부(140)는 IPMI(Intelligent Platform Management Interface)를 통해 각 노드에 설치된 BMC(Base Mother Controller)와 상호 연동하여 각 노드의 하드웨어 및 소프트웨어 정보를 수집한 후, 백업 대상 기초 자료로써 데이터베이스화하여 저장한다.
이때, 하드웨어 정보는 CPU 구성, 사용자 구성 옵션, 부팅 모드, 부팅 디바이스, RAID(Redundant Array of Independent Disks), iSCSI(Internet Small Computer System Interface) 및 PXE(Pre-boot eXecution Environment), PXE(Pre-boot eXecution Environment) 등에 대한 정보일 수 있으며, 소프트웨어 정보는 OS 종류, 부트 매니저, 파티션, 파일 시스템 등에 대한 정보일 수 있다.
도 4는 본 발명의 일 실시예에 따른 이벤트 탐지부의 이벤트 로그 수집 방법을 보다 상세히 설명하기 위한 도면이다.
도 4에 도시된 바와 같이, 본 발명의 이벤트 탐지부는 IPM를 통해 노드, 네트워크 장비, 기타 장비 각각에 설치된 BMC(Base Mother Controller)와 상호 연동하여 노드, 네트워크 장비, 기타 장비 각각의 이벤트 로그를 수집한 후, 데이터베이스화하여 저장한다. 이때, 이벤트 로그 각각은 기 설정된 표준 데이터 형태로 변환하여 저장하는 데, 이는 노드, 네트워크 장비, 기타 장비 각각이 이기종 형태로 구현될 수 있음을 고려하여, 이기종 이벤트까지도 통합적으로 수집 및 분석할 수 있기 위함이다.
본 발명의 이벤트 로그는 하드웨어 이벤트 로그 및 OS 운영 체제 로그로 구분되며, 하드웨어 이벤트 로그는 온도, 팬, 파워, 하드웨어 오류 이벤트 로그, 사용자 정의 이벤트 로그 등일 수 있으며, OS 운영 체제 로그는 운영체제 장애 로그, 장애 발생 횟수 등일 수 있다.
도 5 및 도 6은 본 발명의 일 실시예에 따른 시스템 관리부의 백업 방법을 보다 상세히 설명하기 위한 도면이다.
도 5에 도시된 바와 같이, 본 발명에서는 시스템 부하, 장애 및 이상 예측값에 기반하여 백업 필요 노드를 파악하고, 백업 필요 노드의 백업 시점을 결정하는 백업 스케쥴을 작성하고, 이를 통해 노드 단위 백업을 수행하도록 한다.
특히, 본 발명에서는 레거시, 가상 머신(Virtual Machine), 컨테이너 중 어느 하나를 이용하여 노드 백업 작업을 수행할 수 있도록 함으로써, 시스템의 유연성을 확보할 수 있도록 한다.
레거시는 운영체제 위에서 서비스 형태의 미들웨어를 백업 복구 기술이고, 가상 머신 및 컨테이너는 가상화 및 컨테이너화 된 작업 관리 계층에서 자원 모니터링 및 백업 복구 관리 기술이다.
또한 본 발명은 백업 미디어(SSD, Disk)와 기존의 저장 매체 이외에 고성능 백업을 위한 영구 메모리를 추가 구비한 후, 노드 정보를 1차로 영구 메모리상에 백업한 후, 2차로 백업 미디어(SSD, Disk)에 백업하도록 함으로써, 실시간 백업 환경을 구축 및 제공할 수 있다.
이때, 백업 방식은 전체 백업, 증분 백업, 스냅샷 백업 중 어느 하나일 수 있으며, 노드 정보는 노드 시스템과 노드 데이터로 구분될 수 있도록 한다.
도 7은 본 발명의 일 실시예에 따른 시스템 관리부의 복구 및 마이그레이션 방법을 보다 상세히 설명하기 위한 도면이다.
도 7에 도시된 바와 같이, 본 발명에서는 시스템 부하, 장애 및 이상 예측값에 기반하여 복구 또는 마이그레이션이 필요한 노드를 파악하고, 해당 노드의 복구 또는 마이그레이션 시점을 결정하는 복구 또는 마이그레이션 스케쥴을 작성한다.
그리고 복구 또는 마이그레이션 스케쥴에 따라 특정 노드의 복구 또는 마이그레이션 시점이 되면, 유휴 자원을 탐색하여 부하 요구 사항에 맞는 최적의 물리 노드를 탐색한 후, 최적의 물리 노드에 기반한 해당 노드의 복구 또는 마이그레이션을 수행하도록 한다.
또한 해당 노드의 하드웨어 정보의 부팅 모드와 소프트웨어 정보의 부트 매니저 중 적어도 하나를 고려하여 백업 환경을 파악한 후, 백업 환경에 따라 가상 머신(Virtual Machine), 컨테이너 중 어느 하나를 이용하여 노드 복구 또는 마이그레이션 작업을 수행할 수 있도록 한다.
뿐 만 아니라, 본 발명은 빠른 복구 또는 마이그레이션을 보장하기 위해, 영구 메모리에 기반하여 노드를 복구 또는 마이그레이션을 수행하되, 영구 메모리가 사용 불가 상태이면 백업 미디어에 기반하여 노드를 추가적으로 복구 또는 마이그레이션하도록 한다.
이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형 실시가 가능한 것은 물론이고, 이러한 변형 실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어서는 안될 것이다.
Claims (6)
- SNS 및 뉴스 매체에 업로드된 데이터를 수집 및 분석하여 사회 이슈를 자동으로 탐지한 후, 기 설정된 표준 데이터 형태로 변환하여 저장하는 이슈 탐지부;
데이터 센터의 부하 상태, 장애 발생 상태, 이상 발생 상태를 파악하기 위한 이벤트 로그를 수집한 후, 기 설정된 표준 데이터 형태로 변환하여 저장하는 이벤트 탐지부;
상기 이벤트 로그에 기반하여 시스템 부하, 장애 발생 상태, 및 이상 발생 상태를 분석 및 예측함과 동시에 사회 이슈 발생 패턴과 시스템 부하 변화 패턴간의 인과관계를 파악 및 분석하여 현재 사회 이슈에 따른 부하 증가량을 사전 예측하여, 백업, 복구 또는 마이그레이션 실행을 위한 시스템 스케쥴러를 작성하는 시스템 예측부;
상기 데이터 센터를 구성하는 서버 또는 스토리지를 노드로써 자동 인식 및 등록한 후, 시스템 스케쥴러에 따라 노드 백업, 복구 및 마이그레이션 절차를 수행하는 시스템 관리부를 포함하는 것을 특징으로 하는 데이터 센터용 인공지능 통합 자원 관리 시스템. - 제1항에 있어서, 상기 시스템 예측부는
사회 이슈 수집 결과에 기반하여 사회 이슈별 관심도 변화 패턴를 파악하는 사회 이슈 분석부;
이벤트 로그 수집 결과에 기반하여 시스템 부하 변화 패턴과 시간대별 시스템 부하 예측치를 획득 및 출력하는 시스템 부하 분석부;
이벤트 로그 수집 결과에 기반하여 장애 발생 시점을 예측하는 장애 예측부;
이벤트 로그 수집 결과에 기반하여 이상 발생을 감지 및 통보하는 이상 감지부; 및
사회 이슈 발생 패턴과 시스템 부하 변화 패턴간의 인과관계를 파악 및 분석하여 현재 사회 이슈에 따른 부하 증가량을 사전 예측한 후, 시스템 부하, 장애 및 이상 예측값에 기반하여 백업, 복구 및 마이그레이션 실행을 위한 시스템 스케쥴러를 작성하는 시스템 스케쥴러 작성부를 포함하는 것을 특징으로 하는 데이터 센터용 인공지능 통합 자원 관리 시스템. - 제1항에 있어서, 상기 시스템 관리부는
레거시, 가상 머신(Virtual Machine), 컨테이너 중 어느 하나에 기반하여 노드 백업, 복구 및 마이그레이션 절차를 수행하는 것을 특징으로 하는 데이터 센터용 인공지능 통합 자원 관리 시스템. - 제1항에 있어서, 상기 시스템 관리부는
노드 정보를 영구 메모리에 1차 백업한 후, 백업 미디어에 2차 백업하는 것을 특징으로 하는 데이터 센터용 인공지능 통합 자원 관리 시스템. - 제4항에 있어서, 상기 시스템 관리부는
상기 영구 메모리에 저장된 노드 정보에 기반하여 복구 또는 마이그레이션을 수행하되, 상기 영구 메모리의가 사용 불가 상태이면 상기 백업 미디에 저장된 노드 정보에 기반하여 복구 또는 마이그레이션을 수행하는 것을 특징으로 하는 데이터 센터용 인공지능 통합 자원 관리 시스템. - 제4항에 있어서, 상기 노드 정보는
노드 시스템과 노드 데이터로 구분되는 것을 특징으로 하는 데이터 센터용 인공지능 통합 자원 관리 시스템.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200146987A KR20220060871A (ko) | 2020-11-05 | 2020-11-05 | 데이터 센터용 인공지능 통합 자원 관리 시스템 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200146987A KR20220060871A (ko) | 2020-11-05 | 2020-11-05 | 데이터 센터용 인공지능 통합 자원 관리 시스템 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20220060871A true KR20220060871A (ko) | 2022-05-12 |
Family
ID=81590458
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020200146987A KR20220060871A (ko) | 2020-11-05 | 2020-11-05 | 데이터 센터용 인공지능 통합 자원 관리 시스템 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20220060871A (ko) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115150460A (zh) * | 2022-06-30 | 2022-10-04 | 济南浪潮数据技术有限公司 | 一种节点安全注册方法、装置、设备及可读存储介质 |
KR102531879B1 (ko) * | 2022-10-21 | 2023-05-12 | 위템 주식회사 | 인공지능 기반 기업용 전자 장비의 유지 보수를 위한 이벤트 발생 예측 및 모니터링 방법, 장치 및 시스템 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20190106488A (ko) | 2018-03-09 | 2019-09-18 | 울산과학기술원 | 통합 서버의 자원 분배 관리장치 및 방법 |
-
2020
- 2020-11-05 KR KR1020200146987A patent/KR20220060871A/ko not_active Application Discontinuation
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20190106488A (ko) | 2018-03-09 | 2019-09-18 | 울산과학기술원 | 통합 서버의 자원 분배 관리장치 및 방법 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115150460A (zh) * | 2022-06-30 | 2022-10-04 | 济南浪潮数据技术有限公司 | 一种节点安全注册方法、装置、设备及可读存储介质 |
KR102531879B1 (ko) * | 2022-10-21 | 2023-05-12 | 위템 주식회사 | 인공지능 기반 기업용 전자 장비의 유지 보수를 위한 이벤트 발생 예측 및 모니터링 방법, 장치 및 시스템 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Tan et al. | Adaptive system anomaly prediction for large-scale hosting infrastructures | |
Oliner et al. | What supercomputers say: A study of five system logs | |
US9485160B1 (en) | System for optimization of input/output from a storage array | |
US9729401B2 (en) | Automatic remediation of poor-performing virtual machines for scalable applications | |
US10375169B1 (en) | System and method for automatically triggering the live migration of cloud services and automatically performing the triggered migration | |
Zheng et al. | Co-analysis of RAS log and job log on Blue Gene/P | |
KR101351688B1 (ko) | 서버 관리 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체, 관리 서버, 가상 서버 배치 방법 | |
CN107544839B (zh) | 虚拟机迁移***、方法及装置 | |
Panda et al. | {IASO}: A {Fail-Slow} Detection and Mitigation Framework for Distributed Storage Services | |
EP3956771B1 (en) | Timeout mode for storage devices | |
KR20220060871A (ko) | 데이터 센터용 인공지능 통합 자원 관리 시스템 | |
Pannu et al. | A self-evolving anomaly detection framework for developing highly dependable utility clouds | |
Moghaddam et al. | Performance-aware management of cloud resources: A taxonomy and future directions | |
US20230016199A1 (en) | Root cause detection of anomalous behavior using network relationships and event correlation | |
US11714396B2 (en) | Hybrid internet of things evaluation framework | |
CN112306802A (zh) | ***的数据获取方法、装置、介质和电子设备 | |
Diallo et al. | AutoMigrate: a framework for developing intelligent, self-managing cloud services with maximum availability | |
CN106875018B (zh) | 一种超大规模机器自动化维修的方法和装置 | |
KR102415027B1 (ko) | 대규모 클라우드 데이터 센터 자율 운영을 위한 백업 복구 방법 | |
US11656944B1 (en) | Code function checkpoint and restore | |
Sarkar et al. | Automated Incident Management for a {Platform-as-a-Service} Cloud | |
Gainaru et al. | Errors and faults | |
Egwutuoha et al. | Cost-oriented proactive fault tolerance approach to high performance computing (HPC) in the cloud | |
US10454773B2 (en) | Virtual machine mobility | |
JP5684640B2 (ja) | 仮想環境管理システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E601 | Decision to refuse application |