KR102352954B1

KR102352954B1 - 예측 자동 회귀 기반 실시간 기업정보시스템 사용자 이상행위 탐지 시스템 및 방법

Info

Publication number: KR102352954B1
Application number: KR1020210070224A
Authority: KR
Inventors: 오현택; 유종민; 김민경; 김옥수; 정세훈
Original assignee: 주식회사 아미크; 한국과학기술원
Priority date: 2021-05-31
Filing date: 2021-05-31
Publication date: 2022-01-19

Abstract

예측 자동 회귀 기반 실시간 기업정보시스템 사용자 이상행위 탐지 시스템 및 방법이 제시된다. 일 실시예에 따른 컴퓨터 시스템에 의해 수행되는 예측 자동 회귀 기반 실시간 기업정보시스템 사용자 이상행위 탐지 방법은, 기업정보시스템에서 연속된 2개의 세션 이벤트를 사용하여 현재 이벤트 및 미래 이벤트로 사용하는 단계; 상기 현재 이벤트를 예측 자동 회귀 모델(Predictive Auto-regression Model, PAM)에 입력하여 미래 이벤트를 예측하여 예측 결과를 생성하는 단계; 및 상기 예측 결과와 실제 상기 미래 이벤트를 비교하여 실시간으로 사용자 이상행위를 판단하는 단계를 포함하여 이루어질 수 있다.

Description

예측 자동 회귀 기반 실시간 기업정보시스템 사용자 이상행위 탐지 시스템 및 방법{Real-time Abnormal Insider Event Detection on Enterprise Resource Planning Systems via Predictive Auto-regression Model}

아래의 실시예들은 기업정보시스템에 대한 사용자 이상행위 탐지 시스템 및 방법에 관한 것으로, 더욱 상세하게는 예측 자동 회귀 기반 실시간 기업정보시스템에 대한 사용자 이상행위 탐지 시스템 및 방법에 관한 것이다.

기업정보시스템(Enterprise Resource Planning System, ERP 시스템)은 기업의 모든 부문에서 비즈니스 프로세스를 관리하는 데 도움이 되는 포괄적인 자원 관리 시스템이다.

도 1은 일반적인 ERP 시스템을 설명하기 위한 도면이다.

도 1을 참조하면, ERP 시스템(110)에서는 전반적인 비즈니스 프로세스(인력(101), 재무(102), 생산(103), 영업(104), 운영(105) 등)의 자원과 정보를 유기적으로 공유하여 운영 효율성을 개선(121, 122)할 수 있다. 즉, ERP 시스템(110)은 복잡한 기업 구조를 가진 대부분의 현대 기업에서 필수적인 비즈니스 허브 역할을 한다. 그러나 기업 내에서 중요하고 중요한 데이터를 처리하는 ERP 시스템(110)은 이러한 중요한 정보를 침해하는 기업 위협의 위험에 직면해 있다. 특히, 내부자의 기업 위협은 고려해야 할 가장 중요한 문제 중 하나로 간주되어 왔다. 내부자에는 현재 및 이전 직원뿐만 아니라 조직 시스템과 데이터에 대한 적절한 액세스 권한을 가진 계약자나 비즈니스 파트너도 포함된다. 일반적으로 내부자 위협은 외부 공격자에 의한 위협보다 기업에게 훨씬 더 위험하고 비용이 많이 든다. 내부자는 이미 시스템에 대한 합법적인 접근 권한을 가지고 있기 때문에 일반적으로 조직에서 중요한 데이터가 저장되는 위치를 알고 있다. 또한 내부자가 기업 자원에 접근하는 것이 일반적이라고 생각하기 쉽다. 한 보고서에 따르면, 보안 관리자의 약 80% 이상이 조직의 내부자 위협 효과가 '일부 효과적'이라고 응답했다. 내부자 위협을 감지하고 조직을 보호해야 할 필요성이 최근까지 제기되어 왔다.

내부자 위협 예방의 필요성이 대두되자, 시스템 내부자의 비정상적인 활동을 감지하기 위한 역할 및 시나리오 기반 접근법이 제시되었다. 이러한 접근 방식은 사전 정의되거나 알려진 비정상적이거나 위협적인 행동을 식별하기 위한 확실한 성능을 얻었다. 그러나 예상치 못한 특이한 행동에 대처할 수 없다는 점에서 한계가 있다. 비정상적인 행동에 대해 미리 정의된 정보를 사용하는 것의 한계를 극복하기 위해, 그리고 대규모 데이터셋을 사용할 수 있게 되면서 다양한 딥러닝 기반 접근법이 제안되었다. 이러한 접근 방식은 입력 장치 또는 데이터 누출로 이어지는 네트워크 신호의 비정상적인 움직임을 분석하여 비정상적인 내부자 행동을 감지하려고 했다. 그러나 이러한 간접 접근법은 ERP 시스템(110)의 실제 비정상적인 내부자 행동과 관련이 없을 수 있는 허위 경보를 자주 만들 수 있다는 점에서 한계가 있다. 또한, 내부자 위협 감지가 실시간으로 수행되어야 할 필요성을 고려하지 않았다.

M. Du, F. Li, G. Zheng, and V. Srikumar, "Deeplog: Anomaly detection and diagnosis from system logs through deep learning," in Proceedings of the 2017 ACM SIGSAC Conference on Computer and Communications Security, pp. 1285-1298, 2017. P. Wang, B. Xu, J. Xu, G. Tian, C.-L. Liu, and H. Hao, "Semantic expansion using word embedding clustering and convolutional neural network for improving short text classification," Neurocomputing, vol. 174, pp. 806-814, 2016. J. Yu, Y. Lee, K. C. Yow, M. Jeon, and W. Pedrycz, "Abnormal event detection and localization via adversarial event prediction," IEEE Transactions on Neural Networks and Learning Systems, 2021. P. Vincent, H. Larochelle, I. Lajoie, Y. Bengio, P.-A. Manzagol, and L. Bottou, "Stacked denoising autoencoders: Learning useful representations in a deep network with a local denoising criterion.," Journal of machine learning research, vol. 11, no. 12, 2010. A. Sherstinsky, "Fundamentals of recurrent neural network (rnn) and long short-term memory (lstm) network," Physica D: Nonlinear Phenomena, vol. 404, p. 132306, 2020. J. Chung, C. Gulcehre, K. Cho, and Y. Bengio, "Empirical evaluation of gated recurrent neural networks on sequence modeling," arXiv preprint arXiv:1412.3555, 2014. J. R. Hershey and P. A. Olsen, "Approximating the kullback leibler divergence between gaussian mixture models," in 2007 IEEE International Conference on Acoustics, Speech and Signal Processing-ICASSP'07, vol. 4, pp. IV-317, IEEE, 2007.

실시예들은 예측 자동 회귀 기반 실시간 기업정보시스템 사용자 이상행위 탐지 시스템 및 방법에 관하여 기술하며, 보다 구체적으로 예측 자동 회귀 모델(Predictive Auto-regression Model, PAM)을 이용하여 실시간으로 기업정보시스템에 대한 사용자 이상행위를 탐지할 수 있는 기술을 제공한다.

실시예들은 현재 이벤트를 예측 자동 회귀 모델(PAM)에 입력하여 미래 이벤트를 예측하고, 예측 결과와 실제 미래 이벤트를 비교함으로써 실시간으로 사용자 이상행위를 판단하는, 예측 자동 회귀 기반 실시간 기업정보시스템 사용자 이상행위 탐지 시스템 및 방법을 제공하는데 있다.

일 실시예에 따른 컴퓨터 시스템에 의해 수행되는 예측 자동 회귀 기반 실시간 기업정보시스템 사용자 이상행위 탐지 방법은, 기업정보시스템에서 연속된 2개의 세션 이벤트를 사용하여 현재 이벤트 및 미래 이벤트로 사용하는 단계; 상기 현재 이벤트를 예측 자동 회귀 모델(Predictive Auto-regression Model, PAM)에 입력하여 미래 이벤트를 예측하여 예측 결과를 생성하는 단계; 및 상기 예측 결과와 실제 상기 미래 이벤트를 비교하여 실시간으로 사용자 이상행위를 판단하는 단계를 포함하여 이루어질 수 있다.

상기 연속된 2개의 세션 이벤트를 사용하여 현재 이벤트 및 미래 이벤트로 사용하는 단계는, 기업정보시스템에서 원시 시스템 로그를 dense 임베딩 벡터(Dense Embedding Vector, DEV) 또는 원핫 인코딩(one-hot encoding)으로 인코딩하는 단계를 포함하고, 상기 dense 임베딩 벡터 또는 원핫 인코딩(one-hot encoding)을 이용하여 상기 연속된 2개의 세션 이벤트를 사용하여 현재 이벤트 및 미래 이벤트로 사용할 수 있다.

상기 예측 자동 회귀 모델(PAM)은, 입력되는 상기 현재 이벤트를 이용하여 미래 이벤트를 예측하도록 훈련될 수 있다.

상기 현재 이벤트를 예측 자동 회귀 모델(PAM)에 입력하여 미래 이벤트를 예측하여 예측 결과를 생성하는 단계는, 인코더를 이용하여 상기 현재 이벤트를 인코딩하여 잠재 특징을 추출하는 단계; 및 추출된 상기 잠재 특징에 예측 변수를 사용하여 상기 예측 결과를 생성하는 단계를 포함할 수 있다.

상기 예측 결과와 실제 상기 미래 이벤트를 비교하여 실시간으로 사용자 이상행위를 판단하는 단계는, 평균 제곱 오차(MSE)를 기반으로 상기 예측 결과와 실제 상기 미래 이벤트를 비교하여 산정된 오류가 기설정된 임계값 이상인 경우 사용자 이상행위로 판단될 수 있다.

상기 예측 결과와 실제 상기 미래 이벤트를 비교하여 실시간으로 사용자 이상행위를 판단하는 단계는, 예측 오류 손실을 산정하여 상기 예측 결과와 실제 상기 미래 이벤트의 차이를 판단할 수 있다.

상기 예측 결과와 실제 상기 미래 이벤트를 비교하여 실시간으로 사용자 이상행위를 판단하는 단계는, 인코딩 및 디코딩 과정에서 생성되는 잠재 특징의 불확실성을 낮추기 위해 자동 회귀 손실을 적용하며, 상기 자동 회귀 손실은 실제 상기 미래 이벤트의 특징을 추출했을 때의 결과와 상기 현재 이벤트를 통한 예측을 위한 특징을 도출했을 때의 결과의 차이일 수 있다.

다른 실시예에 따른 예측 자동 회귀 기반 실시간 기업정보시스템 사용자 이상행위 탐지 시스템은, 기업정보시스템에서 연속된 2개의 세션 이벤트를 사용하여 현재 이벤트 및 미래 이벤트로 사용하는 전처리부; 상기 현재 이벤트를 입력하여 미래 이벤트를 예측하여 예측 결과를 생성하는 예측 자동 회귀 모델(Predictive Auto-regression Model, PAM); 및 상기 예측 결과와 실제 상기 미래 이벤트를 비교하여 실시간으로 사용자 이상행위를 판단하는 사용자 이상행위 판단부를 포함하여 이루어질 수 있다.

상기 전처리부는, 기업정보시스템에서 원시 시스템 로그를 dense 임베딩 벡터(Dense Embedding Vector, DEV) 또는 원핫 인코딩(one-hot encoding)으로 인코딩하고, 상기 dense 임베딩 벡터 또는 원핫 인코딩(one-hot encoding)을 이용하여 상기 연속된 2개의 세션 이벤트를 사용하여 현재 이벤트 및 미래 이벤트로 사용할 수 있다.

상기 예측 자동 회귀 모델(PAM)은, 상기 현재 이벤트를 인코딩하여 잠재 특징을 추출하는 인코더; 및 추출된 상기 잠재 특징에 예측 변수를 사용하여 상기 예측 결과를 생성하는 예측기를 포함할 수 있다.

상기 사용자 이상행위 판단부는, 평균 제곱 오차(MSE)를 기반으로 상기 예측 결과와 실제 상기 미래 이벤트를 비교하여 산정된 오류가 기설정된 임계값 이상인 경우 사용자 이상행위로 판단될 수 있다.

상기 사용자 이상행위 판단부는, 예측 오류 손실을 산정하여 상기 예측 결과와 실제 상기 미래 이벤트의 차이를 판단할 수 있다.

상기 사용자 이상행위 판단부는, 인코딩 및 디코딩 과정에서 생성되는 잠재 특징의 불확실성을 낮추기 위해 자동 회귀 손실을 적용하며, 상기 자동 회귀 손실은 실제 상기 미래 이벤트의 특징을 추출했을 때의 결과와 상기 현재 이벤트를 통한 예측을 위한 특징을 도출했을 때의 결과의 차이일 수 있다.

실시예들에 따르면 예측 자동 회귀 모델(Predictive Auto-regression Model, PAM)을 이용하여 실시간으로 기업정보시스템에 대한 사용자 이상행위를 탐지할 수 있는, 예측 자동 회귀 기반 실시간 기업정보시스템 사용자 이상행위 탐지 시스템 및 방법을 제공할 수 있다.

실시예들에 따르면 현재 이벤트를 예측 자동 회귀 모델(PAM)에 입력하여 미래 이벤트를 예측하고, 예측 결과와 실제 미래 이벤트를 비교함으로써 실시간으로 사용자 이상행위를 판단하는, 예측 자동 회귀 기반 실시간 기업정보시스템 사용자 이상행위 탐지 시스템 및 방법을 제공할 수 있다.

도 1은 일반적인 ERP 시스템을 설명하기 위한 도면이다.
도 2는 일 실시예에 따른 컴퓨터 시스템의 내부 구성의 일례를 설명하기 위한 블록도이다.
도 3은 일 실시예에 따른 예측 자동 회귀 기반 실시간 기업정보시스템 사용자 이상행위 탐지 시스템을 나타내는 블록도이다.
도 4는 일 실시예에 따른 예측 자동 회귀 기반 실시간 기업정보시스템 사용자 이상행위 탐지 방법을 나타내는 흐름도이다.
도 5는 일 실시예에 따른 ERP 시스템에 대해 제안된 AIED을 나타내는 도면이다.
도 6는 일 실시예에 따른 PAM의 구조적 세부 사항을 나타내는 도면이다.

이하, 첨부된 도면을 참조하여 실시예들을 설명한다. 그러나, 기술되는 실시예들은 여러 가지 다른 형태로 변형될 수 있으며, 본 발명의 범위가 이하 설명되는 실시예들에 의하여 한정되는 것은 아니다. 또한, 여러 실시예들은 당해 기술분야에서 평균적인 지식을 가진 자에게 본 발명을 더욱 완전하게 설명하기 위해서 제공되는 것이다. 도면에서 요소들의 형상 및 크기 등은 보다 명확한 설명을 위해 과장될 수 있다.

정보통신기술의 발전과 기업의 세계화로 많은 기업이 ERP(Enterprise Resource Planning) 시스템이라는 전기 자원 관리 시스템을 통해 운영되고 있다. ERP 시스템은 기업을 위해 효율적이고 중앙 집중화된 자원 관리를 가능하게 한다. 그러나 많은 기업 자원이 시스템에 의해 관리되고 있기 때문에 내부자의 위협적인 행동은 ERP 시스템 운영에서 가장 중요한 위험 중 하나이다. 내부자가 기업자원에 접근하는 것은 정상적인 이벤트로 간주되기 때문에 외부인의 위협에 비해 훨씬 은밀하고 치명적이다. 기존의 내부자 위협 감지 방법은 시스템 관리자가 수동으로 정의한 특정 이벤트를 감지하는 것을 목표로 한다. 이러한 접근 방식은 이벤트 패턴의 변화에 강력하지 않으며, 미리 정의된 사례가 제시되지 않은 경우에는 사용할 수 없다.

본 발명의 실시예에서는 예측 자동 회귀 모델(Predictive Auto-regression Model, PAM)을 사용하여 실시간으로 비정상적인 내부자 이벤트 감지 방법을 제시한다. 기존 접근 방식과 비교하여 제안된 방법은 일반적인 이벤트를 사용하여 예측 모델을 컴파일하고 예측 결과의 가능성이 임계값보다 낮을 때 위협을 식별할 수 있다. 실험은 일련의 ERP 시스템 로그로 정의된 이벤트를 포함하여 데이터셋을 사용하여 수행된다. 로그는 기업의 실제 상황에서 캡처(capture)된다. 결과는 제안된 방법이 ERP 시스템에서 비정상적인 이벤트를 성공적으로 식별할 수 있음을 보여준다.

본 발명의 실시예에서는 사전 정의된 비정상 또는 비정상적인 이벤트 사례 없이 기업 내부자의 비정상 이벤트를 식별할 수 있는 ERP 시스템에 대한 실시간으로 비정상 내부자 이벤트 감지 방법을 제시한다. 이 발명의 핵심 가설은 정상 이벤트에 의해서만 훈련된 모델이 정상 이벤트를 잘 예측할 수 있다는 것이다. 이 가설을 사용하여 제안된 방법은 정상 이벤트 샘플에 의해 훈련되며, 예측 결과가 해당 미래 이벤트와 일치하지 않을 때 비정상적인 이벤트가 식별된다. 이러한 방식으로, 특히 예측 결과를 사용하여 제안된 모델은 거의 실시간으로 비정상적인 사용자 이벤트에 대응할 수 있다. 이 방법론의 경우 정확한 예측 모델을 도출하는 것이 중요하다.

예측 결과를 개선하기 위해, 실시예들은 보다 차별적인 예측 모델을 도출할 수 있는 예측 자동 회귀 모델(PAM)을 제안한다. 비정상적인 내부자 이벤트를 감지하는 데 제안된 방법의 효과를 입증하기 위해 실제 이벤트 데이터셋을 활용하는 방법을 평가한다. 데이터셋은 실제 기업에서 캡처한 ERP 시스템 로그로 구성된다. 실험 결과는 ERP 시스템에서 비정상적인 이벤트를 감지하는 데 제안된 방법의 효과를 보여준다.

본 발명의 주요 기여사항은 다음과 같다.

장단기 메모리(LSTM)를 기반으로 한 새로운 실시간 이상 내부자 이벤트 감지 방법이 제안된다. 제안된 방법은 실시간 처리 속도로 비정상적인 내부자 이벤트에 대한 강력한 감지 성능을 제공한다.

주어진 정상 이벤트를 사용하여 정확한 예측 모델을 도출하기 위해 예측 자동 회귀 모델(PAM)이 제안되며, 이는 제안된 차별적 확률 모델을 활용하여 정상 및 비정상 이벤트를 식별한다.

위의 기여사항 외에도, 최적의 하이퍼 파라미터 설정을 찾기 위해 포괄적인 실험 결과를 제공한다. 또한, 기존의 시계열 예측 모델과 비정상적인 내부자 이벤트 감지(AIED)와 기업 위협 감지(ETD)를 위한 기존 최첨단 방법을 포함한 다양한 방법과의 성능 비교를 제공한다.

아래에서는 AIED 및 ETD에 대한 관련 연구를 소개하고, PAM의 전체 아키텍처를 포함하여 제안된 방법의 세부 사항을 설명한다.

도 2는 일 실시예에 따른 컴퓨터 시스템의 내부 구성의 일례를 설명하기 위한 블록도이다. 예를 들어, 본 발명의 실시예들에 따른 예측 자동 회귀 기반 실시간 기업정보시스템 사용자 이상행위 탐지 시스템이 도 2의 컴퓨터 시스템(장치)(200)을 통해 구현될 수 있다. 도 2에 도시한 바와 같이, 컴퓨터 시스템(200)은 예측 자동 회귀 기반 실시간 기업정보시스템 사용자 이상행위 탐지 방법을 실행하기 위한 구성요소로서 프로세서(210), 메모리(220), 영구 저장 장치(230), 버스(240), 입출력 인터페이스(250) 및 네트워크 인터페이스(260)를 포함할 수 있다.

프로세서(210)는 명령어들의 임의의 시퀀스를 처리할 수 있는 임의의 장치를 포함하거나 그의 일부일 수 있다. 프로세서(210)는 예를 들어 컴퓨터 프로세서, 이동 장치 또는 다른 전자 장치 내의 프로세서 및/또는 디지털 프로세서를 포함할 수 있다. 프로세서(210)는 예를 들어, 서버 컴퓨팅 디바이스, 서버 컴퓨터, 일련의 서버 컴퓨터들, 서버 팜, 클라우드 컴퓨터, 컨텐츠 플랫폼, 이동 컴퓨팅 장치, 스마트폰, 태블릿, 셋톱 박스, 미디어 플레이어 등에 포함될 수 있다. 프로세서(210)는 버스(240)를 통해 메모리(220)에 접속될 수 있다.

메모리(220)는 컴퓨터 시스템(200)에 의해 사용되거나 그에 의해 출력되는 정보를 저장하기 위한 휘발성 메모리, 영구, 가상 또는 기타 메모리를 포함할 수 있다. 메모리(220)는 예를 들어 랜덤 액세스 메모리(RAM: random access memory) 및/또는 동적 RAM(DRAM: dynamic RAM)을 포함할 수 있다. 메모리(220)는 컴퓨터 시스템(200)의 상태 정보와 같은 임의의 정보를 저장하는 데 사용될 수 있다. 메모리(220)는 예를 들어 예측 자동 회귀 기반 실시간 기업정보시스템 사용자 이상행위 탐지를 위한 명령어들을 포함하는 컴퓨터 시스템(200)의 명령어들을 저장하는 데에도 사용될 수 있다. 컴퓨터 시스템(200)은 필요에 따라 또는 적절한 경우에 하나 이상의 프로세서(210)를 포함할 수 있다.

버스(240)는 컴퓨터 시스템(200)의 다양한 컴포넌트들 사이의 상호작용을 가능하게 하는 통신 기반 구조를 포함할 수 있다. 버스(240)는 예를 들어 컴퓨터 시스템(200)의 컴포넌트들 사이에, 예를 들어 프로세서(210)와 메모리(220) 사이에 데이터를 운반할 수 있다. 버스(240)는 컴퓨터 시스템(200)의 컴포넌트들 간의 무선 및/또는 유선 통신 매체를 포함할 수 있으며, 병렬, 직렬 또는 다른 토폴로지 배열들을 포함할 수 있다.

영구 저장 장치(230)는 (예를 들어, 메모리(220)에 비해) 소정의 연장된 기간 동안 데이터를 저장하기 위해 컴퓨터 시스템(200)에 의해 사용되는 바와 같은 메모리 또는 다른 영구 저장 장치와 같은 컴포넌트들을 포함할 수 있다. 영구 저장 장치(230)는 컴퓨터 시스템(200) 내의 프로세서(210)에 의해 사용되는 바와 같은 비휘발성 메인 메모리를 포함할 수 있다. 영구 저장 장치(230)는 예를 들어 플래시 메모리, 하드 디스크, 광 디스크 또는 다른 컴퓨터 판독 가능 매체를 포함할 수 있다.

입출력 인터페이스(250)는 키보드, 마우스, 음성 명령 입력, 디스플레이 또는 다른 입력 또는 출력 장치에 대한 인터페이스들을 포함할 수 있다. 구성 명령들 및/또는 예측 자동 회귀 기반 실시간 기업정보시스템 사용자 이상행위 탐지를 위한 정보가 입출력 인터페이스(250)를 통해 수신될 수 있다.

네트워크 인터페이스(260)는 근거리 네트워크 또는 인터넷과 같은 네트워크들에 대한 하나 이상의 인터페이스를 포함할 수 있다. 네트워크 인터페이스(260)는 유선 또는 무선 접속들에 대한 인터페이스들을 포함할 수 있다. 구성 명령들 및/또는 예측 자동 회귀 기반 실시간 기업정보시스템 사용자 이상행위 탐지를 위한 정보는 네트워크 인터페이스(260)를 통해 수신될 수 있다.

또한, 다른 실시예들에서 컴퓨터 시스템(200)은 도 2의 구성요소들보다 더 많은 구성요소들을 포함할 수도 있다. 그러나, 대부분의 종래기술적 구성요소들을 명확하게 도시할 필요성은 없다.

도 3은 일 실시예에 따른 예측 자동 회귀 기반 실시간 기업정보시스템 사용자 이상행위 탐지 시스템을 나타내는 블록도이다.

도 3은 도 2의 일 실시예에 따른 컴퓨터 시스템(200)의 프로세서(210)가 포함할 수 있는 구성요소의 예를 도시한 도면이다. 여기서, 컴퓨터 시스템(200)의 프로세서(210)는 일 실시예에 따른 예측 자동 회귀 기반 실시간 기업정보시스템 사용자 이상행위 탐지 시스템(200)을 포함할 수 있다. 일 실시예에 따른 예측 자동 회귀 기반 실시간 기업정보시스템 사용자 이상행위 탐지 시스템(300)은 전처리부(310), 예측 자동 회귀 모델(320) 및 사용자 이상행위 탐지부(330)를 포함하여 이루어질 수 있다.

프로세서(210) 및 프로세서(210)의 구성요소들은 도 4의 예측 자동 회귀 기반 실시간 기업정보시스템 사용자 이상행위 탐지 방법이 포함하는 단계들(S410 내지 S430)을 수행할 수 있다. 예를 들어, 프로세서(210) 및 프로세서(210)의 구성요소들은 메모리(220)가 포함하는 운영체제의 코드와 상술한 적어도 하나의 프로그램 코드에 따른 명령(instruction)을 실행하도록 구현될 수 있다. 여기서, 적어도 하나의 프로그램 코드는 예측 자동 회귀 기반 실시간 기업정보시스템 사용자 이상행위 탐지를 처리하기 위해 구현된 프로그램의 코드에 대응될 수 있다.

예측 자동 회귀 기반 실시간 기업정보시스템 사용자 이상행위 탐지 방법은 도시된 순서대로 발생하지 않을 수 있으며, 단계들 중 일부가 생략되거나 추가의 과정이 더 포함될 수 있다.

도 4는 일 실시예에 따른 예측 자동 회귀 기반 실시간 기업정보시스템 사용자 이상행위 탐지 방법을 나타내는 흐름도이다.

도 4를 참조하면, 일 실시예에 따른 컴퓨터 시스템에 의해 수행되는 예측 자동 회귀 기반 실시간 기업정보시스템 사용자 이상행위 탐지 방법은, 기업정보시스템에서 연속된 2개의 세션 이벤트를 사용하여 현재 이벤트 및 미래 이벤트로 사용하는 단계(S410), 현재 이벤트를 예측 자동 회귀 모델(Predictive Auto-regression Model, PAM)에 입력하여 미래 이벤트를 예측하여 예측 결과를 생성하는 단계(S420) 및 예측 결과와 실제 미래 이벤트를 비교하여 실시간으로 사용자 이상행위를 판단하는 단계(S430)를 포함하여 이루어질 수 있다.

실시예들에 따르면 현재 이벤트를 예측 자동 회귀 모델(PAM)에 입력하여 미래 이벤트를 예측하고, 예측 결과와 실제 미래 이벤트를 비교함으로써 실시간으로 사용자 이상행위를 판단할 수 있다.

일 실시예에 따른 예측 자동 회귀 기반 실시간 기업정보시스템 사용자 이상행위 탐지 방법은 도 3에서 설명한 일 실시예에 따른 예측 자동 회귀 기반 실시간 기업정보시스템 사용자 이상행위 탐지 시스템을 예를 들어 보다 상세히 설명할 수 있다. 일 실시예에 따른 예측 자동 회귀 기반 실시간 기업정보시스템 사용자 이상행위 탐지 시스템(300)은 전처리부(310), 예측 자동 회귀 모델(320) 및 사용자 이상행위 탐지부(330)를 포함하여 이루어질 수 있다.

단계(S410)에서, 전처리부(310)는 기업정보시스템에서 연속된 2개의 세션 이벤트를 사용하여 현재 이벤트 및 미래 이벤트로 사용할 수 있다. 즉, 연속된 2개의 세션 이벤트를 사용하며, 앞의 세션 이벤트를 현재 이벤트로 사용하고, 뒤에 세션 이벤트를 미래 이벤트로 사용할 수 있다.

또한, 전처리부(310)는 기업정보시스템에서 원시 시스템 로그를 dense 임베딩 벡터(Dense Embedding Vector, DEV)로 인코딩하고, dense 임베딩 벡터를 이용하여 연속된 2개의 세션 이벤트를 사용하여 현재 이벤트 및 미래 이벤트로 사용할 수 있다.

단계(S420)에서, 예측 자동 회귀 모델(320)은 현재 이벤트를 예측 자동 회귀 모델(PAM)에 입력하여 미래 이벤트를 예측하여 예측 결과를 생성할 수 있다. 예측 자동 회귀 모델(320)은 입력되는 현재 이벤트를 이용하여 미래 이벤트를 예측하도록 훈련될 수 있다.

예측 자동 회귀 모델(320)은 인코더 및 예측기를 포함하여 이루어질 수 있다. 인코더는 현재 이벤트를 인코딩하여 잠재 특징을 추출하고, 예측기는 추출된 잠재 특징에 예측 변수를 사용하여 예측 결과를 생성할 수 있다.

단계(S430)에서, 사용자 이상행위 탐지부(330)는 예측 결과와 실제 미래 이벤트를 비교하여 실시간으로 사용자 이상행위를 판단할 수 있다. 사용자 이상행위 탐지부(330)는 평균 제곱 오차(MSE)를 기반으로 예측 결과와 실제 미래 이벤트를 비교하여 산정된 오류가 기설정된 임계값 이상인 경우 사용자 이상행위로 판단될 수 있다.

사용자 이상행위 탐지부(330)는 예측 오류 손실을 산정하여 예측 결과와 실제 미래 이벤트의 차이를 판단할 수 있다. 또한, 사용자 이상행위 탐지부(330)는 인코딩 및 디코딩 과정에서 생성되는 잠재 특징의 불확실성을 낮추기 위해 자동 회귀 손실을 적용하며, 자동 회귀 손실은 실제 미래 이벤트의 특징을 추출했을 때의 결과와 현재 이벤트를 통한 예측을 위한 특징을 도출했을 때의 결과의 차이일 수 있다.

실시예들은 이벤트 예측 기반 실시간으로 기업정보시스템 사용자 이상행위 탐지 방법을 제공하며, 주어진 SAL 로그를 기반으로 예측 자동 회귀 모델은 이전 이벤트에 대한 다음 이벤트의 예측 정확도를 높이는 측면으로 학습할 수 있다. 이에 따라 이벤트 예측 모델을 구축할 수 있다. 실시예들은 실시간으로 발생하는 이벤트에 대해 다음 이벤트를 예측하고 예측된 이벤트와 실제 발생한 이벤트의 오류를 계산할 수 있다. 그 결과는 매 입력되는 이벤트에 대한 이상의 정도를 시각화 가능하다.

일반적으로 ERP 시스템 로그는 영숫자 조합으로 표시된다. 그러나 이러한 유형의 표현은 계산 모델의 입력으로 받아들여질 수 없다. 따라서 시스템 로그를 딥러닝 모델에 적용할 수 있는 신호로 변경해야 한다. 원시 시스템 로그를 변경하기 위해 원핫 인코딩은 분류된 로그를 신호로 변경하는 가장 간단한 방법으로 간주할 수 있다. Du(비특허문헌 1)는 간단하고 효율적이므로 컴퓨팅 시스템의 원시 시스템 로그를 변환하기 위해 원핫 인코딩을 활용한다. 불행히도, 단일 핫 벡터 인코딩의 방법론적 단순성 때문에, 새로운 클래스에 대한 새로운 차원을 확장할 때 차원의 저주(curse of dimensionality)로 간주되는 경우가 있다. 그것의 방법론적 특성이 원핫 벡터를 사용하는 클래스를 나타내기 때문에 인코딩 공간의 크기는 신호 클래스의 수에 선형적으로 비례한다. 따라서, 계산 비용 측면에서 비효율적이다.

이러한 문제를 극복하기 위해 원시 시스템 로그를 사전 처리하기 위해 dense 벡터 임베딩(비특허문헌 2)을 사용할 수 있다. 본 실시예에서 데이터 사전 처리 작업은 다음과 같이 수행된다. 처음에 원시 ERP 시스템 로그는 양의 정수 h = {h_t}t=1:n에 매핑되며, 여기서 h_t와 n은 각각 단일 사용자 세션에 대한 t 번째 로그와 로그 시퀀스의 길이를 나타낸다. 매핑된 정수는 dense 벡터 x = {x_t}t=1:n ∈ X(여기서, x_t∈ R^m)로 인코딩되며, 여기서 m은 신경망 기반 임베딩 네트워크를 사용하는 dense 임베딩 방법에 대해 미리 정의된 차원이다. 인코딩 작업이 끝나면 벡터를 사용하여 예측 모델을 학습한다.

예를 들어 원시 ERP 시스템 로그(복잡한 코드로 표시)는 정수 s = {s_t}t=1:n으로 대체되며, 여기서 s_t와 n은 각각 시간 t에서 단일 로그와 행위의 길이를 나타내며, 신경망을 기반으로 하는 임베딩 네트워크를 사용하여 dense 벡터 x = {x_t}t=1:n으로 다시 변환된다.

원핫 인코딩 대신 임베딩 계층을 사용하면 몇 가지 이점이 있다. 첫째, 임의의 입력 신호 사이의 의미적 관계를 나타낼 수 있는 훈련 가능한 임베딩 계층이 활용되며, 입력 신호를 직교 벡터 공간으로 매핑한다(원핫 인코딩으로는 불가능하다). 둘째, dense 임베딩은 원시 신호를 특정 벡터 공간에 임베딩하는 차원 유연성을 갖는다. N-분류 신호가 주어질 때, 원핫 벡터 공간의 차원은 적어도 N보다 크다. 반면에, dense 임베딩은 매핑된 벡터들 사이에 직교성을 강요하지 않기 때문에 N보다 더 작은 차원을 가진 벡터 공간에 신호를 매핑할 수 있다. 한편, 여기에서는 원시 시스템 로그를 사전 처리하기 위해 dense 벡터 임베딩을 이용하는 것으로 설명하고 있으나, 이에 제한되지 않으며, 시계열 데이터를 딥러닝에 적용할 수 있도록 인코딩하는 다른 방법(예컨대, 원핫 인코딩(one-hot encoding))을 사용하는 것이 가능하다.

다양한 이상 감지 방법(비특허문헌 3) 또는 특이치 감지 접근법과 유사하게, 실시예들에 따른 방법은 정상적인 이벤트를 캡처하기 위한 모델을 도출하는 것을 목표로 하고, 그런 다음 비정상적인 샘플이 제공될 때 더 큰 오류 또는 더 낮은 가능성을 예상한다.

도 5는 일 실시예에 따른 ERP 시스템에 대해 제안된 AIED을 나타내는 도면이다.

도 5를 참조하면, ERP 시스템(500)에 대해 주어진 이벤트 샘플 x(501, 502, 503)에서 AIED는 다음 식과 같이 계산 오류 또는 시스템 관리자가 수동으로 설정한 임계값(τ)과 비교(508, 509)하여 수행될 수 있다.

여기서, F는 주어진 정규 사건 샘플 X^nor에 대한 판별 모델 또는 확률 모델에 의해 정의될 수 있다. 모델 유형(판별 모델 또는 확률 모델 등)에 따라 결과는 오류 또는 가능성으로 이해될 수 있다. 이 방법론으로서, 주어진 정상 이벤트의 모든 특징을 포함할 수 있는 모델을 구축하는 것이 중요하다.

여기에서는 재구성 설정보다는 예측 설정을 사용하는데, 이는 주어진 데이터셋에서 확률 분포를 컴파일하는 가장 일반적인 방법이다(비특허문헌 4). 모델을 도출하기 위해 예측 설정을 활용할 수 있는 이점이 있다. 재구성 세트에는 제한된 입력과 출력이 필요하지만, 예측 설정은 입력과 출력 사이의 시간 간격을 변경하여 각 입력에 해당하는 출력을 결정할 수 있기 때문에 입력과 출력의 상관 관계를 학습하는 데 더 유연하다. 이 방법론적 특성은 입력 샘플의 보다 다양한 패턴을 제공함으로써 모델의 일반화 성능을 향상시킬 수 있다.

제안된 방법은 처음에 현재 이벤트(502)를 인코더 f^enc(504)를 이용하여 인코딩하여 잠재 특징(feature, 505)을 추출하고 예측 변수 f^pre(506)을 사용하여 예측 결과(507)를 생성할 수 있다. 현재 이벤트(502)에 대한 인코딩 프로세스는 다음 식과 같이 표시될 수 있다.

[수학식 1]

여기서, f^enc는 제안 방법의 인코더 모듈(504)이다. x^C와 z는 각각 현재 이벤트(502) 샘플과 추출된 잠재 특징(505)을 나타낸다. 제안된 방법은 잠재 특징 z(505)를 사용하여 예측 변수 f^pre(506)를 통해 다음 식과 같이 미래 이벤트(507)를 예측할 수 있다.

[수학식 2]

여기서, f^pre는 PAM의 예측 변수(506)를 나타내고

는 예측 결과(507)를 나타낸다.

반복 신경망(RNN) 구조를 인코더 f^enc(504)와 예측 변수 f^pre(506)에 활용하여 순차 데이터를 처리하며, 시계열 데이터를 처리하는 데 일반적으로 사용되는 접근 방식이다(비특허문헌 3). 인코더 f^enc(504)와 예측 변수 f^pre(506)는 LSTM 셀을 사용하여 컴파일될 수 있다(비특허문헌 5).

LSTM은 입력 게이트 i, foget 게이트 g, 출력 게이트 o로 구성된다. t 번째 시간 단계에서 입력 게이트 i_t는 t 시간에서 현재 내부 상태 s_t에 대한 새로운 입력의 영향을 나타내는 가중치를 결정한다. 입력 게이트의 프로세스는 다음 식과 같이 표시될 수 있다.

[수학식 3]

여기서, σ(·)는 입력을 0과 1 사이의 값으로 매핑하는 시그모이드 함수이다. 값이 1에 가까우면 입력 특징

가 더 중요해진다. Wis와 Wih는 상태 s_t-1및 은닉 상태 α_t-1과 관련된 가중치 파라미터이다. W_ix와 b_i는 가중치 행렬과 공간 특징

에 대한 bias이다.

[수학식 4]

여기서, W_gs, W_gh, W_gx는 각각 s_t-1, α_t-1,

에 대한 가중치 행렬을 나타낸다. _bg는 바이어스를 나타낸다. 이러한 입력을 활용하여 각 LSTM 셀의 s_t-1, α_t-1,

, g_t, s_t를 다음 식과 같이 업데이트한다.

[수학식 5]

여기서, 는 요소별 곱을 나타내고, W_sh와 W_sx는 각각 히든 상태 α_t-1과 공간 특징

와 관련된 가중치 행렬을 나타낸다.

출력 게이트 o_t는 현재 상태가 미래 상태에 미치는 영향을 결정하며 다음 식과 같이 정의된다.

[수학식 6]

여기서 W_cx, W_ch, W_cs는 각각 s_t, h_t-1,

에 해당하는 가중치 파라미터를 나타낸다. b_c는 출력 게이트의 bias를 나타낸다. LSTM의 은닉 상태는 다음 식과 같이 계산된다.

[수학식 7]

여기서, ω는 ReLu 활성화 함수이다. LSTM에 사용되는 RNN 구조는 게이트 반복 유닛(GRU) 구조(비특허문헌 6)로 대체될 수 있다. 실시예들은 실험에 대한 메모리 셀 유형에 따라 AIED에 대한 ablation 연구를 제공할 것이다.

인코더와 예측 변수를 사용하여 이벤트 예측이 오버되면 예측 오류를 사전 정의된 임계값 β와 비교하여 비정상적인 이벤트를 감지한다. 도 5에서와 같이 예측 결과와 해당 미래 이벤트를 비교함으로써 예측 오류를 얻는다. 오류는 평균 제곱 오차(MSE)를 기반으로 공식화되며, 이 프로세스는 다음 식과 같이 표시된다.

[수학식 8]

여기서, x^F와

는 각각 제안된 방법에 의한 미래 사건과 예측 결과를 나타낸다. lx는 x^F의 시간 길이를 나타낸다.

따라서 오류가 있는 AIED 워크플로우는 다음 식과 같이 정의된다.

[수학식 9]

여기서, τ는 이벤트 이상 임계값이며, 수동으로 결정한다. 계산된 오류와 수동으로 정의된 임계값 τ를 비교하여 이상 이벤트가 감지되므로 AIED의 성능은 임계값에 따라 달라진다. 한편, 여기에서는 평균 제곱 오차(MSE)를 기반으로 예측결과의 오류를 판단하고 있으나, 이에 제한되지 않으며, 일반화된 오차율 함수를 적용할 수 있다.

주어진 정상 이벤트 데이터셋에서 강력한 확률 모델을 얻기 위해, 실시예들은 예측 방법을 사용한다. 정확한 AIED의 전제 조건은 현재 이벤트(502) x^C 및 해당 미래 이벤트 x^F와 관련된 확률 p(x^F|x^C)를 계산하기 위한 최적의 예측 모델을 도출하는 것이다. 도 5에서 제시한 방법의 워크플로우와 같이, 인코더 f^enc는 처음에 현재 사건 x^C를 잠재 특징으로 f^enc: x^C → z와 같이 매핑한 다음, 예측 변수 f^pre는 예측 결과를 f^pre : z →

로 출력한다. 위의 주석을 사용하여 p(x^F|x^C)를 다음 식과 같이 p(z|x^C)와 p(x^F|z,x^C)로 재구성할 수 있다.

[수학식 10]

여기서, p(x^C)와 p(z)는 각각 x^C와 z의 사전 확률을 나타낸다. p(x^C)는 현재 이벤트(502)로 정의된 주어진 이벤트 샘플에 의해 도출될 수 있다. 따라서 최적의 p(z|x^C), 최적의 p(x^F|z) 및 p(z)를 도출하려면 p(x^F|x^C)가 필요하며, 제안된 예측 자동 회귀 모델(PAM)의 관점에서 이 문제를 다룬다.

도 6는 일 실시예에 따른 PAM의 구조적 세부 사항을 나타내는 도면이다.

도 6를 참조하면, PAM은 예측 오류 손실 L_P와 자동 회귀 손실 L_A를 계산하기 위한 두 개의 주요 파이프라인으로 구성되며, 이것들은 모두 인코더(610)와 예측기(620)의 예측 변수 아래에서 작동한다. 여기서, 예측 오류 손실 L_P은 예측 값(621)과 실제 값(631)이 얼마나 차이 나는지를 판단할 수 있다. 입력/출력 예측 오류만 판단하는 경우 인코딩 및 디코딩 과정에서 생성되는 잠재 특징인 z의 불확실성이 늘어나게 된다. z의 불확실성을 낮추기 위해서 미래 이벤트의 형상이 되도록 하는 자동 회귀 손실 L_A을 제공할 수 있다. 실제 미래 이벤트(631)의 특징을 추출했을 때의 결과(

)와 현재 이벤트(611)를 통한 예측을 위한 특징을 도출했을 때의 결과(z)가 최대한 같을수록 예측 결과가 좋게 된다.

사전 처리된 이벤트 x_1:2k가 주어지면(여기서, n = 2k) 현재 이벤트 x_1:k([수학식 1]의 x^C)(611)와 미래 이벤트 x_k+1:2k([수학식 8]의 x^F)(621)로 나뉜다. 그런 다음 현재 이벤트(611)는 인코더(610) f^enc([수학식 1])를 통해 잠재 특징(z)으로 인코딩된다. 잠재 특징(z)은 예측 결과

_k+1:2k([수학식 2])를 생성하기 위해 예측 변수에 적용될 수 있다.

[수학식 11]

L_P를 최소화하면 기본적으로 적절한 p(z|x^C)와 p(x^F|z)를 찾을 수 있다.

그러나, 예측 오차 손실만을 사용하는 것은 잠재 공간에 대한 추상적인 표현을 고려할 수 없기 때문에 전역화된 특징을 학습하는 데 충분하지 않을 수 있다. 방법론적으로, 예측 오차 손실은 가능한 가깝게 추상화되거나 일반화되지 않는 샘플 공간의 오류를 최소화한다. 이 오류 최소화 프로세스 동안 추상화된 특징은 원래 입력보다 더 전역화된 특징인 잠재 공간에 매핑된다. 그러나, 이전 연구에 따르면, 잠재 특징 공간이 임의로 구성되는 경우, 무작위성으로 인해 입력 샘플의 재구성에 불확실성이 발생할 수 있다. 결과적으로, 불확실성은 예측 성능을 저하시키고, 잘 재구성되지 않은 결과는 AIED 성능을 저하시킬 수 있다.

따라서, 실시예들은 불확실성을 줄이기 위해 잠재 특징에 자동 회귀 손실 L_A를 적용할 수 있다. 실시예들은 z로 표기된 예측에 사용되는 잠재 특징의 분포를 실제 미래 이벤트 x_k+1:2k에 임베딩된 실제 분포에 가깝게 밀어 넣는다. 예측 변수의 역방향 작동은 주어진 미래 이벤트에서 잠재 특징을 취하는 인코더의 역할로 작용한다. 예측 변수 f^pre의 역처리는 다음 식과 같이 표시될 수 있다.

[수학식 12]

여기서, f^-pre는 예측 변수 f^pre의 역방향 작동을 나타내며,

는 훈련 단계에서 주어진 미래 이벤트에서 추출한 잠재 특징이다. 이 단계에서는 새 모델이 필요하지 않으므로 모델의 복잡도에 영향을 미치지 않는다. 역방향 작동은 도 6에 도시된 바와 같이 원래 예측 모델 f^pre의 가중치 공유를 기반으로 수행된다.

두 잠재 특징의 분포 간 차이를 최소화하면서 Kullback-Leibler(KL) 발산을 사용하여 차이를 측정한다(비특허문헌 7). 주어진 z와

에서, 잠재 특징에 대한 자동 회귀 손실은 다음 식과 같이 정의된다.

[수학식 13]

여기서, D_KL은 K_L 발산 모듈을 나타내고, z_i와

_j는 각각 잠재 특징 z와

에서 i 번째 및 j 번째 요소를 나타낸다. K_L 분산의 최소값은 0이며, 이는 두 분포가 정확히 같다는 것을 의미한다.

따라서 총 손실 함수는 다음과 같이 예측 오차 손실과 자동 회귀 손실의 조합으로 정의된다.

[수학식 14]

여기서, λ는 두 손실 사이의 균형 가중치이다. 본 발명에서는 0.1을 최상의 성능을 위한 균형 가중치의 값으로 설정하였다.

Apaydin 등에 따르면, LSTM을 사용하는 PAM의 모델 복잡도는 W = n_c Х n_c Х 3 + n_c Х n_o + n_c Х 2인 O(2W)이다. 여기서, n_c, n_i, n_o는 각각 LSTM 셀, 입력 단위 및 출력 단위의 수를 나타낸다. 또한, 신경망을 통한 dense 벡터 임베딩의 복잡성은 O(N²)이며, 여기서 N은 신경망을 통한 dense 벡터 임베딩에 사용되는 은닉 계층의 차원이다. 따라서 제안된 방법의 모델 복잡성은 O(2W + N²)이다. 그러나 모델 복잡도는 인코더와 예측기에 통합된 메모리 셀의 수를 늘리거나 줄일 수 있기 때문에 입력 이벤트 샘플의 시간 길이에 따라 변경될 수 있다. 이론적 모델 복잡도와 더불어 실제 실행 속도는 작업에 대한 실시간 애플리케이션으로서 처리 속도를 입증하는 데 필수적이다. 실험에서 실시예들에 따른 방법의 실시간 처리 능력이 타당함을 보여준다.

이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 컨트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 컨트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims

컴퓨터 시스템에 의해 수행되는 예측 자동 회귀 기반 실시간 기업정보시스템 사용자 이상행위 탐지 방법에 있어서,
기업정보시스템에서 연속된 2개의 세션 이벤트를 사용하여 현재 이벤트 및 미래 이벤트로 사용하는 단계;
상기 현재 이벤트를 예측 자동 회귀 모델(Predictive Auto-regression Model, PAM)에 입력하여 미래 이벤트를 예측하여 예측 결과를 생성하는 단계; 및
상기 예측 결과와 실제 상기 미래 이벤트를 비교하여 실시간으로 사용자 이상행위를 판단하는 단계
를 포함하고,
상기 현재 이벤트를 예측 자동 회귀 모델(PAM)에 입력하여 미래 이벤트를 예측하여 예측 결과를 생성하는 단계는,
인코더를 이용하여 상기 현재 이벤트를 인코딩하여 잠재 특징을 추출하는 단계; 및
추출된 상기 잠재 특징에 예측 변수를 사용하여 상기 예측 결과를 생성하는 단계
를 포함하는, 사용자 이상행위 탐지 방법.
컴퓨터 시스템에 의해 수행되는 예측 자동 회귀 기반 실시간 기업정보시스템 사용자 이상행위 탐지 방법에 있어서,
기업정보시스템에서 연속된 2개의 세션 이벤트를 사용하여 현재 이벤트 및 미래 이벤트로 사용하는 단계;
상기 현재 이벤트를 예측 자동 회귀 모델(Predictive Auto-regression Model, PAM)에 입력하여 미래 이벤트를 예측하여 예측 결과를 생성하는 단계; 및
상기 예측 결과와 실제 상기 미래 이벤트를 비교하여 실시간으로 사용자 이상행위를 판단하는 단계
를 포함하고,
상기 연속된 2개의 세션 이벤트를 사용하여 현재 이벤트 및 미래 이벤트로 사용하는 단계는,
기업정보시스템에서 원시 시스템 로그를 dense 임베딩 벡터(Dense Embedding Vector, DEV) 또는 원핫 인코딩(one-hot encoding)으로 인코딩하는 단계
를 포함하고,
상기 dense 임베딩 벡터 또는 또는 원핫 인코딩(one-hot encoding)을 이용하여 상기 연속된 2개의 세션 이벤트를 사용하여 현재 이벤트 및 미래 이벤트로 사용하는 것
을 특징으로 하는, 사용자 이상행위 탐지 방법.
제1항에 있어서,
상기 예측 자동 회귀 모델(PAM)은,
입력되는 상기 현재 이벤트를 이용하여 미래 이벤트를 예측하도록 훈련되는 것
을 특징으로 하는, 사용자 이상행위 탐지 방법.
삭제
제1항에 있어서,
상기 예측 결과와 실제 상기 미래 이벤트를 비교하여 실시간으로 사용자 이상행위를 판단하는 단계는,
상기 예측 결과와 실제 상기 미래 이벤트를 비교하여 산정된 오류가 기설정된 임계값 이상인 경우 사용자 이상행위로 판단되는 것
을 특징으로 하는, 사용자 이상행위 탐지 방법.
제1항에 있어서,
상기 예측 결과와 실제 상기 미래 이벤트를 비교하여 실시간으로 사용자 이상행위를 판단하는 단계는,
예측 오류 손실을 산정하여 상기 예측 결과와 실제 상기 미래 이벤트의 차이를 판단하는 것
을 특징으로 하는, 사용자 이상행위 탐지 방법.
제1항에 있어서,
상기 예측 결과와 실제 상기 미래 이벤트를 비교하여 실시간으로 사용자 이상행위를 판단하는 단계는,
인코딩 및 디코딩 과정에서 생성되는 잠재 특징의 불확실성을 낮추기 위해 자동 회귀 손실을 적용하며, 상기 자동 회귀 손실은 실제 상기 미래 이벤트의 특징을 추출했을 때의 결과와 상기 현재 이벤트를 통한 예측을 위한 특징을 도출했을 때의 결과의 차이인 것
을 특징으로 하는, 사용자 이상행위 탐지 방법.
예측 자동 회귀 기반 실시간 기업정보시스템 사용자 이상행위 탐지 시스템에 있어서,
기업정보시스템에서 연속된 2개의 세션 이벤트를 사용하여 현재 이벤트 및 미래 이벤트로 사용하는 전처리부;
상기 현재 이벤트를 입력하여 미래 이벤트를 예측하여 예측 결과를 생성하는 예측 자동 회귀 모델(Predictive Auto-regression Model, PAM); 및
상기 예측 결과와 실제 상기 미래 이벤트를 비교하여 실시간으로 사용자 이상행위를 판단하는 사용자 이상행위 판단부
를 포함하고,
상기 예측 자동 회귀 모델(PAM)은,
상기 현재 이벤트를 인코딩하여 잠재 특징을 추출하는 인코더; 및
추출된 상기 잠재 특징에 예측 변수를 사용하여 상기 예측 결과를 생성하는 예측기
를 포함하는, 사용자 이상행위 탐지 시스템.
예측 자동 회귀 기반 실시간 기업정보시스템 사용자 이상행위 탐지 시스템에 있어서,
기업정보시스템에서 연속된 2개의 세션 이벤트를 사용하여 현재 이벤트 및 미래 이벤트로 사용하는 전처리부;
상기 현재 이벤트를 입력하여 미래 이벤트를 예측하여 예측 결과를 생성하는 예측 자동 회귀 모델(Predictive Auto-regression Model, PAM); 및
상기 예측 결과와 실제 상기 미래 이벤트를 비교하여 실시간으로 사용자 이상행위를 판단하는 사용자 이상행위 판단부
를 포함하고,
상기 전처리부는,
기업정보시스템에서 원시 시스템 로그를 dense 임베딩 벡터(Dense Embedding Vector, DEV) 또는 원핫 인코딩(one-hot encoding)으로 인코딩하고, 상기 dense 임베딩 벡터 또는 원핫 인코딩(one-hot encoding)을 이용하여 상기 연속된 2개의 세션 이벤트를 사용하여 현재 이벤트 및 미래 이벤트로 사용하는 것
을 특징으로 하는, 사용자 이상행위 탐지 시스템.
제8항에 있어서,
상기 예측 자동 회귀 모델(PAM)은,
입력되는 상기 현재 이벤트를 이용하여 미래 이벤트를 예측하도록 훈련되는 것
을 특징으로 하는, 사용자 이상행위 탐지 시스템.
삭제
제8항에 있어서,
상기 사용자 이상행위 판단부는,
상기 예측 결과와 실제 상기 미래 이벤트를 비교하여 산정된 오류가 기설정된 임계값 이상인 경우 사용자 이상행위로 판단되는 것
을 특징으로 하는, 사용자 이상행위 탐지 시스템.
제8항에 있어서,
상기 사용자 이상행위 판단부는,
예측 오류 손실을 산정하여 상기 예측 결과와 실제 상기 미래 이벤트의 차이를 판단하는 것
을 특징으로 하는, 사용자 이상행위 탐지 시스템.
제8항에 있어서,
상기 사용자 이상행위 판단부는,
인코딩 및 디코딩 과정에서 생성되는 잠재 특징의 불확실성을 낮추기 위해 자동 회귀 손실을 적용하며, 상기 자동 회귀 손실은 실제 상기 미래 이벤트의 특징을 추출했을 때의 결과와 상기 현재 이벤트를 통한 예측을 위한 특징을 도출했을 때의 결과의 차이인 것
을 특징으로 하는, 사용자 이상행위 탐지 시스템.