KR101162051B1

KR101162051B1 - 문자열 비교 기법을 이용한 악성코드 탐지 및 분류 시스템 및 그 방법

Info

Publication number: KR101162051B1
Application number: KR1020100131401A
Authority: KR
Inventors: 이진경; 임채태; 정현철
Original assignee: 한국인터넷진흥원
Priority date: 2010-12-21
Filing date: 2010-12-21
Publication date: 2012-07-03
Also published as: US20120159625A1; KR20120070016A

Abstract

본 발명은 악성코드 탐지 및 분류 시스템에 있어서, 악성코드 바이너리 파일로부터 상기 바이너리 파일에 존재하는 모든 표현되는 문자열을 추려내는 문자열 추출부; 상기 문자열 추출부로부터 추출된 문자열 중 악성코드 탐지 및 분류에 방해되는 요소들을 정제하는 문자열 정제부; 및 상기 문자열 정제부로부터 정제된 문자열의 비교를 통해서 하나의 바이너리가 다른 바이너리와 얼마나 유사한지 판단하는 문자열 비교부;를 포함하는 것을 특징으로 하는 문자열 비교 기법을 이용한 악성코드 탐지 및 분류 시스템을 제공한다.
또한, 본 발명은 악성코드 탐지 및 분류 방법에 있어서, 문자열 추출부에 의해 악성코드 바이너리 파일로부터 상기 바이너리 파일에 존재하는 모든 표현되는 문자열을 추려내는 단계; 문자열 정제부에 의해 추출된 문자열 중 악성코드 탐지 및 분류에 방해되는 요소들을 정제하는 단계; 문자열 비교부에 의해 정제된 문자열을 비교하는 단계; 및 상기 문자열 비교부에 의해 비교된 문자열 하나의 바이너리가 다른 바이너리와 얼마나 유사한지 판단하는 단계;를 포함하는 것을 특징으로 하는 문자열 비교 기법을 이용한 악성코드 탐지 및 분류 방법을 제공한다.

Description

문자열 비교 기법을 이용한 악성코드 탐지 및 분류 시스템 및 그 방법{Using string comparison malicious code detection and classification system and method}

본 발명은 문자열 비교 기법을 이용한 악성코드 탐지 및 분류 시스템 및 그 방법에 관한 것으로, 문자열 비교를 통해 두 실행파일에 대한 유사도를 측정함으로써, 악성코드 판별 및 분류를 도와주는 정적 분석기법을 제안하는 문자열 비교 기법을 이용한 악성코드 탐지 및 분류 시스템 및 그 방법에 관한 것이다.

최근 수년간 악성코드의 수가 큰 폭으로 증가하고 있다.

시만텍(Symantec)의 '인터넷 보안 위협 보고서'에 따르면 2009년 한 해 동안 280만개 이상의 악성코드 시그니쳐가 생성되었고 이는 전년 대비 71% 가량 증가된 수치이다. 또한, 이는 지금까지 생성된 모든 시그니쳐의 51%에 해당된다. 이처럼 폭발적으로 증가하는 악성코드에 대응하기 위해서는 전문가의 양성도 중요하지만 분석 시스템의 자동화가 필수불가결하다.

악성코드 분석 시스템은 크게 동적 분석을 이용한 방법과 정적 분석을 이용한 방법으로 구분된다. 동적 분석은 파일을 수행시킴으로써, 분석대상이 어떤 행위를 하는지 그리고 어떤 영향을 미치는지에 대한 정보를 얻을 수 있다. 이는 악성여부 탐지 및 분석대상의 행위 특성을 결정짓는데 도움이 된다. 반면 정적 분석은 파일을 수행시키지 않고 분석을 수행하기 때문에 분석 시스템에 적용하기에는 여러 가지 제약이 존재한다. 하지만 정적 분석은 분석된 악성코드와의 비교를 통해 특정 악성코드의 변종 여부를 판단할 수 있는 장점이 있다.

대표적인 악성코드 정적 분석 중 하나의 실행파일의 코드영역을 분석하여 프로그램의 분기점을 그래프로 표현하는 방법이 있다. 이 CFG(Control Flow Graph)를 이용한 악성코드 분석은 두 실행파일에 대한 유사성 검증을 자동화하는데 적합하다. 마찬가지로 실행파일로부터 추출한 문자열을 비교함으로써, 두 실행파일에 대한 유사성을 검증하는 방법 역시 악성코드 자동분석 시스템에 충분히 유효하다. 특히 디스어셈블(Disassemble) 기능을 방해하는 요소나 난독화(Obfuscation) 기능을 포함된 실행파일에 대해서는 전자의 방법을 사용할 수 없기 때문에 후자와 같은 범용성 높은 정적 분석 기법연구가 필요하다.

따라서, 본 발명은 종래 기술에 제기된 문제점을 해결하기 위한 것으로, 비교 문자열의 수와 종류에 따라 그 성능이 결정되기 때문에 문자열들을 정제하는 정제과정이 적용됨으로써, 악성코드 탐지 및 분류 시스템의 성능을 향상시킬 수 있는 문자열 비교 기법을 이용한 악성코드 탐지 및 분류 시스템 및 그 방법을 제공하는데 그 목적이 있다.

또한, 본 발명은 동일 문자열만을 찾기보다는 문자열들 간의 유사도를 측정하며, 유사도 측정에 있어서 악성코드가 가지는 문자열들의 특성을 고려하여 보다 더 정확한 결과를 도출할 수 있는 문자열 비교 기법을 이용한 악성코드 탐지 및 분류 시스템 및 그 방법을 제공하는데 그 목적이 있다.

상기의 목적을 달성하기 위한 본 발명은 악성코드 탐지 및 분류 시스템에 있어서, 악성코드 바이너리 파일로부터 상기 바이너리 파일에 존재하는 모든 표현되는 문자열을 추려내는 문자열 추출부; 상기 문자열 추출부로부터 추출된 문자열 중 악성코드 탐지 및 분류에 방해되는 요소들을 정제하는 문자열 정제부; 및 상기 문자열 정제부로부터 정제된 문자열의 비교를 통해서 하나의 바이너리가 다른 바이너리와 얼마나 유사한지 판단하는 문자열 비교부;를 포함하는 것을 특징으로 하는 문자열 비교 기법을 이용한 악성코드 탐지 및 분류 시스템을 제공한다.

이때, 상기 문자열은 바이너리 데이터가 아스키 혹은 유니코드 표준에 정의된 문자영역 데이터를 연속으로 갖는 데이터일 수 있다.

그리고 상기 문자열 추출부로부터 추출된 문자열들은 10글자 이하의 모든 문자열, 10글자 이상이지만 의미 없는 문자열, 윈도우즈 DLL파일 및 API명, 프로그램 언어가 지원하는 라이브러리 함수 명, PE 파일 포맷이 기본적으로 가지는 문자열로 분류될 수 있다.

상기의 목적을 달성하기 위한 본 발명은 악성코드 탐지 및 분류 방법에 있어서, 문자열 추출부에 의해 악성코드 바이너리 파일로부터 상기 바이너리 파일에 존재하는 모든 표현되는 문자열을 추려내는 단계; 문자열 정제부에 의해 추출된 문자열 중 악성코드 탐지 및 분류에 방해되는 요소들을 정제하는 단계; 문자열 비교부에 의해 정제된 문자열을 비교하는 단계; 및 상기 문자열 비교부에 의해 비교된 문자열 하나의 바이너리가 다른 바이너리와 얼마나 유사한지 판단하는 단계;를 포함하는 것을 특징으로 하는 문자열 비교 기법을 이용한 악성코드 탐지 및 분류 방법을 제공한다.

또한, 상기 문자열 정제부에 의해 추출된 문자열 중 악성코드 탐지 및 분류에 방해되는 요소들을 정제하는 단계에서, 한 문자열의 문자 조합이 하기와 같은 문자열 정제수식에 만족하면 해당 문자열은 삭제될 수 있다.

또한, 상기 문자열 비교부에 의해 정제된 문자열을 비교하는 단계에서, 상기 문자열 비교부는 두 문자열 집합 간에 동일한 문자열 수 측정하는 방법으로 문자열을 비교할 수 있다.

또한, 상기 문자열 비교부에 의해 정제된 문자열을 비교하는 단계에서, 상기 문자열 비교부는 두 문자열 집합 간에 일정 임계치 이상의 Edit Distance 값을 보이는 문자열 수를 측정할 수 있다.

또한, 상기 문자열 비교부에 의해 비교된 문자열 하나의 바이너리가 다른 바이너리와 얼마나 유사한지 판단하는 단계에서, 두 문자열 간에 Levenshtein distance 값을 계산한 후 아래 수식의 결과를 기반으로 유사도를 점수화할 수 있다.

또한. 상기 유사도 점수는 최소 0에서 최대 1까지 표현되며, 1에 가까울수록 두 문자열을 유사하다고 판단할 수 있다.

또한, 상기 문자열 비교부에 의해 비교된 문자열 하나의 바이너리가 다른 바이너리와 얼마나 유사한지 판단하는 단계에서, URL 유사도 판단은 URL 전송시 반드시 들어가는 문자를 포함한 문자열을 추린 후, 비교 문자열 집합과의 문자열의 유사도를 판단할 수 있다.

이때, 상기 URL 전송시 반드시 들어가는 문자는 http://, GET, POST일 수 있다.

이상에서, 본 발명은 비교 문자열의 수와 종류에 따라 그 성능이 결정되기 때문에 문자열들을 정제하는 정제과정이 적용됨으로써, 악성코드 탐지 및 분류 시스템의 성능을 향상시킬 수 있는 효과가 있다.

그리고 본 발명은 동일 문자열만을 찾기보다는 문자열들 간의 유사도를 측정함으로써, 유사도 측정에 있어서 악성코드가 가지는 문자열들의 특성을 고려하여 보다 더 정확한 결과를 도출할 수 있는 효과가 있다.

도 1은 본 발명의 실시예에 따른 문자열 비교 기법을 이용한 악성코드 탐지 및 분류 시스템과 그에 대한 프로세스를 나타낸 도면이다.
도 2는 본 발명의 실시예에 따른 문자열 비교 기법을 이용한 악성코드 탐지 및 분류 방법에 대한 순서를 나타낸 도면이다.
도 3은 본 발명의 실시예에 채용되는 문자열 비교 기법을 이용한 악성코드 탐지 및 분류 시스템에 악성코드 Asylum을 입력했을 때의 결과를 나타낸 그래프에 대한 도면이다.

본 발명에 따른 문자열 비교 기법을 이용한 악성코드 탐지 및 분류 시스템 및 그 방법에 대한 기술적 구성을 비롯한 작용효과에 관한 사항은 본 발명의 바람직한 실시예가 도시된 도면을 참조하여 아래의 상세한 설명에 의해서 명확하게 이해될 것이다.

문자열 비교 기법을 이용한 악성코드 탐지 및 분류 시스템

도 1을 참조하여 설명하면, 본 발명은 악성코드 탐지 및 분류 시스템(100)에 있어서, 악성코드 바이너리 파일로부터 상기 바이너리 파일에 존재하는 모든 표현되는 문자열을 추려내는 문자열 추출부(110), 상기 문자열 추출부(110)로부터 추출된 문자열 중 악성코드 탐지 및 분류에 방해되는 요소들을 정제하는 문자열 정제부(120) 및 상기 문자열 정제부(120)로부터 정제된 문자열의 비교를 통해서 하나의 바이너리가 다른 바이너리와 얼마나 유사한지 판단하는 문자열 비교부(130)를 포함하여 이루어질 수 있다.

여기서, 상기 문자열 비교 기법을 이용한 악성코드 탐지 및 분류 시스템(100)은 바이너리 파일로부터 추출 가능한 모든 문자열을 뽑아낸 후 각각의 문자열들을 비교함으로써, 두 파일간의 유사도를 판단하는 시스템(100)이다. 예를 들어, 두 파일의 유사도가 매우 높고 하나의 파일이 이미 분석된 악성코드라면 다른 한 파일은 이 악성코드의 변종일 가능성이 높은 것이다. 즉, 기존에 분석 완료된 악성코드를 비교기준으로 삼아 새롭게 입력되는 의심스런 바이너리 파일에 대한 악성여부 판단 및 변종정보를 결정해주는 시스템(100)이다.

이와 같은 시스템(100)은 크게 문자열 추출부(110), 문자열 정제부(120), 문자열 비교부(130)라는 3가지 구성으로 이루어질 수 있다.

상기 문자열 추출부(110)는 바이너리에 존재하는 모든 표현 가능한 문자열을 추려낼 수 있다. 이때, 상기 문자열은 바이너리 데이터가 아스키 혹은 유니코드 표준에 정의된 문자영역 데이터를 연속으로 갖는 데이터로 판단할 수 있다. 일반적으로 문자열은 널(Null)값을 종결자로 가지지만 실행파일 안에 존재하는 문자열의 경우 항상 그런 것만은 아니기 때문에 0x00으로 종료되지 않는 연속된 문자영역 데이터로 고려해야 한다. 최근 이슈가 되는 악성코드는 미국을 제외한 중국, 브라질, 인도 등에서 가장 활발하게 활동하고 있으므로 해당국가 고유의 문자영역을 문자열 추출 기준에 포함시키는 것도 좋은 방법이다.

상기 문자열 추출부(110)로부터 추출된 문자열들은 아래 [표 1]에 도시된 바와 같이 10글자 이하의 모든 문자열, 10글자 이상이지만 의미 없는 문자열, 윈도우즈 DLL파일 및 API명, 프로그램 언어가 지원하는 라이브러리 함수 명, PE 파일 포맷이 기본적으로 가지는 문자열로 분류될 수 있다. 이는 실험을 위해 선택된 100개의 악성코드로부터 추출된 모든 문자열에 대한 수치이다. 이와 같이 분류된 문자열은 다음에서 설명되는 문자열 정제부(120)를 통해 정제되며 이에 대한 설명은 이후 자세히 하기로 한다.

문자열 구분 기준	구성률	문자열 수
10글자 이하의 모든 문자열	83%	86084
윈도우즈 DLL파일 및 API함수명	4%	4509
프로그램 언너에 종속적인 함수군	25	2609
PE 파일 포맷의 기분 문자열	0.09%	103
나머지 문자열	10.91%	10464
Total	100%	13769

상기 문자열 정제부(120)는 추출된 문자열 중 악성코드 탐지 및 분류에 방해되는 요소들을 정제할 수 있다. 바이너리로부터 추출된 문자열은 그 수가 많으면 많을 수록 문자열을 비교하는데 소모되는 시간이 급격히 증가한다. 대량의 악성코드를 자동 분석해야 하는 시스템(100)은 반드시 이러한 성능 문제가 고려되어야 하기 때문에 추출된 문자열의 수를 줄이는 과정은 필수적이다. 또한, 악성코드뿐만 아니라 일반 실행파일에서도 쉽게 찾을 수 있는 문자열의 경우는 악성코드 탐지 및 분류의 적중률을 낮추기 때문에 이러한 문자열 역시 제거되는 것이 바람직하다.

상기 문자열 비교부(130)는 정제과정을 거친 문자열 간에 비교를 통해서 하나의 바이너리가 다른 바이너리와 얼마나 유사한지를 판단하는 과정이다. 기본적으로 상호간에 부합되는 문자열의 수가 얼마나 되는지를 파악함으로써, 두 바이너리 파일간의 유사성을 측정할 수 있다. 추가적으로 부합되는 문자열은 아니지만 각 문자열의 Edit Distance가 임계치 이상이면 서로 동일한 문자열로 취급할 수 있다. 이는 악성코드가 포함하고 있는 URL 문자열 등은 호스트나 변수영역이 수시로 변경되어 재배포되는 특성을 고려한 것이다.

문자열 비교 기법을 이용한 악성코드 탐지 및 분류 방법

도 2 및 도 3을 참조하여 설명하면, 본 발명의 실시예에 따른 문자열 비교 기법을 이용한 악성코드 탐지 및 분류 방법은 앞서 설명한 도 1과 같은 구성으로 이루어진 문자열 비교 기법을 이용한 악성코드 탐지 및 분류 시스템(100)을 기반으로 하는 탐지 및 분류 방법으로 이하 중복되는 설명은 생략한다.

먼저, 문자열 추출부(110)에 의해 악성코드 바이너리 파일로부터 상기 바이너리 파일에 존재하는 모든 표현되는 문자열을 추려낼 수 있다.(S100)

다음으로, 문자열 정제부(120)에 의해 추출된 문자열 중 악성코드 탐지 및 분류에 방해되는 요소들을 정제할 수 있다.(S110) 실험을 위해 선택된 100개의 악성코드로부터 상기 문자열 추출부(110)를 통해 문자열을 추출한 후 그 구성을 분석한 결과, 다음과 같이 악성코드 탐지 및 분류 시스템(100)의 성능에 영향을 미치는 요소들을 분류할 수 있었다. 이는 문자열들은 10글자 이하의 모든 문자열, 10글자 이상이지만 의미 없는 문자열, 윈도우즈 DLL파일 및 API명, 프로그램 언어가 지원하는 라이브러리 함수 명, PE 파일 포맷이 기본적으로 가지는 문자열로 분류되었다.

실행파일로부터 추출된 문자열들은 [표 1]과 같이 10글자 이하의 문자열들이 대부분을 이룬다. 이 문자열 집합은 특수문자와 숫자 등으로 구성된 의미 없는 문자열과 의미는 있지만 너무나 짧은 문자열로 구성되어 있다. 하지만 의미 있는 문자열은 그렇지 않은 문자열에 비해 10%미만의 적은 분포도를 보이기 때문에 무시해도 무방하다. 그 이유는 짧은 문자열일수록 Edit Distance 결과를 신뢰하기 어렵기 때문이다. 또한, 정제조건이 복잡해지는 이유도 있다.

10글자 이상의 문자열 중에서도 반복되는 특수문자와 숫자의 조합으로 구성된 의미없는 문자열이 나타난다. 그 수는 적은 편이지만 정제가 가능하다면 해주는 것이 바람직하다. 한 문자열의 문자 조합이 하기와 같은 문자열 정제수식에 만족하면 해당 문자열을 삭제하도록 한다.

PE(Portable Executable)는 파일이 실행되는 순간 동적 라이브러리를 메모리에 로드시키기 위해 DLL 파일명과 그 파일 안에 정의된 API 함수 명을 포함하고 있다. 따라서, 실행파일로부터 문자열을 추출하면 다량의 DLL 파일명과 Windows API 함수 명이 출력된다. 두 요소는 실행파일에서는 잘 사용되지 않는 희귀한 Windows API 함수를 제외한 모든 DLL 파일명 및 함수명은 제거되어야 한다.

악성코드는 다양한 언어로 작성되어 다양한 컴파일러로 생성될 수 있다. 대표적으로 악성코드는 C나 C++언어로 만들어지지만 역 공학을 어렵게 만들기 위해 델파이나 비쥬얼베이직(VB) 등의 언어로 작성되기도 한다. 이때, 각 언어에서 제공하는 라이브러리 함수를 이용해 악성코드를 작성하게 되면 최종적으로 이 함수들의 이름이 실행파일에 기록되기도 한다. 특히 비쥬얼베이직의 경우 컴포넌트 방식의 프로그래밍 언어이기 때문에 일반 실행파일이나 악성코드에 사용되는 함수들의 중류가 판이하게 다르지 않다. 따라서, '_vba"로 시작되거나 '_adj'등의 접두어를 가진 문자열에 대해서는 삭제를 고려해봐야한다.

여기서, 상기 PE는 Windows 운영체제의 실행파일 포맷이다. 파일이 악성코드이건 아니건 Windows 운영체제에서 수행되려면 PE 구조를 가져야 한다, 따라서, PE 실행파일 포맷이 기본적으로 가지는 문자열은 악성코드 탐지 및 분류에 의미가 없다. PE 헤더의 처음에 존재한 '!This program can not be run in DOS mode' 나 '!This program must be run under Win32'등의 문자열은 제거되어야 한다.

다음으로, 문자열 비교부(130)에 의해 정제된 문자열을 비교할 수 있다.(S120) 이때, 사용되는 문자열 비교 방법은 상기 문자열 비교부(130)는 두 문자열 집합 간에 동일한 문자열 수 측정하는 방법과 상기 문자열 비교부(130)는 두 문자열 집합 간에 일정 임계치 이상의 Edit Distance 값을 보이는 문자열 수를 측정하는 방법이 사용될 수 있다.

변종 악성코드는 PE 실행파일의 리소스 영역 데이터를 직접적으로 수정하지 않는 이상 기존의 문자열 데이터는 그대로 유지된다. 때문에 악성코드 탐지 및 분류에 있어서 동일한 문자열의 존재여부를 점검하는 작업은 필수적이다. 두 문자열 집한 간에 동일한 문자열 수가 많으면 많을수록 상호 유사성은 높아지며 시스템(100)은 이들의 변종으로 판단할 수 있다. 다만 이런 문자열 비교를 통한 악성코드 탐지는 악성코드 제작자가 조금만 시간을 들여도 쉽게 피해갈 수 있다는 단점을 가지고 있다.

하지만, 악성코드가 데이터를 송수신하기 위해 이용하는 URL은 일반적인 문자열과는 다르게 조작이 번거롭다. 호스트와의 동적 통신을 위해 전송되는 파라미터들은 그 이름이나 형태를 변경하기 위해서는 서버 프로그램 자체가 수정되어야 하기 때문이다. 따라서, http://, GET, POST와 같이 URL 전송시 반드시 들어가는 문자를 포함한 문자열만 추린 후, 비교 문자열 집합과의 문자열 유사도를 측정함으로써 좀더 지능적인 변종 악성코드에 대응을 수행할 수 있다.

다음으로, 상기 문자열 비교부(130)에 의해 비교된 문자열 하나의 바이너리가 다른 바이너리와 얼마나 유사한지 판단할 수 있다.(S130) 이때, 사용되는 문자열 유사도 측정 방법은 다음과 같다. 먼저, 두 문자열 간에 Levenshtein distance 값을 계산한 후 그 결과를 기반으로 아래 수식과 같은 변형 Jaro-Winkler 수식으로 유사도를 점수화 할 수 있다. 이 유사도 점수는 최소 0에서 최대 1까지 표현되며, 1에 가까울수록 두 문자열을 유사하다고 판단할 수 있다.

상기와 같은 문자열 비교 기법을 통한 악성코드 탐지 및 분류 시스템(100) 및 그 방법의 성능을 측정하기 위해서 이미 분석 완료된 1만개의 악성코드로부터 100개의 테스트 집단을 구성하였다. 그 중 시스템(100)의 입력값으로 선택된 악성코드는 Backdoor.Win32.Asylum이며 총 5가지 변종을 실험에 포함시켰다. 선택된 Asylum의 분류명은 아래의 [표 2]와 같다.

	Classification(Kaspersky)	Submission date
Asylum1	Backdoor.Win32.Asylum.013.c	2009-12-02 00:44:34(UTC)
Asylum2	Backdoor.Win32.Asylum.Web.c	2009-12-19 16:12:20(UTC)
Asylum3	Backdoor.Win32.Asylum.Web.a	2010-02-15 01:48:20(UTC)
Asylum4	Backdoor.Win32.Asylum.012	2010-01-18 14:47:00(UTC)
Asylum5	Backdoor.Win32.Asylum.013.e	2009-12-23 02:34:45(UTC)

[표 2]의 악성코드 분류명은 카스퍼스키 랩(Kaspersky Lab)의 것을 따르고 제출날짜는 바이러스 토탈에 기록된 날짜를 의미한다.

도 3은 문자열 비교 기법을 통한 악성코드 탐지 및 분류 시스템(100)에 순서대로 악성코드 Asylum4, Asylum1, Asylum5을 입력했을 때의 결과 그래프이다. 그래프의 가로축은 실험에 사용된 100개의 악성코드를 의미하며 세로축은 시스템(100)의 출력값(높을수록 유사함)을 뜻한다. 이들 그래프에 따르면 Asylum1, Asylum4, Asylum5는 서로 유사하다는 것을 확인할 수 있다. 반면 Asylum2, Asylum3은 유사하지 않은 것으로 나타났는데 이는 오히려 정확한 결과이다. Asylum2, Asylum3은 [표 2]에서 보는 바와 같이 변종 중에서도 Web이라는 구분 명을 가진 Asylum1, Asylum4, Asylum5와는 다른 형태의 변종이기 때문이다.

이처럼, 본 발명에 따른 문자열 비교 기법을 이용한 악성코드 탐지 및 분류 시스템(100) 및 그 방법은 비교 문자열의 수와 종류에 따라 그 성능이 결정되기 때문에 문자열들을 정제하는 정제과정이 적용됨으로써 악성코드 탐지 및 분류 시스템(100)의 성능을 향상시킬 수 있으며. 동일 문자열만을 찾기보다는 문자열들 간의 유사도를 측정함으로써 유사도 측정에 있어서 악성코드가 가지는 문자열들의 특성을 고려하여 보다 더 정확한 결과를 도출할 수 있다.

100 : 문자열 비교 기법을 이용한 악성코드 탐지 및 분류 시스템
110 : 문자열 추출부 120 : 문자열 정제부
130 : 문자열 비교부

Claims

악성코드 탐지 및 분류 시스템에 있어서,
악성코드 바이너리 파일로부터 상기 바이너리 파일에 존재하는 모든 표현되는 문자열을 추려내는 문자열 추출부;
상기 문자열 추출부로부터 추출된 문자열 중 악성코드 탐지 및 분류에 방해되는 요소들을 정제하는 문자열 정제부; 및
상기 문자열 정제부로부터 정제된 문자열의 비교를 통해서 하나의 바이너리가 다른 바이너리와 얼마나 유사한지 판단하는 문자열 비교부;
를 포함하는 것을 특징으로 하는 문자열 비교 기법을 이용한 악성코드 탐지 및 분류 시스템.
제 1항에 있어서,
상기 문자열은 바이너리 데이터가 아스키 혹은 유니코드 표준에 정의된 문자영역 데이터를 연속으로 갖는 데이터인 것을 특징으로 하는 문자열 비교 기법을 이용한 악성코드 탐지 및 분류 시스템.
제 1항에 있어서,
상기 문자열 추출부로부터 추출된 문자열들은 10글자 이하의 모든 문자열, 10글자 이상이지만 의미 없는 문자열, 윈도우즈 DLL파일 및 API명, 프로그램 언어가 지원하는 라이브러리 함수 명, PE 파일 포맷이 기본적으로 가지는 문자열로 분류되는 것을 특징으로 하는 것을 특징으로 하는 문자열 비교 기법을 이용한 악성코드 탐지 및 분류 시스템.
악성코드 탐지 및 분류 방법에 있어서,
문자열 추출부에 의해 악성코드 바이너리 파일로부터 상기 바이너리 파일에 존재하는 모든 표현되는 문자열을 추려내는 단계;
문자열 정제부에 의해 추출된 문자열 중 악성코드 탐지 및 분류에 방해되는 요소들을 정제하는 단계;
문자열 비교부에 의해 정제된 문자열을 비교하는 단계; 및
상기 문자열 비교부에 의해 비교된 문자열 하나의 바이너리가 다른 바이너리와 얼마나 유사한지 판단하는 단계;
를 포함하는 것을 특징으로 하는 문자열 비교 기법을 이용한 악성코드 탐지 및 분류 방법.
제 4항에 있어서,
상기 문자열 정제부에 의해 추출된 문자열 중 악성코드 탐지 및 분류에 방해되는 요소들을 정제하는 단계에서,
한 문자열의 문자 조합이 하기와 같은 문자열 정제수식에 만족하면 해당 문자열은 삭제되는 것을 특징으로 하는 문자열 비교 기법을 이용한 악성코드 탐지 및 분류 방법.
제 4항에 있어서,
상기 문자열 비교부에 의해 정제된 문자열을 비교하는 단계에서,
상기 문자열 비교부는 두 문자열 집합 간에 동일한 문자열 수 측정하는 방법으로 문자열을 비교하는 것을 특징으로 하는 문자열 비교 기법을 이용한 악성코드 탐지 및 분류 방법.
제 4항에 있어서,
상기 문자열 비교부에 의해 정제된 문자열을 비교하는 단계에서,
상기 문자열 비교부는 두 문자열 집합 간에 일정 임계치 이상의 Edit Distance 값을 보이는 문자열 수를 측정하는 방법으로 문자열을 비교하는 것을 특징으로 하는 문자열 비교 기법을 이용한 악성코드 탐지 및 분류 방법.
제 4항에 있어서,
상기 문자열 비교부에 의해 비교된 문자열 하나의 바이너리가 다른 바이너리와 얼마나 유사한지 판단하는 단계에서,
두 문자열 간에 Levenshtein distance 값을 계산한 후 아래 수식의 결과를 기반으로 유사도를 점수화하는 것을 특징으로 하는 문자열 비교 기법을 이용한 악성코드 탐지 및 분류 방법.
제 8항에 있어서,
상기 유사도 점수는 최소 0에서 최대 1까지 표현되며, 1에 가까울수록 두 문자열을 유사하다고 판단하는 것을 특징으로 하는 문자열 비교 기법을 이용한 악성코드 탐지 및 분류 방법.
제 4항에 있어서,
상기 문자열 비교부에 의해 비교된 문자열 하나의 바이너리가 다른 바이너리와 얼마나 유사한지 판단하는 단계에서,
URL 유사도 판단은 URL 전송시 반드시 들어가는 문자를 포함한 문자열을 추린 후, 비교 문자열 집합과의 문자열의 유사도를 판단하는 것을 특징으로 하는 문자열 비교 기법을 이용한 악성코드 탐지 및 분류 방법.
제 10항에 있어서,
상기 URL 전송시 반드시 들어가는 문자는 http://, GET, POST인 것을 특징으로 하는 문자열 비교 기법을 이용한 악성코드 탐지 및 분류 방법.