KR20160147622A

KR20160147622A - 파일 식별 방법 및 장치

Info

Publication number: KR20160147622A
Application number: KR1020150166494A
Authority: KR
Inventors: 젠탄 펭; 데키앙 카오; 슈구앙 시옹; 시아오보 즈호우; 신 왕
Original assignee: 이윤티안 시오., 엘티디.
Priority date: 2015-06-15
Filing date: 2015-11-26
Publication date: 2016-12-23
Also published as: US20160366158A1; JP2017004489A; KR101752251B1; US10284577B2; CN105095755A; JP6126671B2

Abstract

본 발명은 파일 식별 방법 및 장치를 개시한다. 파일 식별 방법은, 파일 샘플 중의 각 악성 파일 샘플의 바이러스 패밀리를 확정하는 단계, 각 바이러스 패밀리 중의 악성 파일 샘플의 수량을 기반으로 바이러스 패밀리를 적어도 하나의 샘플 세트로 패킷화하는 단계, 서로 다른 트레이닝 규칙을 이용하여 각 샘플 세트 중의 악성 파일 샘플에 대해 각각 트레이닝을 진행하여 적어도 하나의 파일 식별 모델을 획득하는 단계, 및 적어도 하나의 파일 식별 모델을 통하여 식별할 파일이 악성 파일인지 확정하는 단계를 포함한다. 본 발명의 실시예의 파일 식별 방법은 서로 다른 유형의 악성 파일에 대해 서로 다른 식별 모델을 생성하여 식별의 정확도를 향상시킬 수 있다.

Description

파일 식별 방법 및 장치{METHOD AND DEVICE FOR IDENTIFICATING A FILE}

본 발명은 통상적으로 컴퓨터 기술 분야에 관한 것으로, 보다 상세하게는 컴퓨터 안전 기술 분야에 관한 것이며, 특히 파일 식별 방법 및 장치에 관한 것이다.

컴퓨터 바이러스는 일종의 특수한 프로그램으로 볼 수 있다. 이는 일반적으로 각 유형의 컴퓨터 파일 중에 하이딩(hiding)하여 사용자가 감지 못하는 사이 수락하지 않은 정황 하에서 사용자의 컴퓨터 시스템에 잠입하여 불법 공격을 진행한다. 사용자의 데이터 안전을 확보하기 위하여, 먼저 컴퓨터 바이러스를 포함하는 악성 파일을 식별하고 그가 진행하는 파괴를 막아야 한다.

기존의 기술은 악성 파일을 식별할 때 통상적으로 단일한 데이터를 발굴하는 방법으로 기존의 파일 샘플에 대해 트레이닝을 진행하고, 획득한 트레이닝 모델로 미지 파일을 식별한다. 그러나, 컴퓨터 기술이 부단히 발전함에 따라 파일 샘플의 수량이 점점 많아지고 컴퓨터 바이러스의 유형도 점점 복잡해지고 있다. 이로 인하여, 기존의 기술 중의 모델 트레이닝 시간이 현저히 증가하고 동시에 악성 파일의 식별 정확도가 현저히 저하되는 문제를 초래하게 되었다.

기존의 기술에 존재하는 상기와 같은 결함 또는 문제점들을 감안하여, 실시간성이 우수하고 식별 정확도가 높은 방안이 요구되고 있다. 이러한 목적을 실현하기 위하여 본 발명은 파일 식별 방법 및 장치를 제공한다.

제1 방면에 있어서, 본 발명은 파일 샘플 중의 각 악성 파일 샘플의 바이러스 패밀리를 확정하는 단계; 각 바이러스 패밀리 중의 악성 파일 샘플의 수량을 기반으로 상기 바이러스 패밀리를 적어도 하나의 샘플 세트로 패킷화하는 단계; 서로 다른 트레이닝 규칙을 이용하여 각 샘플 세트 중의 악성 파일 샘플에 대해 각각 트레이닝을 진행하여 적어도 하나의 파일 식별 모델을 획득하는 단계; 및 상기 적어도 하나의 파일 식별 모델을 통하여 식별할 파일이 악성 파일인지 확정하는 단계를 포함하는 파일 식별 방법을 제공한다.

제2 방면에 있어서, 본 발명은 파일 샘플 중의 각 악성 파일 샘플의 바이러스 패밀리를 확정하는 확정 모듈; 각 바이러스 패밀리 중의 악성 파일 샘플의 수량을 기반으로 상기 바이러스 패밀리를 적어도 하나의 샘플 세트로 패킷화하는 패킷 모듈; 서로 다른 트레이닝 규칙을 이용하여 각 샘플 세트 중의 악성 파일 샘플에 대해 각각 트레이닝을 진행하여 적어도 하나의 파일 식별 모델을 획득하는 트레이닝 모듈; 및 상기 적어도 하나의 파일 식별 모델을 통하여 식별할 파일이 악성 파일인지 확정하는 식별 모듈을 포함하는 파일 식별 장치를 제공한다.

본 발명이 제공하는 파일 식별 방법 및 장치는 먼저 악성 파일 샘플이 바이러스 패밀리에서의 분포 정황에 따라 악성 파일 샘플을 패킷화하고, 각 샘플 세트에 대해 각각 트레이닝을 진행하여 부동한 식별 모델을 획득하고 마지막으로 다수의 모델을 이용하여 동시에 파일 식별을 진행한다. 서로 다른 샘플 분포를 구비하는 파일 샘플에 대해 패킷 트레이닝을 진행함으로써, 모델의 트레이닝 시간을 감소할 수 있을 뿐만 아니라 악성 파일에 대한 모델의 식별 정확도도 향상시킬 수 있다.

본 발명의 기타 특징, 목적 및 장점들은 하기 도면을 결합하여 진행하는 비제한적 실시예들에 대한 구제적인 설명을 통하여 더욱 명확해 질 것이다.
도1은 본 발명의 실시예를 적용할 수 있는 예시적 시스템 구조를 보여주기 위한 도면이다.
도2는 본 발명의 일 실시예에 따른 파일 식별 방법의 예시적 흐름도이다.
도3은 본 발명에 따른 바이러스 패밀리의 누적 분포함수의 예시적 도면이다.
도4는 본 발명의 다른 일 실시예에 따른 파일 식별 방법의 예시적 흐름도이다.
도5는 본 발명의 실시예에 따른 파일 식별 장치의 예시적 구조도이다.
도6은 본 발명의 실시예의 단말기 장치 또는 서버를 실현하기 위한 컴퓨터 시스템의 예시적 구조도이다.

이하, 첨부된 도면 및 실시예들을 결합하여 본 발명을 상세히 설명하기로 한다. 본 명세서에 설명된 구체적인 실시예들은 오직 해당 발명을 설명하기 위한 것일 뿐, 해당 발명을 한정하기 위한 것이 아님을 이해할 수 있을 것이다. 또한, 설명의 편의를 위하여, 도면에는 오직 본 발명에 관련된 부분만이 도시되어 있다.

본 발명의 실시예 및 실시예의 특징들은 서로 모순되지 않는 한 상호 조합할 수 있다. 이하, 첨부된 도면을 참조하여 본 발명의 실시예들을 상세히 설명하기로 한다.

도1은 본 발명의 실시예를 적용할 수 있는 예시적 시스템 구조(100)를 보여주기 위한 도면이다.

도1에 도시된 바와 같이, 시스템 구조(100)는 단말기 장치(101, 102)、네트워크(103) 및 서버(104)를 포함할 수 있다. 네트워크(103)는 단말기 장치(101, 102)와 서버(104)사이에 통신링크를 제공하는 매체이다. 네트워크(103)는 유선, 무선 통신 링크 또는 광섬유 케이블 등과 같은 여러 가지 연결 유형을 포함할 수 있다.

사용자(110)는 단말기 장치(101, 102)를 이용하여 네트워크(103)로 서버(104)와 교호하여 메세지를 수신 또는 발신할 수 있다. 단말기 장치(101, 102)에는 각종 통신 클라이언트 애플리케이션(예를 들면, 인스턴트 메신저, 메일 클라이언트, 소셜 네트워크 플랫폼 소프트웨어 등)들이 설치될 수 있다.

단말기 장치(101, 102)는 각종의 전자기기일 수 있으며, 개인용 컴퓨터, 스마트폰, 스마트 TV, 스마트워치, 태블릿 PC, PDA 등을 포함하나, 이에 한정되는 것은 아니다.

서버(104)는 여러 가지 서비스를 제공할 수 있는 서버일 수 있다. 서버는 수신된 데이터에 대하여 저장, 분석 등의 처리를 진행하고 처리 결과를 단말기 장치에 피드백할 수 있다.

본 발명의 실시예가 제공하는 파일 식별 방법은 단말기 장치(101, 102)로 실행하거나 서버(104)로 실행할 수 있으며, 파일 식별 장치는 단말기 장치(101, 102)에 설치되거나 서버(104)에 설치될 수 있음을 설명하고자 한다. 일부 실시예에서, 파일 식별 모델은 서버(104)에서 트레이닝을 진행할 수 있으며, 트레이닝된 파일 식별 모델은 악성 파일을 식별하도록 단말기 장치(101, 102)에 저장될 수 있다. 예를 들면, 파일을 식별할 경우, 네트워크(103)가 원활하면, 서버(104)로 파일 식별을 진행하여 악성 파일인지 여부를 피드백할 수 있다. 네트워크가 존재하지 않거나 네트워크(103)가 원활하지 않으면, 단말기 장치(101, 102)로 파일 식별을 진행하여 악성 파일인지 여부를 직접 판별할 수 있다.

도1의 단말기 장치, 네트워크 및 서버의 수량은 오직 예시적이며, 실시의 필요에 따라 임의의 수량의 단말기 장치, 네트워크 및 서버를 구비할 수 있다.

도2는 본 발명의 일 실시예에 따른 파일 식별 방법의 예시적 흐름도이다.

도2에 도시된 바와 같이, 단계(201)에서, 파일 샘플 중의 각 악성 파일 샘플의 바이러스 패밀리를 확정한다.

일 실시예에서, 서버 또는 단말기 장치는 먼저 트레이닝하기 위한 파일 샘플을 획득하고, 파일 샘플 중의 각 악성 파일 샘플의 바이러스 패밀리를 확정할 수 있다. 파일 샘플에는 다수의 악성 파일 샘플과 다수의 비악성 파일 샘플을 포함될 수 있다. 비악성 파일 샘플은 사용자가 표기한 비악성 파일, 사용자가 자주 이용하는 파일, 사용자와 교호가 빈번한 상대 설비에서 발송한 파일, 및 네트워크 데이터베이스에 저장된 비악성 파일 등일 수 있다. 악성 파일 샘플은 사용자가 신고한 파일 및 네트워크 데이터베이스에 저장된 악성 파일 등일 수 있다.

각 악성 파일 샘플에는 모두 컴퓨터 바이러스가 하이딩되어 있을 수 있으므로, 각 악성 파일 샘플이 속하는 바이러스 패밀리를 확정할 수 있다. 선행 기술에서, 바이러스의 특성에 따라 컴퓨터 바이러스를 분류하여 명명할 수 있다. 일반적인 격식으로, <바이어스 접두>.<바이러스 명칭>.<바이러스 접미>이다. 바이어스 접두는 바이러스의 유형을 가리키고, 바이러스의 종족 분류를 구별하도록 이용될 수 있다. 예를 들면, 트로이 목마 바이러스의 접두는 Trojan이고, 웜 바이러스의 접두는 Worm이다. 바이러스 명칭은 바이러스의 패밀리 특징을 가리키고, 바이러스 패밀리를 구별하고 표시하도록 이용될 수 있다. 예를 들면, 진동파 웜 바이러스의 패밀리 명칭은 "Sasser"이다. 바이러스 접미는 바이러스의 변종 특징을 가리키고, 모 바이러스 패밀리의 모 변종을 구별하도록 이용될 수 있다. 통상적으로, 영어 중의 26개 자모로 표시한다. 예를 들면, Worm.Sasser.b는 진동파 웜 바이러스의 변종 B이다. 따라서, 본 실시예에서, <바이어스 접두>.<바이러스 명칭>을 바이러스 패밀리로 본다. 예를 들면, Worm.Sasser를 진동파 웜 바이러스 패밀리로 볼 수 있다. 이러한 경우, 악성 파일 샘플에 포함된 컴퓨터 바이러스에 따라 악성 파일 샘플의 바이러스 패밀리를 확정할 수 있다.

다음, 단계(202)에서, 각 바이러스 패밀리 중의 악성 파일 샘플의 수량을 기반으로 바이러스 패밀리를 적어도 하나의 샘플 세트로 패킷화한다.

상기 단계(201)에서 각 악성 파일 샘플의 바이러스 패밀리를 확정한 후, 동일한 바이러스 패밀리에 다수의 악성 파일 샘플을 포함할 가능성이 매우 높다. 본 단계에서, 적어도 하나의 샘플 세트를 획득하도록 각 바이러스 패밀리 중의 악성 샘플의 수량을 통계하고 악성 샘플의 수량이 얼마인가에 따라 바이러스 패밀리를 패킷화할 수 있다. 예를 들면, 수량 역치를 미리 설정할 수 있다. 모 바이러스 패밀리 중의 악성 샘플 수량이 이러한 수량 역치보다 크면 모 바이러스 패밀리를 제1 샘플 세트로 패킷화하고, 아니면 제2 샘플 세트로 패킷화한다.

본 실시예의 일 선택적인 구현에서, 적어도 하나의 샘플 세트는 라이트 샘플 세트, 미들 샘플 세트 및 헤비 샘플 세트를 포함할 수 있다. 구체적으로, 두 개의 수량 역치 Ta 및 Tb를 설치할 수 있고, Ta<Tb이다. 다음, 악성 샘플의 수량이 Ta보다 작은 바이러스 패밀리를 라이트 샘플 세트로 패킷화하고, 악성 샘플의 수량이 Tb보다 큰 바이러스 패밀리를 헤비 샘플 세트로 패킷화하며, 나머지 바이러스 패밀리를 미들 샘플 세트로 패킷화한다. 선택적으로, 바이러스 패밀리의 누적 분포함수 CDF(cumulative distribution function)에 의하여 Ta 및 Tb의 구체적 수치를 확정할 수 있다. 도3은 본 발명에 따른 바이러스 패밀리의 누적 분포함수의 예시적 도면이다. 여기서, 실선은 악성 파일 샘플의 수량의 누적 분포함수, 즉, Malware CDF 곡선이고, 점선은 악성 파일 샘플의 수량의 누적 분포함수, 즉, Class CDF 곡선이고, 횡좌표 Class Size는 바이러스 패밀리 중 악성 파일 샘플의 수량을 나타낸다. 도3으로부터 알 수 있는 바, 라이트(Light) 샘플 세트 중의 바이러스 패밀리의 유형은 매우 많으나, 그가 포함하는 악성 파일의 총수가 총 악성 파일 샘플에서 차지하는 비례가 매우 작다. 헤비(Heavy) 샘플 세트는 이와 반대된다. 즉, 헤비 샘플 세트는 매우 적은 바이러스 패밀리의 수량을 포함하나, 악성 파일의 총수가 총 악성 파일 샘플에서 차지하는 비례가 매우 크다. 미들(Middle) 샘플 세트는 이 양자 사이에 처하게 된다.

다음, 단계(203)에서, 서로 다른 트레이닝 규칙을 이용하여 각 샘플 세트 중의 악성 파일 샘플에 대해 각각 트레이닝을 진행하여 적어도 하나의 파일 식별 모델을 획득할 수 있다.

본 실시예에서, 상기 단계(202)에서 적어도 하나의 샘플 세트는 악성 파일 샘플이 바이러스 패밀리에서의 분포 패킷에 따라 획득한 것이므로, 각 샘플 세트 중의 악성 파일 샘플은 모두 서로 다른 분포 특징을 구비한다. 식별 모델을 트레이닝할 경우, 서로 다른 트레이닝 규칙을 이용하여 샘플 세트에 대해 각각 트레이닝을 진행하여 트레이닝 후의 모델이 해당 샘플 세트의 특징에 더욱 부합되도록 함으로써, 파일 식별 모델의 식별 정확도를 향상시킬 수 있다. 구체적인 트레이닝 규칙은 샘플 세트의 특징에 의하여 사용자가 스스로 선택할 수 있다. 트레이닝에서 이용되는 트레이닝 샘플은 해당 샘플 세트 중의 악성 파일 샘플과 한 세트의 고정 비악성 파일 샘플일 수 있다.

본 실시예의 일 선택적 구현에서, 상기 라이트 샘플 세트 중의 악성 파일 샘플과 한 세트의 비악성 파일 샘플에 대해 특징 벡터 트레이닝을 진행하여 라이트 파일 식별 모델을 획득할 수 있다. 라이트 샘플 세트에는 바이러스 패밀리의 유형이 비교적 많고 악성 파일 샘플 총수가 총 악성 파일 샘플에서 차지하는 비례가 매우 작으므로, 통상적인 특징 베이스 표시 방법을 이용하여 트레이닝을 진행할 수 있다. 구체적으로, 악성 파일 샘플과 비악성 파일 샘플에 대해 특징 추출을 진행하여 파일 샘플의 특징 벡터를 획득하고 지도 학습 방식을 이용하여 모든 파일 샘플에 대해 트레이닝을 진행하여 라이트 파일 식별 모델을 획득할 수 있다.

본 실시예의 일 선택적 구현에서, 상기 미들 샘플 세트 중의 악성 파일 샘플과 한 세트의 비악성 파일 샘플에 대해 로직 연산 트레이닝을 진행하여 미들 파일 식별 모델을 획득할 수 있다. 미들 샘플 세트에는 바이러스 패밀리의 유형과 악성 파일 샘플 총수가 총 악성 파일 샘플에서 차지하는 비례가 비슷하므로, 로직 연산 방법을 이용하여 트레이닝을 진행할 수 있다. 구체적으로, 하나 이상의 특징을 이용하여 악성 파일 샘플과 비악성 파일 샘플에 대해 매칭 처리를 진행하여 각 특징의 매칭 결과를 획득하고 각 특징의 매칭 결과에 대해 로직 연산 트레이닝을 진행하여 지정된 특징 및 트레이닝 후의 로직 표현식을 확정할 수 있다. 즉, 이는 미들 파일 식별 모델을 획득하는 것에 해당된다.

본 실시예의 일 선택적 구현에서, 상기 헤비 샘플 세트 중의 악성 파일 샘플과 한 세트의 비악성 파일 샘플에 대해 다수의 서브모델의 종합 트레이닝을 진행하여 헤비 파일 식별 모델을 획득할 수 있다. 헤비 샘플 세트에는 바이러스 패밀리의 유형이 비교적 적고 악성 파일 샘플 총수가 총 악성 파일 샘플에서 차지하는 비례가 매우 크므로, 동시에 다수의 서브모델을 트레이닝하고 다수의 서브모델의 집합을 헤비 파일 식별 모델로 이용할 수 있다. 헤비 파일 식별 모델이 식별할 파일에 대해 식별을 진행할 경우, 다수의 서브모델을 이용하여 식별할 파일의 유형을 판정하고 다수의 판정 결과에 대해 종합적인 판단을 진행하여 식별할 파일이 악성 파일인지 확정할 수 있다. 따라서, 악성 파일에 대한 모델의 식별 정확도를 향상한다.

상기 3가지 트레이닝 방법에 있어서, 모델의 입력은 모두 파일 샘플의 내용에 따라 추출한 특징이며, 파일 내용의 4비트 문자 부호 특징, 즉, 하나의 4비트 길이의 2진 문자열을 포함하나 이에 한정된 것이 아님을 설명하고자 한다.

마지막으로, 단계(204)에서, 적어도 하나의 파일 식별 모델을 통하여 식별할 파일이 악성 파일인지 확정한다.

상기 단계(203)에서 하나이상의 파일 식별 모델을 획득한 후, 이러한 식별 모델을 이용하여 식별할 파일이 악성 파일인지 판단할 수 있다. 구체적으로, 오직 하나의 식별 모델이 존재할 경우, 이러한 모델의 식별 결과에 의하여 식별할 파일이 악성 파일인지 확정한다. 다수의 식별 모델이 존재할 경우, 모든 식별 모델을 이용하여 동시에 식별할 파일에 대해 판단을 진행하고, 하나의 식별 모델이 식별할 파일이 악성 파일인 것으로 확정할 경우 상기 파일을 악성 파일로 여긴다.

본 발명의 실시예가 제공하는 파일 식별 방법은 먼저 악성 파일 샘플이 바이러스 패밀리에서의 분포 정황에 따라 악성 파일 샘플을 패킷화하고 각 세트의 샘플에 대해 각각 트레이닝을 진행하여 서로 다른 식별 모델을 획득하고 다수의 모델을 이용하여 동시에 파일 식별을 진행한다. 서로 다른 샘플 분포를 구비한 파일 샘플에 대해 패킷 트레이닝을 진행함으로써, 모델의 트레이닝 시간을 감소할 수 있을 뿐만 아니라 악성 파일에 대한 모델의 식별 정확도도 향상시킬 수 있다.

나아가, 도4는 본 발명의 다른 일 실시예에 따른 파일 식별 방법의 예시적 흐름도이다.

도4에 도시된 바와 같이, 단계(401)에서, 파일 샘플 중의 각 악성 파일 샘플의 바이러스 패밀리를 확정한다.

다음, 단계(402)에서, 각 바이러스 패밀리 중의 악성 파일 샘플의 수량을 기반으로 바이러스 패밀리를 적어도 하나의 샘플 세트로 패킷화한다.

다음, 단계(403)에서, 서로 다른 트레이닝 규칙을 이용하여 각 샘플 세트 중의 악성 파일 샘플에 대해 각각 트레이닝을 진행하여 적어도 하나의 파일 식별 모델을 획득한다.

다음, 단계(404)에서, 적어도 하나의 파일 식별 모델을 통하여 식별할 파일이 악성 파일인지 확정한다.

본 실시예에서, 상기 단계(401) 내지 단계(404)는 도2의 단계(201) 내지 단계(204)와 동일하므로 중복된 설명은 생략한다.

다음, 단계(405)에서, 샘플 세트 중에 새로 추가된 악성 파일의 수량이 기정 역치보다 큰지 측정한다.

본 실시예에서, 상기 단계(404)에서 모 식별할 파일이 악성 파일로 판단되면, 그가 속하는 바이러스 패밀리를 더욱 판단할 수 있고, 상기 악성 파일을 상기 바이러스 패밀리가 위치한 샘플 세트에 새로 추가된 악성 파일로 삼는다. 단말기 또는 서버는 기정 빈도(예를 들면, 1회/일)로 각 샘플 세트 중에 새로 추가된 악성 파일의 수량을 측정하고 상기 수량과 기정 역치를 비교할 수 있다. 기정 역치는 새로 추가된 악성 파일의 구체적 수량(예를 들면, 50개)이거나, 새로 추가된 악성 파일이 원 악성 파일 총수에서 차지하는 비례(예를 들면, 15%)일 수 있다. 새로 추가된 악성 파일의 수량이 기정 역치를 초과할 경우, 샘플 세트 중에 대량의 악성 파일이 새로 추가된 것으로 여기고, 현재 식별 모델이 이미 식별 요구를 만족하지 못할 수 있으므로 현재 모델을 업데이트 할 필요가 있다. 즉, 나아가 하기 단계(406)를 실행할 수 있다.

다음, 단계(406)에서, 클 경우, 샘플 세트 중의 악성 파일 샘플과 새로 추가된 악성 파일에 대해 트레이닝을 진행하여 업데이트 된 파일 식별 모델을 획득한다.

상기 단계(405)에서 모 샘플 세트 중에 새로 추가된 악성 파일의 수량이 기정 역치보다 크다고 측정될 경우, 상기 샘플 세트에 대응되는 파일 식별 모델을 업데이트할 수 있다. 구체적으로, 상기 샘플 세트 중 원 악성 파일 샘플과 본회에 측정된 새로 추가된 악성 파일을 트레이닝 샘플 중의 악성 파일 샘플로 하고, 한 세트의 비악성 파일 샘플을 더 추가하여 모델 트레이닝을 진행함으로써 업데이트 된 파일 식별 모델을 획득할 수 있다. 본 단계에서 이용되는 트레이닝 규칙은 상기 단계(403)에서 동일한 샘플 세트에 대해 진행하는 트레이닝 규칙일 수 있음을 설명하고자 한다.

마지막으로, 단계(407)에서, 업데이트 된 파일 식별 모델을 이용하여 샘플 세트의 현재 파일 식별 모델을 대체한다.

업데이트 된 식별 모델을 획득한 후, 샘플 세트가 현재 이용하고 있는 파일 식별 모델을 업데이트 된 식별 모델로 자동으로 대체할 수 있다. 현재 파일 식별 모델이 온라인에서 실시간으로 운영되는 모델일 경우, 업데이트 된 식별 모델을 자동으로 온라인 시스템에 발표할 수 있다.

본 실시예의 일 구현에서, 업데이트 된 파일 식별 모델로 샘플 세트의 현재 파일 식별 모델을 대체하기 전, 본 발명의 파일 식별 방법은, 파일 샘플을 기반으로 업데이트 된 파일 식별 모델과 현재 파일 식별 모델에 대해 평가를 진행하여 제1 평가 결과와 제2 평가 결과를 획득하는 단계; 기정 시간 기간에 새로 추가된 파일을 기반으로 업데이트 된 파일 식별 모델에 대해 평가를 진행하여 제3 평가 결과를 획득하는 단계; 제1 평가 결과가 제2 평가 결과보다 우선이고 또한 제3 평가 결과가 기정 조건을 만족할 경우, 상기 대체를 실행한다.

구체적으로, 업데이트 된 파일 식별 모델을 획득한 후, 상기 단계(401)에서 사용되는 파일 샘플을 이용하여 데이트 된 파일 식별 모델과 현재파일 식별 모델에 대해 평가를 진행할 수 있다. 즉, 업데이트 된 파일 식별 모델과 현재 파일 식별 모델을 각각 이용하여 상기 파일 샘플을 식별하여 제1 평가 결과와 제2 평가 결과를 획득한다. 본 단계에서 테스트 샘플로 원 파일 샘플이 이용되기 때문에, 제1 평가 결과와 제2 평가 결과에 의하여 업데이트 된 파일 식별 모델과 현재 파일 식별 모델의 우열을 평가할 수 있다.

동시에, 기정 시간 기간에 새로 추가된 파일을 이용하여, 예를 들면, 최근 3일 내에 새로 추가된 모든 악성 파일과 비악성 파일을 이용하여 업데이트 된 파일 식별 모델에 대해 평가할 수 있다. 즉, 업데이트 된 파일 식별 모델을 이용하여 최근 새로 추가된 파일에 대해 식별을 진행하여 제3 평가 결과를 획득할 수 있다. 본 단계에서 테스트 샘플로 최근 새로 추가된 파일 샘플을 이용하기 때문에, 제3 평가 결과에 의하여 업데이트 된 파일 식별 모델이 새로 추가된 파일의 식별 요구에 만족되는지 평가할 수 있다.

제1 평가 결과가 제2 평가 결과보다 우선이고 또한 제3 평가 결과가 기정 조건을 만족할 경우, 상기 대체를 실행할 수 있다. 선택적으로, 평가 결과는 검출율 및/또는 오보율을 포함할 수 있다. 여기서, 검출율은 식별된 악성 파일의 수량이 총 악성 파일의 수량에서 차지하는 비례를 가리키고, 오보율은 오식별된 악성 파일의 수량이 총 파일 수량에서 차지하는 비례를 가리킨다. 이 두 가지 데이터는 파일 식별 모델의 우열을 가늠하는 중요한 지표이며, 검출율이 높을수록 또한 오보율이 낮을수록 좋은 것이다. 제1 평가 결과가 제2 평가 결과보다 우수할 경우, 즉, 업데이트 된 파일 식별 모델이 원 파일 샘플에 대한 검출율이 현재 파일 식별 모델보다 크고 오보율이 현재 파일 식별 모델보다 작을 경우, 업데이트 된 파일 식별 모델의 식별 효과가 편재 모델보다 우수하다는 것을 설명한다. 제3 평가 결과가 기정 조건을 만족할 경우, 예를 들면, 검출율이 80%보다 크고 오보율이 0.02%보다 작을 경우, 업데이트 된 파일 식별 모델의 식별 효과가 새로 추가된 파일의 식별 요구를 만족한다는 것을 설명한다. 업데이트 된 파일 식별 모델이 동시에 상기 두 개의 요구를 만족할 경우, 업데이트 된 파일 식별 모델로 현재 파일 식별 모델을 대체할 수 있다. 본 실시예는 최신 모델을 이용하기 전 그의 식별 효과를 더욱 측정하여 업데이트 된 모델이 원 모델보다 우수하고 최신 사용 요구를 만족함을 확보한다.

도2에 도시된 실시예에 대비하여, 본 실시예는 모 샘플 세트 중에 새로 추가된 악성 파일이 일정 수량에 달할 경우, 기타 모델을 처리하지 않고, 해당 샘플 세트에 대응되는 식별 모델을 자동으로 업데이트 하여 모델에 대한 신속한 업데이트를 실현하고 파일 식별 모델의 실시간성을 확보한다.

도면에는 특정 순서로 본 발명 방법의 조작을 설명하였으나, 상기 특정 순서로 이러한 조작을 진행하여야 한다고 요구하거나 암시하는 것이 아니며 또는 도시된 모든 조작을 실행하여야만 기대하는 결과를 실현할 수 있는 것이 아님을 응당 주의하여야 한다. 반대로, 흐름도에 도시된 단계의 실행 순서는 바뀔 수 있다. 부가적으로 또는 대안으로, 일부 단계를 생략할 수 있으며 다수의 단계를 한 단계로 합병하여 실행할 수 있으며, 및/또는 한 단계를 다수의 단계로 분할하여 실행할 수 있다.

도5는 본 발명의 실시예에 따른 파일 식별 장치의 예시적 구조도이다.

도5에 도시된 바와 같이, 파일 식별 장치(500)는 확정 모듈(510), 패킷 모듈(520), 트레이닝 모듈(530) 및 식별 모듈(540)을 포함할 수 있다.

확정 모듈(510)은 파일 샘플 중의 각 악성 파일 샘플의 바이러스 패밀리를 확정한다.

패킷 모듈(520)은 각 바이러스 패밀리 중의 악성 파일 샘플의 수량을 기반으로 바이러스 패밀리를 적어도 하나의 샘플 세트로 패킷화한다.

트레이닝 모듈(530)은 서로 다른 트레이닝 규칙을 이용하여 각 샘플 세트 중의 악성 파일 샘플에 대해 각각 트레이닝을 진행하여 적어도 하나의 파일 식별 모델을 획득한다.

식별 모듈(540)은 적어도 하나의 파일 식별 모델을 통하여 식별할 파일이 악성 파일인지 확정한다.

본 실시예의 일 선택적인 구현에서, 적어도 하나의 샘플 세트는 라이트 샘플 세트, 미들 샘플 세트 및 헤비 샘플 세트를 포함한다.

본 실시예의 일 선택적인 구현에서, 트레이닝 모듈(530)은 제1 트레이닝 유닛, 제2 트레이닝 유닛 및 제3 트레이닝 유닛을 포함한다.

제1 트레이닝 유닛은 라이트 샘플 세트 중의 악성 파일 샘플과 한 세트의 비악성 파일 샘플에 대해 특징 벡터 트레이닝을 진행하여 라이트 파일 식별 모델을 획득한다.

제2 트레이닝 유닛은, 미들 샘플 세트 중의 악성 파일 샘플과 한 세트의 비악성 파일 샘플에 대해 로직 연산 트레이닝을 진행하여 미들 파일 식별 모델을 획득한다.

제3 트레이닝 유닛은 헤비 샘플 세트 중의 악성 파일 샘플과 한 세트의 비악성 파일 샘플에 대해 다수의 서브모델의 종합 트레이닝을 진행하여 상기 다수의 서브모델의 집합을 헤비 파일 식별 모델로 한다.

본 실시예의 일 선택적인 구현에서, 파일 식별 장치(500)은 측정 모듈, 업데이트 모듈 및 대체 모듈을 더 포함한다.

측정 모듈은 측정 샘플 중에 새로 추가된 악성 파일의 수량이 기정 역치보다 큰지 측정한다.

업데이트 모듈은 새로 추가된 악성 파일의 수량이 기정 역치보다 클 경우 샘플 세트 중의 악성 파일 샘플과 상기 새로 추가된 악성 파일에 대해 트레이닝을 진행하여 업데이트 된 파일 식별 모델을 획득한다.

대체 모듈은 업데이트 된 파일 식별 모델을 사용하여 상기 샘플 세트의 현재 파일 식별 모델을 대체한다.

본 실시예의 일 선택적 구현에서, 파일 식별 장치(500)는 제1 평가 모듈과 제2 평가 모듈을 더 포함한다.

제1 평가 모듈은 파일 샘플을 기반으로 업데이트 된 파일 식별 모델과 현재 파일 식별 모델을 각각 평가하여 제1 평가 결과와 제2 평가 결과를 획득한다.

제2 평가 모듈은 기정 시간 기간에 새로 추가된 파일을 기반으로 업데이트 된 파일 식별 모델을 평가하여 제3 평가 결과를 획득한다.

상기 대체 모듈은 제1 평가 결과가 제2 평가 결과보다 우수하고 또한 제3 평가 결과가 기정 조건을 만족할 경우 상기 대체를 실행하도록 더욱 설치된다.

여기서 평가 결과는 검출율 및/또는 오보율을 포함한다.

장치(500)에 기재된 모듈 또는 유닛은 도2 내지 도4를 참조하여 설명한 방법중의 각 단계에 대응되는 것을 이해할 수 있을 것이다. 상기 파일 식별 방법에 대해 설명한 조작 및 특징 또한 장치(500) 및 이에 포함된 모듈에 적용될 수 있으므로, 중복된 설명은 생략한다. 장치(500) 중의 상응한 모듈 또는 유닛은 단말기 장치 및/또는 서버 중의 모듈 또는 유닛과 서로 결합하여 본 발명의 실시예의 방안을 실현할 수 있다.

본 발명의 상기 실시예가 제공하는 파일 식별 장치는 먼저 악성 파일 샘플이 바이러스 패밀리에서의 분포 정황에 따라 악성 파일 샘플을 패킷화하고, 각 샘플 세트에 대해 각각 트레이닝을 진행하여 서로 다른 식별 모델을 획득하고, 마지막으로 다수의 모델을 이용하여 동시에 파일 식별을 진행한다. 서로 다른 샘플 분포를 구비한 파일 샘플에 대해 패킷 트레이닝을 진행함으로써, 모델의 트레이닝 시간을 감소할 수 있을 뿐만 아니라 악성 파일에 대한 모델의 식별 정확도도 향상시킬 수 있다.

도6은 본 발명의 실시예의 단말기 장치 또는 서버를 실현하기 위한 컴퓨터 시스템(600)의 예시적 구조도이다.

도6에 도시된 바와 같이, 컴퓨터 시스템(600)은 중앙 처리 유닛(CPU)(601)을 포함하고, 이는 읽기 전용 메모리 장치(ROM)(602)에 저장된 프로그램 또는 저장부(608)로부터 랜덤 액세스 메모리 장치(RAM)(603)에 로딩되는 프로그램에 의하여 각종 적당한 동작 및 처리를 실행할 수 있다. RAM(603)에는 시스템(600) 조작에 필요한 각종 프로그램 및 데이터들이 더 포함되어 있다. CPU(601), ROM(602) 및 RAM(603)은 버스라인(604)을 통하여 서로 연결된다. 입력/출력(I/O) 인터페이스(605)도 버스라인(604)에 연결된다.

키보드, 마우스 등을 포함하는 입력부(606); 음극선관(CRT), 액정 표시 장치(LCD) 등 및 스피커 등을 포함하는 출력부(607); 하드 디스크 등을 포함하는 저장부(608); 및 LAN카드, 변복조 장치 등과 같은 네트워크 액세스 카드를 포함하는 통신부(609)를 포함하는 구성요소는 I/O 인터페이스(605)에 연결된다. 통신부(609)는 인터넷과 같은 네트워크를 통하여 통신 처리를 실행한다. 드라이버(610)에서 판독된 컴퓨터 프로그램이 수요에 따라 저장부(608)에 설치되도록 드라이버(610)에는 수요에 따라 디스크, 콤팩트디스크, 광자기 디스크, 반도체 메모리 장치 등과 같은 착탈 가능한 매체(611)가 설치된다.

특히, 본 발명의 실시예에 의하면, 상기에 흐름도를 참조하여 설명한 프로세스는 컴퓨터 소프트웨어 프로그램으로 실현할 수 있다. 예를 들면, 본 발명의 실시예는 일 컴퓨터 프로그램 제품을 포함한다. 상기 컴퓨터 프로그램 제품은 유형적으로 컴퓨터 판독 가능한 매체에 포함되는 컴퓨터 프로그램을 포함하되, 컴퓨터 프로그램은 흐름도에 도시된 방법을 실행하기 위한 프로그램 코드를 포함한다. 이러한 실시예에서, 상기 컴퓨터 프로그램은 통신부(609)를 통하여 네트워크로부터 다운로드되어 설치되고, 및/또는 착탈 가능한 매체(611)로부터 설치될 수 있다.

첨부한 도면중의 흐름도 및 블록도는 본 발명의 여러 실시예에 따른 시스템, 방법, 컴퓨터 프로그램 제품의 실시 가능한 체계구조, 기능 및 동작을 도시하였다. 이러한 방면에 있어서, 흐름도 또는 블록도 중의 각 블록은 하나의 모듈, 프로그램 세그먼트, 또는 코드의 일부분을 대표하고, 상기 모듈, 프로그램 세그먼트, 또는 코드의 일부분은 소정의 로직 기능을 실현하기 위한 하나 이상의 실행 가능한 명령을 포함한다. 일부 대체 실시예에서, 블록에 표기된 기능은 도면에 표기된 순서와 다른 순서로 진행될 수 있음을 자명하여야 할 것이다. 예를 들면, 연속되게 표시된 두 개의 블록은 사실상 관련된 기능에 의하여 기본적으로 병렬되게 진행될 수 있으며, 반대된 순서로 진행될 수도 있다. 블록도 및/또는 흐름도의 각 블록 및 블록도 및/또는 흐름도의 블록의 조합은 소정의 기능 또는 동작을 진행하는 하드웨어를 기반으로 하는 전용의 시스템으로 실현하거나, 전용의 하드웨어 및 컴퓨터 명령의 조합으로 실현할 수 있다.

본 발명에 설명된 관련된 유닛은 소프트웨어 방식으로 실현할 수 있으며, 하드웨어 방식으로 실현할 수도 있다. 설명된 유닛은 프로세서에 설치될 수 있으며, 예를 들면, 프로세서가 확정 모듈, 패킷 모듈, 트레이닝 모듈, 및 식별 모듈을 포함한다고 설명할 수 있다. 여기서, 이러한 유닛의 명칭은 일부 경우에 해당 유닛 또는 모듈 자체를 한정하지 않는다. 예를 들면, 확정 모듈은 "파일 샘플 중의 각 악성 파일 샘플의 바이러스 패밀리를 확정하기 위한 모듈"로 설명할 수도 있다.

한편, 본 발명은 또한 컴퓨터 판독 가능한 기록 매체를 제공한다. 이러한 컴퓨터 판독 가능한 기록 매체는 상기 실시예 중 상기 장치에 포함되는 컴퓨터 판독 가능한 기록 매체이거나, 장치에 설치되지 않은 독립적으로 존재하는 컴퓨터 판독 가능한 기록 매체일 수 있다. 상기 컴퓨터 판독 가능한 기록 매체에는 하나 이상의 프로그램이 저장되어 있을 수 있고, 하나 이상의 프로세서는 이러한 프로그램으로 본 발명에 설명된 파일 식별 방법을 실행한다.

이상의 설명은 오직 본 발명의 바람직한 실시예 및 이용하는 기술 원리에 대한 설명일 뿐이다. 본 발명의 청구 범위는 상기 기술적 특징의 특정 조합으로 이루어진 기술적 방안에 한정되는 것이 아니라, 본 발명의 사상을 벗어나지 않는 한 상기 기술적 특징 또는 그의 등가 특징들의 임의의 조합으로 이루어진 기타 기술적 방안도 포함하는 것을 본 분야에서 통상 지식을 가진 자에게 자명할 것이다. 상기 특징과 본 발명에 개시된 유사한 기능을 구비한 기술적 특징을 서로 교체하여 형성된 기술적 방안을 예로들 수 있으나, 이에 한정된 것은 아니다.

Claims

파일 샘플 중의 각 악성 파일 샘플의 바이러스 패밀리를 확정하는 단계;
각 바이러스 패밀리 중의 악성 파일 샘플의 수량을 기반으로 상기 바이러스 패밀리를 적어도 하나의 샘플 세트로 패킷화하는 단계;
서로 다른 트레이닝 규칙을 이용하여 각 샘플 세트 중의 악성 파일 샘플에 대해 각각 트레이닝을 진행하여 적어도 하나의 파일 식별 모델을 획득하는 단계; 및
상기 적어도 하나의 파일 식별 모델을 통하여 식별할 파일이 악성 파일인지 확정하는 단계를 포함하는 것을 특징으로 하는 파일 식별 방법.
제 1 항에 있어서,
상기 적어도 하나의 샘플 세트는 라이트 샘플 세트, 미들 샘플 세트 및 헤비 샘플 세트를 포함하는 것을 특징으로 하는 파일 식별 방법.
제 2 항에 있어서,
상기 서로 다른 트레이닝 규칙을 이용하여 각 파일 세트 중의 악성 파일 샘플에 대해 트레이닝을 진행하여 상기 적어도 하나의 파일 식별 모델을 획득하는 단계는,
상기 라이트 샘플 세트 중의 악성 파일 샘플과 한 세트의 비악성 파일 샘플에 대해 특징 벡터 트레이닝을 진행하여 라이트 파일 식별 모델을 획득하는 단계;
상기 미들 샘플 세트 중의 악성 파일 샘플과 한 세트의 비악성 파일 샘플에 대해 로직 연산 트레이닝을 진행하여 미들 파일 식별 모델을 획득하는 단계;
상기 헤비 샘플 세트 중의 악성 파일 샘플과 한 세트의 비악성 파일 샘플에 대해 다수의 서브모델의 종합 트레이닝을 진행하여 상기 다수의 서브모델의 집합을 헤비 파일 식별 모델로 하는 단계를 포함하는 것을 특징으로 하는 파일 식별 방법.
제 1 항에 있어서,
상기 샘플 세트 중에 새로 추가된 악성 파일의 수량이 기정 역치보다 큰지 측정하는 단계;
상기 새로 추가된 악성 파일의 수량이 상기 기정 역치보다 클 경우, 상기 샘플 세트 중의 악성 파일 샘플과 상기 새로 추가된 악성 파일에 대해 트레이닝을 진행하여 업데이트 된 파일 식별 모델을 획득하는 단계; 및
상기 업데이트 된 파일 식별 모델을 이용하여 상기 샘플 세트의 현재 파일 식별 모델을 대체하는 단계를 더 포함하는 것을 특징으로 하는 파일 식별 방법.
제 4 항에 있어서,
상기 파일 샘플을 기반으로 상기 업데이트 된 파일 식별 모델과 상기 현재 파일 식별 모델을 각각 평가하여 제1 평가 결과와 제2 평가 결과를 획득하는 단계;
기정 시간 기간에 새로 추가된 파일을 기반으로 상기 업데이트 된 파일 식별 모델을 평가하여 제3 평가 결과를 획득하는 단계; 및
상기 제1 평가 결과가 상기 제2 평가 결과보다 우수하고 또한 상기 제3 평가 결과가 기정 조건을 만족할 경우 상기 대체를 실행하는 단계를 더 포함하되,
상기 평가 결과는 검출율 또는 오보율을 포함하는 것을 특징으로 하는 파일 식별 방법.
파일 샘플 중의 각 악성 파일 샘플의 바이러스 패밀리를 확정하는 확정 모듈;
각 바이러스 패밀리 중의 악성 파일 샘플의 수량을 기반으로 상기 바이러스 패밀리를 적어도 하나의 샘플 세트로 패킷화하는 패킷 모듈;
서로 다른 트레이닝 규칙을 이용하여 각 샘플 세트 중의 악성 파일 샘플에 대해 각각 트레이닝을 진행하여 적어도 하나의 파일 식별 모델을 획득하는 트레이닝 모듈; 및
상기 적어도 하나의 파일 식별 모델을 통하여 식별할 파일이 악성 파일인지 확정하는 식별 모듈을 포함하는 것을 특징으로 하는 파일 식별 장치.
제 6 항에 있어서,
상기 적어도 하나의 샘플 세트는 라이트 샘플 세트, 미들 샘플 세트 및 헤비 샘플 세트를 포함하는 것을 특징으로 하는 파일 식별 장치.
제 7 항에 있어서,
상기 트레이닝 모듈은,
상기 라이트 샘플 세트 중의 악성 파일 샘플과 한 세트의 비악성 파일 샘플에 대해 특징 벡터 트레이닝을 진행하여 라이트 파일 식별 모델을 획득하는 제1 트레이닝 유닛;
상기 미들 샘플 세트 중의 악성 파일 샘플과 한 세트의 비악성 파일 샘플에 대해 로직 연산 트레이닝을 진행하여 미들 파일 식별 모델을 획득하는 제2 트레이닝 유닛; 및
상기 헤비 샘플 세트 중의 악성 파일 샘플과 한 세트의 비악성 파일 샘플에 대해 다수의 서브모델의 종합 트레이닝을 진행하여 상기 다수의 서브모델의 집합을 헤비 파일 식별 모델로 하는 제3 트레이닝 유닛을 포함하는 것을 특징으로 하는 파일 식별 장치.
제 6 항에 있어서,
상기 샘플 세트 중에 새로 추가된 악성 파일의 수량이 기정 역치보다 큰지 측정하는 측정 모듈;
상기 새로 추가된 악성 파일의 수량이 상기 기정 역치보다 클 경우 상기 샘플 세트 중의 악성 파일 샘플과 상기 새로 추가된 악성 파일에 대해 트레이닝을 진행하여 업데이트 된 파일 식별 모델을 획득하는 업데이트 모듈; 및
상기 업데이트 된 파일 식별 모델을 이용하여 상기 샘플 세트의 현재 파일 식별 모델을 대체하는 대체 모듈을 더 포함하는 것을 특징으로 하는 파일 식별 장치.
제 9 항에 있어서,
상기 파일 샘플을 기반으로 상기 업데이트 된 파일 식별 모델과 상기 현재 파일 식별 모델을 각각 평가하여 제1 평가 결과와 제2 평가 결과를 획득하는 제1 평가 모듈; 및
기정 시간 기간에 새로 추가된 파일을 기반으로 상기 업데이트 된 파일 식별 모델을 평가하여 제3 평가 결과를 획득하는 제2 평가 모듈을 더 포함하되,
상기 대체 모듈은 상기 제1 평가 결과가 상기 제2 평가 결과보다 우수하고 또한 상기 제3 평가 결과가 기정 조건을 만족할 경우 상기 대체를 실행하도록 설치되고,
상기 평가 결과는 검출율 또는 오보율을 포함하는 것을 특징으로 하는 파일 식별 장치.
프로세서; 및
메모리 장치를 포함하되,
상기 메모리 장치는 컴퓨터 판독 가능한 명령을 저장하고, 상기 프로세서로 상기 컴퓨터 판독 가능한 명령을 실행할 경우, 상기 프로세서는,
파일 샘플 중의 각 악성 파일 샘플의 바이러스 패밀리를 확정하고,
각 바이러스 패밀리 중의 악성 파일 샘플의 수량을 기반으로 상기 바이러스 패밀리를 적어도 하나의 샘플 세트로 패킷화하고,
서로 다른 트레이닝 규칙을 이용하여 각 샘플 세트 중의 악성 파일 샘플에 대해 각각 트레이닝을 진행하여 적어도 하나의 파일 식별 모델을 획득하고,
상기 적어도 하나의 파일 식별 모델을 통하여 식별할 파일이 악성 파일인지 확정하도록 작동 가능한 것을 특징으로 하는 파일 식별 시스템.
컴퓨터 판독 가능한 명령을 저장하는 비휘발성 컴퓨터 기록 매체에 있어서,
프로세서로 상기 컴퓨터 판독 가능한 명령을 실행할 경우, 상기 프로세서는,
파일 샘플 중의 각 악성 파일 샘플의 바이러스 패밀리를 확정하고,
각 바이러스 패밀리 중의 악성 파일 샘플의 수량을 기반으로 상기 바이러스 패밀리를 적어도 하나의 샘플 세트로 패킷화하고,
부동한 트레이닝 규칙을 이용하여 각 샘플 세트 중의 악성 파일 샘플에 대해 각각 트레이닝을 진행하여 적어도 하나의 파일 식별 모델을 획득하고,
상기 적어도 하나의 파일 식별 모델을 통하여 식별할 파일이 악성 파일인지 확정하도록 작동 가능한 것을 특징으로 하는 비휘발성 컴퓨터 기록 매체.