KR102313414B1 - 인공지능과 패턴을 이용한 하이브리드 홈페이지 변조 탐지 시스템 및 방법 - Google Patents

인공지능과 패턴을 이용한 하이브리드 홈페이지 변조 탐지 시스템 및 방법 Download PDF

Info

Publication number
KR102313414B1
KR102313414B1 KR1020210050258A KR20210050258A KR102313414B1 KR 102313414 B1 KR102313414 B1 KR 102313414B1 KR 1020210050258 A KR1020210050258 A KR 1020210050258A KR 20210050258 A KR20210050258 A KR 20210050258A KR 102313414 B1 KR102313414 B1 KR 102313414B1
Authority
KR
South Korea
Prior art keywords
homepage
information
artificial intelligence
screenshot image
stored
Prior art date
Application number
KR1020210050258A
Other languages
English (en)
Inventor
이대호
이동근
이형
윤강석
진세민
신경아
Original Assignee
주식회사 에프원시큐리티
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 에프원시큐리티 filed Critical 주식회사 에프원시큐리티
Priority to KR1020210050258A priority Critical patent/KR102313414B1/ko
Application granted granted Critical
Publication of KR102313414B1 publication Critical patent/KR102313414B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Quality & Reliability (AREA)
  • Computing Systems (AREA)
  • Computer Hardware Design (AREA)
  • Databases & Information Systems (AREA)
  • Storage Device Security (AREA)

Abstract

도메인 서버로부터 홈페이지 정보를 수집하고, 해킹 정보 제공 서버로부터 변조된 홈페이지 스크린샷 이미지를 수집하는 콘텐츠 수집부, 상기 변조된 홈페이지 스크린샷 이미지를 바탕으로 미리 저장된 알고리즘을 이용하여 인공지능 학습 모델을 생성하는 인공지능 학습부, 그리고 상기 홈페이지 정보 중 홈페이지 스크린샷 이미지를 입력변수로 하는 상기 인공지능 학습 모델을 이용하여 홈페이지 변조 여부를 판단하고, 상기 홈페이지 정보와 미리 저장된 변조 패턴 정보를 비교한 결과에 기반하여 홈페이지 변조 여부를 판단하는 변조 탐지부를 포함하는 홈페이지 변조 탐지 시스템이 제공된다.

Description

인공지능과 패턴을 이용한 하이브리드 홈페이지 변조 탐지 시스템 및 방법{HYBRID SYSTEM AND METHOD FOR DETECTING DEFACED HOMEPAGE USING ARTIFICIAL INTELLIGENCE AND PATTERN}
본 발명은 홈페이지 변조 탐지 시스템 및 방법에 관한 것으로, 특히 인공지능 및 패턴을 이용한 하이브리드 홈페이지 변조 탐지 시스템 및 방법에 관한 것이다.
웹사이트 변조는 사이트나 웹페이지의 시각적 모습을 바꾸는 웹사이트에 대한 공격이다. 변조는 크래커들이 웹 서버에 침투하고 자신의 웹사이트로 바꾸는 방식으로 이루어진다.
변조에 사용되는 가장 일반적인 방식으로는 관리 권한을 얻게 해주는 SQL 삽입이 있다. 또 다른 방식으로는 사용자 이름과 비밀번호가 획득된 경우에 FTP를 통해 이루어질 수 있다.
변조들은 일반적으로 전체 페이지에서 이루어진다. 이 페이지는 보통 변조자들의 가명이 포함된다. 대부분의 경우에 변조는 위험하지 않고 단지 크래커의 기술을 뽐내거나 핵티비즘을 위한 경우가 많다. 그러나 악성코드 업로딩이나 서버의 중요 파일 삭제 같은 더 해로운 행위를 위해 주의를 분산할 목적으로 사용되기도 한다.
해킹을 통해 홈페이지 등의 웹사이트를 불법으로 위변조하는 행위를 탐지하는 기술은 대상 홈페이지가 관리자 등의 자료 업데이트 등 정상적인 동적 변화에도 위변조로 식별되는 오탐지가 자주 발생하는 문제점이 있다.
종래의 단순히 해쉬(HASH) 알고리즘을 이용하여 체크썸(Checksum)만을 비교하여 홈페이지의 위변조를 체크하던 방식의 경우 동적인 웹페이지가 보편화된 현재의 웹구조에서는 오탐 확률이 높은 문제점이 있다.
종래의 홈페이지 소스코드 변경율에 따라 홈페이지 위변조로 식별하는 방식의 경우 홈페이지 위변조를 식별할 수 있는 변경율 값이 모호하므로 정확하게 홈페이지 위변조를 탐지하기 어려운 문제점이 있다.
이에 따라, 인공지능과 패턴을 이용하여 변조 탐지의 정확도를 향상시킬 수 있는 기술이 요구된다.
본 발명이 이루고자 하는 기술적 과제는 인공지능과 패턴을 이용하여 변조 탐지의 정확도를 향상시킬 수 있는 홈페이지 변조 탐지 시스템 및 방법을 제공하는 것이다.
한 실시예에 따르면, 인공지능 및 패턴을 이용하여 홈페이지 변조를 탐지하는 시스템이 제공된다. 상기 홈페이지 변조 탐지 시스템은 도메인 서버로부터 홈페이지 정보를 수집하고, 해킹 정보 제공 서버로부터 변조된 홈페이지 스크린샷 이미지를 수집하는 콘텐츠 수집부, 상기 변조된 홈페이지 스크린샷 이미지를 바탕으로 미리 저장된 알고리즘을 이용하여 인공지능 학습 모델을 생성하는 인공지능 학습부, 그리고 상기 홈페이지 정보 중 홈페이지 스크린샷 이미지를 입력변수로 하는 상기 인공지능 학습 모델을 이용하여 홈페이지 변조 여부를 판단하고, 상기 홈페이지 정보와 미리 저장된 변조 패턴 정보를 비교한 결과에 기반하여 홈페이지 변조 여부를 판단하는 변조 탐지부를 포함한다.
상기 인공지능 학습부는, 미리 저장된 알고리즘을 이용하여 상기 변조된 홈페이지 스크린샷 이미지로부터 특징정보를 추출하는 전처리부, 및 미리 저장된 알고리즘을 이용하여 상기 특징정보를 바탕으로 학습을 수행하여 상기 인공지능 학습 모델을 생성하는 학습 모델 생성부를 포함할 수 있다.
상기 특징정보는, 해커 로고, 해커 이름, 해커 메시지 정보를 포함할 수 있다.
상기 홈페이지 정보는, 홈페이지 스크린샷 이미지, HTML, 스크립트, 하이퍼링크 정보를 포함할 수 있다.
한 실시예에 따르면, 인공지능 및 패턴을 이용하여 홈페이지 변조를 탐지하는 방법이 제공된다. 상기 홈페이지 변조 탐지 방법은 도메인 서버로부터 홈페이지 정보를 수집하고, 해킹 정보 제공 서버로부터 변조된 홈페이지 스크린샷 이미지를 수집하는 단계, 상기 변조된 홈페이지 스크린샷 이미지를 바탕으로 미리 저장된 알고리즘을 이용하여 인공지능 학습 모델을 생성하는 단계, 그리고 상기 홈페이지 정보 중 홈페이지 스크린샷 이미지를 입력변수로 하는 상기 인공지능 학습 모델을 이용하여 홈페이지 변조 여부를 판단하고, 상기 홈페이지 정보와 미리 저장된 변조 패턴 정보를 비교한 결과에 기반하여 홈페이지 변조 여부를 판단하는 단계를 포함한다.
상기 인공지능 학습 모델을 생성하는 단계는, 미리 저장된 알고리즘을 이용하여 상기 변조된 홈페이지 스크린샷 이미지로부터 특징정보를 추출하고, 미리 저장된 알고리즘을 이용하여 상기 특징정보를 바탕으로 학습을 수행하여 상기 인공지능 학습 모델을 생성할 수 있다.
인공지능과 패턴을 이용하여 변조 탐지의 정확도를 향상시킬 수 있다.
전국 380만개 홈페이지로부터 수집한 홈페이지 정보 및 해킹 정보 제공 서버로부터 수집한 변조된 홈페이지 스크린샷 이미지에서 추출한 특징정보를 학습데이터세트로 구성하고, 이를 바탕으로 인공지능 학습 모델을 생성함으로써, 변조 탐지의 정확도를 향상시킬 수 있다.
도 1 및 도 2는 한 실시예에 따른 홈페이지 변조 탐지 시스템의 블록도이다.
도 3은 한 실시예에 따른 홈페이지 변조 탐지 시스템의 콘텐츠 수집부(110)의 동작 내용을 설명하기 위한 도면이다.
도 4는 한 실시예에 따른 변조된 홈페이지를 나타내는 도면이다.
도 5 및 도 6은 한 실시예에 따른 홈페이지 변조 탐지 시스템의 인공지능 학습부의 블록도이다.
도 7은 한 실시예에 따른 홈페이지 변조 탐지 시스템의 전처리부의 동작 내용을 설명하기 위한 도면이다.
도 8 내지 도 10은 한 실시예에 따른 홈페이지 변조 탐지 시스템의 학습모델 생성부의 동작 내용을 설명하기 위한 도면이다.
도 11은 한 실시예에 따른 홈페이지 변조 탐지 시스템의 변조 탐지부의 동작 내용을 설명하기 위한 도면이다.
도 12는 한 실시예에 따른 웹 관리부의 동작 내용을 설명하기 위한 도면이다.
도 13은 한 실시예에 따른 홈페이지 변조 탐지 방법의 흐름도이다.
아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성 요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
본 발명의 실시 예에서 사용되는 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 실시 예들의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 실시 예들에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 실시 예들의 전반에 걸친 내용을 토대로 정의되어야 한다.
본 발명의 실시 예에서, 제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되지는 않는다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.
또한, 본 발명의 실시 예에서, 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.
또한, 본 발명의 실시 예에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
또한, 본 발명의 실시 예에서, '모듈' 혹은 '부'는 적어도 하나의 기능이나 동작을 수행하며, 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다. 또한, 복수의'모듈' 혹은 복수의'부'는 특정한 하드웨어로 구현될 필요가 있는 '모듈' 혹은 '부'를 제외하고는 적어도 하나의 모듈로 일체화되어 적어도 하나의 프로세서로 구현될 수 있다.
도 1 및 도 2는 한 실시예에 따른 홈페이지 변조 탐지 시스템의 블록도이다. 도 3은 한 실시예에 따른 홈페이지 변조 탐지 시스템의 콘텐츠 수집부(110)의 동작 내용을 설명하기 위한 도면이다. 도 4는 한 실시예에 따른 변조된 홈페이지를 나타내는 도면이다. 도 5 및 도 6은 한 실시예에 따른 홈페이지 변조 탐지 시스템의 인공지능 학습부의 블록도이다. 도 7은 한 실시예에 따른 홈페이지 변조 탐지 시스템의 전처리부의 동작 내용을 설명하기 위한 도면이다. 도 8 내지 도 10은 한 실시예에 따른 홈페이지 변조 탐지 시스템의 학습모델 생성부의 동작 내용을 설명하기 위한 도면이다. 도 11은 한 실시예에 따른 홈페이지 변조 탐지 시스템의 변조 탐지부의 동작 내용을 설명하기 위한 도면이다. 도 12는 한 실시예에 따른 웹 관리부의 동작 내용을 설명하기 위한 도면이다.
도 1 및 도 2를 참조하면, 한 실시예에 따른 홈페이지 변조 탐지 시스템(100)은 콘텐츠 수집부(110), 인공지능 학습부(120), 변조 탐지부(130), 저장부(140), 통신부(160)를 포함한다.
콘텐츠 수집부(110)는 한 실시예로서, 도메인 서버(200)로부터 홈페이지 정보를 수집할 수 있다.
홈페이지 정보는 한 실시예로서, 홈페이지 스크린샷 이미지, HTML, 스크립트, 하이퍼링크, 해시값, 홈페이지 내 이미지 정보를 포함할 수 있다.
도메인 서버(200)는 한 실시예로서, 전국의 380만 도메인의 홈페이지 정보를 제공할 수 있다.
콘텐츠 수집부(110)는 한 실시예로서, 도메인 서버(200)로부터 정상(변조되지 않은) 홈페이지 정보를 수집할 수 있다.
콘텐츠 수집부(110)는 한 실시예로서, 도메인 서버(200)로부터 수집한 홈페이지 정보에 대해 파싱(parsing)을 수행하여 분석정보 및 연관정보를 추출할 수 있고, 홈페이지 정보, 분석정보 및 연관정보를 저장부(140)에 저장할 수 있다.
도 3을 참조하면, 콘텐츠 수집부(110)는 한 실시예로서, 미리 저장된 로그인 계정정보를 바탕으로, 로그인 권한으로 수집 가능한 홈페이지 정보를 수집할 수 있다.
콘텐츠 수집부(110)는 한 실시예로서, 특정 홈페이지 접속시 IP를 차단당하는 경우, 미리 저장된 IP 차단 우회 알고리즘을 이용하여 해당 홈페이지에 접속하여 홈페이지 정보를 수집할 수 있다.
미리 저장된 IP 차단 우회 알고리즘은 해당 서버의 IP 요청을 차단하는 DNS 필터링 알고리즘, IP 데이터 입출입 차단 알고리즘, 특정 프로토콜이나 포트를 선별적으로 차단하는 트래픽 분류(Qos) 알고리즘, 대규모 트래픽을 제어하는 쉘로우 패킷 감시 알고리즘, 패킷의 헤더 외 길이, 전송빈도, 특성을 분석하여 감시하는 패킷 핑커프린팅 알고리즘, 패킷의 내용까지 감시하는 DPI/패킹 내용 감시 알고리즘일 수 있다.
콘텐츠 수집부(110)는 한 실시예로서, 웹크롤러(web crawler)를 이용하여 도메인 서버(200)로부터 홈페이지 정보를 수집할 수 있다. 웹크롤러는 탑 페이지(top page)부터 서브 페이지(sub page)까지 반복적으로 순회하며 정보를 수집할 수 있다.
콘텐츠 수집부(110)는 한 실시예로서, 미리 저장된 툴(tool)을 이용하여 홈페이지를 특정 깊이로 크롤링하고 스크린샷 이미지를 저장할 수 있다. 콘텐츠 수집부(110)는 한 실시예로서, 홈페이지의 전체 길이를 캡처할 수 있고, 스크린샷에 특정 해상도를 사용할 수 있으며, 스크린샷이 최근 저장된 경우 캡처를 스킵(skip)할 수 있다.
도 4를 참조하면, 콘텐츠 수집부(110)는 한 실시예로서, 해킹 정보 제공 서버(300)로부터 변조된 홈페이지 스크린샷 이미지를 수집할 수 있다.
인공지능 학습부(120)는 변조된 홈페이지 스크린샷 이미지를 바탕으로 미리 저장된 알고리즘을 이용하여 인공지능 학습 모델을 생성할 수 있다.
도 5 및 도 6을 참조하면, 인공지능 학습부(120)는 전처리부(121), 학습 모델 생성부(122), 검증부(123)를 포함할 수 있다.
전처리부(121)는 미리 저장된 알고리즘을 이용하여 변조된 홈페이지 스크린샷 이미지로부터 특징정보를 추출할 수 있다. 미리 저장된 알고리즘은 한 실시예로서, OpenCV, Pillow, Scikit-image, OCR(Extract Text), Logo일 수 있다.
도 7을 참조하면, 특징정보는 한 실시예로서, 해커 로고, 해커 이름, 해커 메시지 정보를 포함할 수 있다.
도 8을 참조하면, 학습 모델 생성부(122)는 미리 저장된 알고리즘을 이용하여 특징정보를 바탕으로 학습을 수행하여 인공지능 학습 모델을 생성할 수 있다. 미리 저장된 알고리즘은 한 실시예로서, 머신 러닝(Machine Learning) 학습 알고리즘 또는 딥러닝(Deep Learning) 학습 알고리즘일 수 있다. 딥러닝(Deep Learning) 학습 알고리즘은 한 실시예로서, 합성곱 신경망(Convolution Neural Network, CNN) 알고리즘일 수 있다.
도 9를 참조하면, 학습 모델 생성부(122)는 한 실시예로서, 미리 저장된 알고리즘을 이용하여 변조된 홈페이지 스크린샷 이미지로부터 추출된 특징정보, 정상 홈페이지 스크린샷 이미지로부터 추출된 특징정보 각각을 학습데이터로 분류할 수 있고, 각각의 학습데이터를 바탕으로 학습을 수행하여 인공지능 학습 모델을 생성할 수 있다. 전국 380만개 홈페이지로부터 수집한 홈페이지 정보 및 해킹 정보 제공 서버로부터 수집한 변조된 홈페이지 스크린샷 이미지에서 추출한 특징정보를 학습데이터세트로 구성하고, 이를 바탕으로 인공지능 학습 모델을 생성함으로써, 변조 탐지의 정확도를 향상시킬 수 있다.
도 10을 참조하면, 학습 모델 생성부(122)는 한 실시예로서, WSI(Whole Snapshot Image)로 명시된 변조된 홈페이지 스크린샷 이미지 학습데이터세트가 입력되면, 필터(Filter), 스트라이드(Stride), 패딩(Padding)을 조절하여 특징 추출(Feature Extraction) 부분의 입력과 출력 크기를 계산하고 맞추는 과정을 수행할 수 있다. 학습 모델 생성부(122)는 한 실시예로서, 특징 추출(Feature Extraction) 부분의 입력 및 출력 크기를 계산하고 맞추는 과정을 수행한 이후, 합성곱(Convolution) 처리 과정을 수행하고, 컨볼루션 레이어(Convolution Layer), 맥스 풀링 레이어(Max Pooling Layer), 풀리 커넥티드 레이어(Fully Connected Layer)를 통해 학습을 진행할 수 있다. 학습 모델 생성부(122)는 한 실시예로서, 학습을 진행한 후 학습데이터세트에 라벨(Label)을 표시하여 분류할 수 있다. 이후, 학습 모델 생성부(122)는 한 실시예로서, 분석가를 통해 수정된 정보(불확실한 클래스의 명기, 잘못 명기된 항목에 대한 재명기 데이터)가 입력되면, 이를 바탕으로 인공지능 학습 모델을 생성할 수 있다.
검증부(123)는 한 실시예로서, 미리 저장된 알고리즘을 이용하여 라벨이 표시된(Labeled) 학습데이터세트를 바탕으로 학습을 수행하고, 미리 설정된 분류 정확도를 충족하는 학습 모델을 최종 인공지능 학습 모델로 선택할 수 있다.
도 11을 참조하면, 변조 탐지부(130)는 인공지능 학습부(120)를 통해 생성된 인공지능 학습 모델을 이용하여 홈페이지 변조 여부를 판단할 수 있다.
변조 탐지부(130)는 한 실시예로서, 콘텐츠 수집부(110)를 통해 실시간 수집되는 홈페이지 정보 중 홈페이지 스크린샷 이미지를 입력변수로 하는 인공지능 학습 모델을 이용하여 홈페이지 변조 여부를 판단할 수 있다.
변조 탐지부(130)는 한 실시예로서, 콘텐츠 수집부(110)를 통해 실시간 수집되는 홈페이지 정보와 미리 저장된 변조 패턴 정보(Pattern Data)를 비교한 결과에 기반하여 홈페이지 변조 여부를 판단할 수 있다.
변조 패턴 정보(Pattern Data)는 한 실시예로서, 변조 패턴 시그니처, 변조 파일 해시, 변조 퍼지 해시, 악성코드 URL 정보, 전처리부(121)를 통해 추출된 해커 로고, 해커 이름, 해커 메시지 정보를 포함할 수 있다.
변조 탐지부(130)는 한 실시예로서, 콘텐츠 수집부(110)를 통해 실시간 수집되는 홈페이지 정보 중 HTML 파일과 미리 저장된 변조 패턴 정보를 비교한 결과에 기반하여 홈페이지 변조 여부를 판단할 수 있다.
변조 탐지부(130)는 한 실시예로서, 콘텐츠 수집부(110)를 통해 실시간 수집되는 홈페이지 정보 중 해시값과 미리 저장된 변조 패턴 정보를 비교한 결과에 기반하여 홈페이지 변조 여부를 판단할 수 있다.
변조 탐지부(130)는 한 실시예로서, 콘텐츠 수집부(110)를 통해 실시간 수집되는 홈페이지 정보 중 URL 정보와 미리 저장된 변조 패턴 정보를 비교한 결과에 기반하여 홈페이지 변조 여부를 판단할 수 있다.
변조 탐지부(130)는 한 실시예로서, 콘텐츠 수집부(110)를 통해 실시간 수집되는 홈페이지 정보 중 홈페이지 내 이미지 정보와 미리 저장된 변조 패턴 정보를 비교한 결과에 기반하여 홈페이지 변조 여부를 판단할 수 있다.
인공지능과 패턴을 이용한 하이브리드 탐지를 통해 변조 탐지의 정확도를 향상시킬 수 있다.
저장부(140)는 한 실시예로서, 홈페이지 정보, 변조된 홈페이지 스크린샷 이미지, 변조 패턴 정보, 및 인공지능 학습 모델을 저장할 수 있다.
저장부(140)는 한 실시예로서, 전처리부(121)를 통해 추출된 해커 로고, 해커 이름, 해커 메시지 정보를 변조 패턴 정보로 저장할 수 있다.
도 12을 참조하면, 통신부(160)는 홈페이지 변조 여부 판단 결과를 관리자 서버에게 송신할 수 있다.
통신부(160)는 한 실시예로서, 국내 홈페이지 변조 현황, 시도별 홈페이지 변조 및 대응 현황, 일자별 변조 탐지 현황, 발견 해커 목록을 관리자 서버에게 송신할 수 있다.
통신부(160)는 한 실시예로서, 유무선 통신을 이용하여 사용자 단말(400)과 데이터를 송수신하는 통신 모듈을 포함할 수 있다.
웹 관리부(150)는 한 실시예로서, 관리자로부터 입력된 정보를 바탕으로 웹크롤러의 정보수집 범위 및 강도를 설정할 수 있다.
웹 관리부(150)는 한 실시예로서, 관리자로부터 입력된 정보를 바탕으로 JavaScript, AJAX, HTTPS 등 모든 페이지 정보를 수집하도록 웹크롤러를 설정할 수 있고, 데이터 추출 항목(HTML 코드, 웹 이미지, 텍스트 등)을 설정할 수 있다.
웹 관리부(150)는 한 실시예로서, 관리자로부터 입력된 정보를 바탕으로 크롤링 대상 URL에서 서브 페이지 깊이(sub page depth) 및 n차 URL 검색범위를 설정할 수 있다.
웹 관리부(150)는 한 실시예로서, 관리자로부터 입력된 정보를 바탕으로 스크린샷 해상도, 서브 페이지 스크린샷의 깊이(Depth), 최근 저장 스크린샷의 스킵(skip) 여부, 깨진 링크 리포트 보고 기능 온/오프(On/Off) 여부를 설정할 수 있다.
웹 관리부(150)는 한 실시예로서, 관리자로부터 입력된 정보를 바탕으로 특정 URL의 로그인 정보(ID, 패스워드) 반영 여부를 설정할 수 있다.
도 12를 참조하면, 웹 관리부(150)는 한 실시예로서, 사용자 단말(400)로부터 홈페이지 변조 여부 판단 결과 요청 메시지를 수신하면, 사용자 단말(400)의 화면 상에 국내 홈페이지 변조 현황, 시도별 홈페이지 변조 및 대응 현황, 일자별 변조 탐지 현황, 발견 해커 목록을 출력할 수 있다.
사용자 단말(400)은 한 실시예로서, 관리자가 사용하는 단말일 수 있고, 앱 또는 웹을 통해 웹 관리부(150)에 접속할 수 있다.
사용자 단말(400)은 한 실시예로서, 이동 통신 단말기, 데스크톱 컴퓨터, 노트북 컴퓨터, 워크스테이션, 팜톱(palmtop) 컴퓨터, 개인 휴대 정보 단말기(Personal Digital Assistant, PDA), 웹 패드 등과 같이 메모리 수단을 구비하고 마이크로 프로세서를 탑재하여 연산 능력을 갖춘 디지털 기기일 수 있다.
도 13은 한 실시예에 따른 홈페이지 변조 탐지 방법의 흐름도이다.
도 13을 참조하면, 한 실시예에 따른 홈페이지 변조 탐지 방법은 도메인 서버(200)로부터 홈페이지 정보를 수집하고, 해킹 정보 제공 서버(300)로부터 변조된 홈페이지 스크린샷 이미지를 수집하는 단계(S100), 변조된 홈페이지 스크린샷 이미지를 바탕으로 미리 저장된 알고리즘을 이용하여 인공지능 학습 모델을 생성하는 단계(S200), 그리고 홈페이지 정보 중 홈페이지 스크린샷 이미지를 입력변수로 하는 인공지능 학습 모델을 이용하여 홈페이지 변조 여부를 판단하고, 홈페이지 정보와 미리 저장된 변조 패턴 정보를 비교한 결과에 기반하여 홈페이지 변조 여부를 판단하는 단계(S300)를 포함할 수 있다.
인공지능 학습 모델을 생성하는 단계(S200)는 미리 저장된 알고리즘을 이용하여 변조된 홈페이지 스크린샷 이미지로부터 특징정보를 추출하고, 미리 저장된 알고리즘을 이용하여 특징정보를 바탕으로 학습을 수행하여 인공지능 학습 모델을 생성할 수 있다.
단계 S100 내지 단계 S300은 위에서 설명한 홈페이지 변조 탐지 시스템(100)의 동작 내용과 동일하므로, 상세한 설명은 생략한다.
이상에서 본 발명의 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.
본 실시 예와 관련된 기술 분야에서 통상의 지식을 가진 자는 상기된 기재의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시 방법들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

Claims (6)

  1. 인공지능 및 패턴을 이용하여 홈페이지 변조를 탐지하는 시스템으로서,
    도메인 서버로부터 홈페이지 정보를 수집하고, 해킹 정보 제공 서버로부터 변조된 홈페이지 스크린샷 이미지를 수집하는 콘텐츠 수집부,
    상기 변조된 홈페이지 스크린샷 이미지를 바탕으로 미리 저장된 알고리즘을 이용하여 인공지능 학습 모델을 생성하는 인공지능 학습부, 그리고
    상기 홈페이지 정보 중 홈페이지 스크린샷 이미지를 입력변수로 하는 상기 인공지능 학습 모델을 이용하여 홈페이지 변조 여부를 판단하고, 상기 홈페이지 정보와 미리 저장된 변조 패턴 정보를 비교한 결과에 기반하여 홈페이지 변조 여부를 판단하는 변조 탐지부
    를 포함하고,
    상기 홈페이지 정보는 홈페이지 스크린샷 이미지, HTML, 스크립트, 하이퍼링크 정보를 포함하며,
    상기 변조 패턴 정보는 변조 패턴 시그니처, 변조 파일 해시, 변조 퍼지 해시, 악성코드 URL 정보, 해커 로고, 해커 이름, 해커 메시지 정보를 포함하며,
    상기 콘텐츠 수집부는
    미리 저장된 로그인 계정정보를 바탕으로, 로그인 권한으로 수집 가능한 홈페이지 정보를 수집하고, 특정 홈페이지 접속시 IP를 차단당하는 경우 미리 저장된 IP 차단 우회 알고리즘을 이용하여 홈페이지 정보를 수집하며,
    상기 변조 탐지부는
    상기 홈페이지 정보 중 해시값과 미리 저장된 변조 패턴 정보를 비교한 결과에 기반하여 홈페이지 변조 여부를 판단하고, 상기 홈페이지 정보 중 URL 정보와 미리 저장된 변조 패턴 정보를 비교한 결과에 기반하여 홈페이지 변조 여부를 판단하는 홈페이지 변조 탐지 시스템.
  2. 제1항에서,
    상기 인공지능 학습부는,
    미리 저장된 알고리즘을 이용하여 상기 변조된 홈페이지 스크린샷 이미지로부터 특징정보를 추출하는 전처리부, 및
    미리 저장된 알고리즘을 이용하여 상기 특징정보를 바탕으로 학습을 수행하여 상기 인공지능 학습 모델을 생성하는 학습 모델 생성부를 포함하는, 홈페이지 변조 탐지 시스템.
  3. 제2항에서,
    상기 특징정보는,
    해커 로고, 해커 이름, 해커 메시지 정보를 포함하는, 홈페이지 변조 탐지 시스템.
  4. 삭제
  5. 인공지능 및 패턴을 이용하여 홈페이지 변조를 탐지하는 방법으로서,
    도메인 서버로부터 홈페이지 정보를 수집하고, 해킹 정보 제공 서버로부터 변조된 홈페이지 스크린샷 이미지를 수집하는 단계,
    상기 변조된 홈페이지 스크린샷 이미지를 바탕으로 미리 저장된 알고리즘을 이용하여 인공지능 학습 모델을 생성하는 단계, 그리고
    상기 홈페이지 정보 중 홈페이지 스크린샷 이미지를 입력변수로 하는 상기 인공지능 학습 모델을 이용하여 홈페이지 변조 여부를 판단하고, 상기 홈페이지 정보와 미리 저장된 변조 패턴 정보를 비교한 결과에 기반하여 홈페이지 변조 여부를 판단하는 단계
    를 포함하고,
    상기 홈페이지 정보는 홈페이지 스크린샷 이미지, HTML, 스크립트, 하이퍼링크 정보를 포함하며,
    상기 변조 패턴 정보는 변조 패턴 시그니처, 변조 파일 해시, 변조 퍼지 해시, 악성코드 URL 정보, 해커 로고, 해커 이름, 해커 메시지 정보를 포함하며,
    상기 도메인 서버로부터 홈페이지 정보를 수집하고, 해킹 정보 제공 서버로부터 변조된 홈페이지 스크린샷 이미지를 수집하는 단계는
    미리 저장된 로그인 계정정보를 바탕으로, 로그인 권한으로 수집 가능한 홈페이지 정보를 수집하고, 특정 홈페이지 접속시 IP를 차단당하는 경우 미리 저장된 IP 차단 우회 알고리즘을 이용하여 홈페이지 정보를 수집하며,
    상기 홈페이지 변조 여부를 판단하는 단계는
    상기 홈페이지 정보 중 해시값과 미리 저장된 변조 패턴 정보를 비교한 결과에 기반하여 홈페이지 변조 여부를 판단하고, 상기 홈페이지 정보 중 URL 정보와 미리 저장된 변조 패턴 정보를 비교한 결과에 기반하여 홈페이지 변조 여부를 판단하는 홈페이지 변조 탐지 방법.
  6. 제5항에서,
    상기 인공지능 학습 모델을 생성하는 단계는,
    미리 저장된 알고리즘을 이용하여 상기 변조된 홈페이지 스크린샷 이미지로부터 특징정보를 추출하고, 미리 저장된 알고리즘을 이용하여 상기 특징정보를 바탕으로 학습을 수행하여 상기 인공지능 학습 모델을 생성하는, 홈페이지 변조 탐지 방법.
KR1020210050258A 2021-04-19 2021-04-19 인공지능과 패턴을 이용한 하이브리드 홈페이지 변조 탐지 시스템 및 방법 KR102313414B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210050258A KR102313414B1 (ko) 2021-04-19 2021-04-19 인공지능과 패턴을 이용한 하이브리드 홈페이지 변조 탐지 시스템 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210050258A KR102313414B1 (ko) 2021-04-19 2021-04-19 인공지능과 패턴을 이용한 하이브리드 홈페이지 변조 탐지 시스템 및 방법

Publications (1)

Publication Number Publication Date
KR102313414B1 true KR102313414B1 (ko) 2021-10-15

Family

ID=78150910

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210050258A KR102313414B1 (ko) 2021-04-19 2021-04-19 인공지능과 패턴을 이용한 하이브리드 홈페이지 변조 탐지 시스템 및 방법

Country Status (1)

Country Link
KR (1) KR102313414B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102510777B1 (ko) * 2022-05-18 2023-03-16 한국인터넷진흥원 인공지능 기반 웹사이트 변조 탐지 시스템 및 방법

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190085661A (ko) * 2018-01-11 2019-07-19 주식회사 케이티 웹사이트 검증 방법
KR20190099816A (ko) * 2018-02-20 2019-08-28 주식회사 디로그 웹 페이지 위변조 탐지 방법 및 시스템

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190085661A (ko) * 2018-01-11 2019-07-19 주식회사 케이티 웹사이트 검증 방법
KR20190099816A (ko) * 2018-02-20 2019-08-28 주식회사 디로그 웹 페이지 위변조 탐지 방법 및 시스템

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102510777B1 (ko) * 2022-05-18 2023-03-16 한국인터넷진흥원 인공지능 기반 웹사이트 변조 탐지 시스템 및 방법
WO2023224202A1 (ko) * 2022-05-18 2023-11-23 한국인터넷진흥원 인공지능 기반 웹사이트 변조 탐지 시스템 및 방법

Similar Documents

Publication Publication Date Title
Corona et al. Deltaphish: Detecting phishing webpages in compromised websites
Afroz et al. Phishzoo: Detecting phishing websites by looking at them
Pan et al. Anomaly based web phishing page detection
US9621566B2 (en) System and method for detecting phishing webpages
Amiri et al. A machine-learning approach to phishing detection and defense
Zhao et al. A review of computer vision methods in network security
CN110912889B (zh) 一种基于智能化威胁情报的网络攻击检测***和方法
CN106961419A (zh) WebShell检测方法、装置及***
Van Dooremaal et al. Combining text and visual features to improve the identification of cloned webpages for early phishing detection
CN112560029A (zh) 基于智能分析技术的网站内容监测和自动化响应防护方法
CN111147490A (zh) 一种定向钓鱼攻击事件发现方法及装置
Sanglerdsinlapachai et al. Web phishing detection using classifier ensemble
Khan Detection of phishing websites using deep learning techniques
KR102313414B1 (ko) 인공지능과 패턴을 이용한 하이브리드 홈페이지 변조 탐지 시스템 및 방법
EP4024252A1 (en) A system and method for identifying exploited cves using honeypots
Garcia et al. Web attack detection using ID3
Kasim Automatic detection of phishing pages with event-based request processing, deep-hybrid feature extraction and light gradient boosted machine model
Majidpour et al. Application of deep learning to enhance the accuracy of intrusion detection in modern computer networks
Lampesberger et al. An on-line learning statistical model to detect malicious web requests
CN114169432B (zh) 一种基于深度学习的跨站脚本攻击识别方法
Banday et al. Image Flip CAPTCHA.
Saxena et al. Detection of web attacks using machine learning based URL classification techniques
Jie et al. A new model for simultaneous detection of phishing and darknet websites
KR102510777B1 (ko) 인공지능 기반 웹사이트 변조 탐지 시스템 및 방법
Hegde et al. Spear Phishing Using Machine Learning

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant