KR101174057B1 - 인덱스 분석장치와 인덱스 검색장치 및 그 방법 - Google Patents

인덱스 분석장치와 인덱스 검색장치 및 그 방법 Download PDF

Info

Publication number
KR101174057B1
KR101174057B1 KR1020080130678A KR20080130678A KR101174057B1 KR 101174057 B1 KR101174057 B1 KR 101174057B1 KR 1020080130678 A KR1020080130678 A KR 1020080130678A KR 20080130678 A KR20080130678 A KR 20080130678A KR 101174057 B1 KR101174057 B1 KR 101174057B1
Authority
KR
South Korea
Prior art keywords
index
search
digital data
virtual drive
digital
Prior art date
Application number
KR1020080130678A
Other languages
English (en)
Other versions
KR20100071829A (ko
Inventor
이주영
홍도원
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020080130678A priority Critical patent/KR101174057B1/ko
Priority to US12/580,714 priority patent/US20100161615A1/en
Publication of KR20100071829A publication Critical patent/KR20100071829A/ko
Application granted granted Critical
Publication of KR101174057B1 publication Critical patent/KR101174057B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/70Protecting specific internal or peripheral components, in which the protection of a component leads to protection of the entire computer
    • G06F21/78Protecting specific internal or peripheral components, in which the protection of a component leads to protection of the entire computer to assure secure storage of data
    • G06F21/80Protecting specific internal or peripheral components, in which the protection of a component leads to protection of the entire computer to assure secure storage of data in storage media based on magnetic or optical technology, e.g. disks with sectors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/30Network architectures or network communication protocols for network security for supporting lawful interception, monitoring or retaining of communications or communication related information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/21Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/2101Auditing as a secondary aspect

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Technology Law (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

인덱스 분석장치와 인덱스 검색장치 및 그 방법이 개시된다. 본 발명의 일 실시예에 따른 인덱스 분석장치는 가상 드라이브의 디스크 이미지에 포함된 디지털 자료를 대상으로 패턴매칭을 이용하여 인덱스를 추출하고, 일 실시예에 따른 인덱스 검색장치는 추출된 인덱스를 수신하여 수신된 인덱스를 포함하는 디지털자료에 대해 사용자로부터 키 입력된 검색어로 검색을 수행한다. 이에 의해 디지털 포렌식의 분석 정확성을 높이며 검색속도를 단축시킬 수 있다.
디지털 포렌식, 인덱스, 가상 드라이브, 패턴매칭, 분석, 검색

Description

인덱스 분석장치와 인덱스 검색장치 및 그 방법 {Method and apparatus for analyzing and searching index}
본 발명의 일 양상은 정보검색 기술에 관한 것으로, 보다 상세하게는 디지털 포렌식 검색기술에 관한 것이다.
본 연구는 지식경제부 및 정보통신연구진흥원의 IT성장동력기술개발 사업의 일환으로 수행한 연구로부터 도출된 것이다. [과제관리번호 : 2007-S-019-02, 과제명 : 정보투명성 보장형 디지털 포렌식 시스템 개발]
디지털 포렌식(digital forensic)은 절차상으로는 데이터를 수집, 보관, 분석, 보고하는 과학적이고 논리적인 기법이며, 목적상으로는 주로 컴퓨터에 내장된 디지털자료를 근거로 삼아 그 컴퓨터를 매개체로 해서 일어난 어떤 행위의 사실 관계를 규명하고 증명하는 기법이다.
이를 위해 원본 디지털 자료를 훼손하지 않고 증거를 획득하여 컴퓨터 증거가 그 시간에 존재했었음을 증명하고, 증거를 분석한 후 법정에서 증거로 채택하기 위해 문서화할 필요가 있다. 디지털 증거 검색기술은 디지털 포렌식의 핵심기술 중 하나로서 수사관이 제한된 시간 내에 대용량의 저장매체로부터 범죄와 관련된 결정적이거나 연관된 정보를 찾아내는데 있어서 중요하다.
일 양상에 따라, 디지털 포렌식의 분석 정확성을 높이며 검색속도를 단축시키는 인덱스 분석장치와 인덱스 검색장치 및 그 방법을 제안한다.
일 양상에 따른 인덱스 분석장치는, 증거로서 수집된 디지털자료에 대해 가상 드라이브를 생성하는 가상 드라이브 생성부, 생성된 가상 드라이브의 디스크 이미지에 포함된 디지털 자료를 대상으로, 미리 설정된 패턴과의 비교를 통해 일치하는 부분을 찾는 패턴매칭을 이용하여 디지털 자료로부터 인덱스를 추출하는 인덱스 분석부 및 추출된 인덱스를 포함하는 디지털 자료를 저장하는 데이터베이스를 포함한다.
한편 다른 양상에 따른 인덱스 검색장치는, 가상 드라이브의 디스크 이미지에 포함된 디지털 자료를 대상으로 패턴매칭을 이용하여 추출된 인덱스를 수신하고, 수신된 인덱스를 포함하는 디지털자료에 대해 사용자로부터 키 입력된 검색어로 검색을 수행하는 인덱스 검색부를 포함한다.
한편 또 다른 양상에 따른 인덱스 분석방법은, 증거로서 수집된 디지털자료에 대해 가상 드라이브를 생성하는 단계, 생성된 가상 드라이브의 디스크 이미지에 포함된 디지털 자료를 대상으로, 미리 설정된 패턴과의 비교를 통해 일치하는 부분을 찾는 패턴매칭을 이용하여 디지털 자료로부터 인덱스를 추출하는 단계 및 추출된 인덱스를 포함하는 디지털 자료를 저장하는 단계를 포함한다.
한편 또 다른 양상에 따른 인덱스 검색방법은, 가상 드라이브의 디스크 이미지에 포함된 디지털 자료를 대상으로 패턴매칭을 이용하여 추출된 인덱스를 수신하고, 수신된 인덱스를 포함하는 디지털자료에 대해 사용자로부터 키 입력된 검색어로 검색을 수행하는 단계를 포함한다.
전술한 바와 같이 본 발명의 일 실시예에 따르면, 디지털 포렌식을 위한 분석의 정확성을 높이며 검색속도를 단축시킬 수 있다. 즉, 패턴 매칭을 이용한 인덱싱 방식을 통해 디지털 자료의 빠른 분석 및 검색이 가능하고 재현율을 높일 수 있다. 또한 체인 검색을 통해 검색의 정확도를 향상시킬 수 있다.
이하에서는 첨부한 도면을 참조하여 본 발명의 실시예들을 상세히 설명한다. 본 발명을 설명함에 있어 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 또한, 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
본 발명의 실시예 설명에 앞서, 일 실시예에 따른 인덱스 분석장치 및 검색장치는 디지털 포렌식(digital forensic)을 위한 분석 및 검색장치이다. 디지털 포렌식은, 전자 증거물 등을 사법기관에 제출하기 위해 데이터를 수집, 분석하고 검색하는 일련의 작업을 말한다. 이러한 디지털 포렌식을 통해 과거에 얻을 수 없 었던 증거나 단서들을 획득할 수 있다.
또한 일 실시예에 따른 인덱스 분석장치 및 검색장치는, 분석과 검색을 위해 인덱스 방식을 이용한다. 인덱스 방식은 분석 대상이 되는 데이터에 대해 미리 인덱스를 생성한 후 생성된 인덱스를 이용해서 빠른 검색을 수행하는 것으로, 이러한 방법을 사용하면 수 초 이내에 원하는 결과를 얻을 수 있다.
도 1은 본 발명의 일 실시예에 따른 인덱스 분석장치(1)의 구성도이다. 도 1을 참조하면, 일 실시예에 따른 인덱스 분석장치(1)는 가상 드라이브 생성부(10), 인덱스 분석부(12) 및 데이터베이스(14)를 포함하며, 필터링부(16)를 더 포함할 수 있다.
가상 드라이브 생성부(10)는 증거로서 수집된 디지털자료에 대해 가상 드라이브(virtual drive)를 생성한다. 즉, 가상 드라이브 생성부(10)는 증거로서 수집된 포렌식 이미지로부터 가상 드라이브를 생성하여 디스크 이미지(disk image) 내에 포함된 디렉토리들과 파일들에 대한 구조를 사용자에게 제공한다. 그러면, 사용자는 제공된 디렉토리 및 파일들에서 인덱싱 대상을 선택할 수 있다. 가상 드라이브를 생성하는 것은 증거자료인 디지털자료를 손상시키지 않기 위함이며, 디스크 이미지는 수집된 디지털자료 원본을 동일하게 복사한 것이다.
사용자로부터 인덱싱할 디렉토리 및 파일이 선택 입력되면 가상 드라이브 생성부(10)는 선택 입력된 디렉토리 및 파일을 저장장치(하드 드라이브, 메모리 등)에 저장할 수 있다. 또한 가상 드라이브 생성부(10)는 삭제된 파일이나 유실된 파일을 복구할 수도 있다. 이때 가상 드라이브 생성부(10)에 의해 삭제된 파일이나 유실된 파일이 복구되면, 복구된 파일에 포함된 내용들도 인덱싱 대상이 되므로 디지털 포렌식 수사시 검색의 효율성을 향상시킬 수 있다.
한편, 인덱스 분석부(12)는 가상 드라이브 생성부(10)를 통해 생성된 가상 드라이브의 디스크 이미지에 포함된 디지털 자료를 대상으로, 패턴매칭(pattern matching)을 이용하여 디지털 자료로부터 인덱스를 추출한다. 여기서 패턴매칭은 미리 설정된 패턴과의 비교를 통해 일치하는 부분을 찾는 것을 말한다. 예를 들면, 명사사전의 명사와 디지털 자료를 비교하여 디지털 자료에서 일치하는 부분에 해당되는 인덱스를 추출할 수 있다. 또 다른 예로, 문자열 집합으로 나타내어지는 문자들의 패턴인 정규 표현식과 디지털 자료를 비교하여 디지털 자료에서 일치하는 부분에 해당되는 인덱스를 추출할 수도 있다. 인덱스 분석부(12)의 패턴 매칭을 이용한 인덱스 생성에 대한 상세한 설명은 도 2를 참조로 후술한다.
데이터베이스(14)는 추출된 인덱스를 포함하는 디지털 자료를 저장한다. 저장된 디지털 자료는, 도 3 및 도 4에 도시된 인덱스 검색장치(2a,2b)가 검색어를 이용해 검색하기 위한 검색대상이 된다. 여기서, 검색속도를 빠르게 하기 위해 데이터베이스 관리 시스템(database management system,DBMS)을 사용한 데이터베이스를 구축하기 보다는 구조화된 파일 형태로 데이터베이스(14)를 구성할 수 있다.
예를 들면, 비 트리(B tree), 비 플러스 트리(B+ tree), TRIE 등의 알고리즘이 사용될 수 있으나 이에 한정되지 않는다. 비 트리는 다방향 탐색 트리로 대용량의 파일을 효율적으로 검색하고 갱신하기 위해 고안된 트리 형태의 자료구조이다. 비 플러스 트리는 키에 의해서 각각 식별되는 레코드의 효율적인 삽입, 검색 과 삭제를 통해 정렬된 데이터를 표현하기 위한 트리 형태의 자료구조이다. 또한 TRIE는 검색을 의미하는 'reTRIEval' 에서 이름을 만든 구조로 표제어를 구성하는 기본 문자를 포함하는 정점으로 구성된 트리 구조이다.
나아가 데이터베이스(14)는 데이터베이스(14)의 생성속도를 높이고 크기를 줄이기 위해 각 인덱스에 대해 인덱스를 포함하는 문서이름과 빈도수(Hit rate)만을 저장하고, 문서상에서의 인덱스에 대한 위치정보는 저장하지 않을 수 있다. 이 경우, 문서 내에서 인덱스의 위치정보가 필요하면 사용자로부터 재검색 키 입력을 수신하여 문서 내에서의 인덱스의 위치를 식별할 수 있다. 이에 따라 인덱스 검색장치의 효율성을 높일 수 있다.
한편, 필터링부(16)는 가상 드라이브 생성부(10)를 통해 생성된 가상 드라이브의 디스크 이미지에 포함된 디지털 자료를 대상으로 사용자로부터 인덱싱 대상자료를 선택 입력받으면, 선택 입력받은 인덱싱 대상자료에 포함된 텍스트를 추출하여 포맷이 없는 플레인 텍스트(plain text)로 변환한다. 이때, 필터링부(16)는 응용 소프트웨어에 따라 다양한 포맷을 갖는 파일들에 포함된 텍스트를 추출하고 플레인 텍스트로 변환한다. 이러한 기능은 일반문서뿐만 아니라 압축파일, 그림파일, 동영상파일, 음악파일 등에 포함된 메타정보까지도 인덱싱할 수 있도록 한다.
나아가 필터링부(16)는 인덱싱 대상자료가 암호알고리즘을 통해 암호화된 자료이면, 암호를 크래킹할 수 있다. 최근 들어, 사용자들의 보안인식 강화로 중요한 문서에는 응용 프로그램에서 제공하는 암호알고리즘을 통해 암호화되는 경우가 많다. 이렇게 암호화된 문서일수록 포렌식 수사에서 중요도 및 의미가 있는 정보 가 저장되어 있을 확률이 높다. 따라서 필요에 따라 필터링부(16)에는 암호 크래킹 기능이 추가 구현될 수 있다.
도 2는 도 1의 인덱스 분석장치(1)의 인덱스 분석부(12)의 구성도이다. 도 2를 참조하면, 일 실시예에 따른 인덱스 분석부(12)는 명사 분석부(120) 및 정규식 패턴 분석부(122)를 포함하며, N그램 분석부(124)를 더 포함할 수 있다.
명사 분석부(120)는 미리 저장된 명사사전(noun dictionary)의 명사와 디지털 자료를 비교하여, 디지털 자료에서 일치하는 부분에 해당되는 인덱스를 추출한다. 일반 자연어 처리 검색기술과 달리 디지털 포렌식은 동사, 부사, 형용사 등에 대한 분석이 의미가 없거나 검색어 질의가 명사 형태인 경우가 많다. 이에 따라 일 실시예에 따른 명사 분석부(120)는 전체 형태소 분석을 수행하지 않고, 명사 분석 만을 수행함으로써 좀 더 빠르게 인덱스를 추출할 수 있다.
일반적으로 사용되는 분석방식 중 하나인 형태소 분석은 형태소 해석을 위한 규칙이 복잡하고 형태소 해석 결과가 모호하며, 미등록어 처리가 어렵고 비문법적인 어절에서 부정확한 색인어가 추출될 수 있다. 또한 형태소 분석이 각 형태소별로 파싱하고 구문을 분석하기 때문에 시간이 많이 소요된다. 또 다른 분석방식인 단어중심 분석법 역시 검색 질의에 대한 정확한 결과를 제시하기 어렵다. 예를 들어 “형태소는”, “형태소를”, “형태소가” 등의 단어를 각각 다른 단어로 인식하고 인덱싱함으로써 검색 질의어 “형태소”가 입력되었을 때, 예시한 모든 단어를 결과로 제시하지 못하게 된다.
그러나 본 발명의 일 실시예에 따른 명사 분석부(120)는 패턴매칭을 이용한 분석방법을 사용한다. 이를 위해 명사 분석부(120)는 일반적인 형태소 분석에서 사용되는 사전 중 명사사전만을 이용한다. 그리고, 명사사전에 등록된 단어와 대상 파일인 디지털자료에 있는 텍스트를 패턴매칭을 이용해 비교 분석함으로써 인덱스 및 인덱스의 사용 빈도수를 추출할 수 있다. 이러한 방법은 형태소 분석의 장점인 정확성은 그대로 유지하면서 분석속도를 높일 수 있다. 이에 따라 대용량의 많은 포렌식 데이터를 분석할 때 성능 면에서 우수하다.
한편, 정규식 패턴 분석부(122)는 문자열 집합으로 나타내어지는 문자들의 패턴인 정규 표현식(regular expression)과 디지털 자료를 비교하여, 디지털 자료에서 일치하는 부분에 해당되는 인덱스를 추출한다. 정규 표현식은 문자열 집합으로 나타내지는 일종의 문자들의 패턴이다. 이때 정규 표현식은 이메일, 전화번호, 주민번호를 포함하는 데이터를 대상으로 할 수 있으나 이에 한정되지 않는다.
정규식 패턴 분석부(122)의 일 실시예를 들면, 패턴이 주민번호인 경우, 정규 표현식은 [0-9][0-9][0-1][0-9][0-3][0-9]*-*[1-4][0-9][0-9][0-9][0-9][0-9][0-9]으로 표현될 수 있다. 이때 패턴매칭에 사용되는 패턴보드에는 전술한 정규표현식과 일치하는 데이터를 모두 인덱스로 분석하고, 분석된 인덱스의 디지털자료에서의 위치정보를 저장할 수 있다. 이러한 패턴들은 포렌식 수사에 있어 상당히 의미 있는 정보들이지만, 일반적인 인덱스 검색장치는 이러한 패턴들을 인덱싱하는 기능을 지원하지 않는다. 이에 따라, 디지털자료 내에 포함된 이메일, 주민번호, 전화번호 등의 다양한 패턴을 인덱스로 분석하고 이 패턴들의 위치와 빈도수를 추출해 낼 수 있다.
N그램 분석부(124)는 디지털 자료의 텍스트를 N개의 음절 단위로 분할하여 인덱스를 추출한다. N그램(Ngram) 중 하나인 바이그램(Bigram)의 경우는 2개의 음절로 텍스트를 분할하여 인덱스를 구성한다. 예를 들면, “명사를 분석하다”의 경우, “명사”, “사를”, “를분”, “분석”, “석하”, “하다”로 인덱스가 구성될 수 있다. 이러한 방법을 통해 재현율(recall ratio)을 높일 수 있는데, 재현율은 어떤 조건으로 검색되는 정보와 검색되어야 하는 모든 정보의 비율로, 정보검색 시스템의 성능을 평가하는 척도 중 하나이다.
도 3은 본 발명의 일 실시예에 따른 인덱스 검색장치(2a)의 구성도이다. 도 3을 참조하면, 일 실시예에 따른 인덱스 검색장치(2a)는 인덱스 검색부(22)를 포함하며, 검색 전처리부(20) 및 검색 후처리부(24)를 더 포함할 수 있다.
일 실시예에 따른 인덱스 검색장치(2a)는 사용자로부터 키 입력된 검색어로, 인덱스 분석장치(1)에 저장된 인덱스를 포함한 디지털자료를 검색한다. 이를 위해, 인덱스 검색부(22)는 가상 드라이브의 디스크 이미지에 포함된 디지털 자료를 대상으로 패턴매칭을 이용하여 추출된 인덱스를 인덱스 분석장치(1)로부터 수신하고, 수신된 인덱스를 포함하는 디지털자료에 대해 사용자로부터 키 입력된 검색어로 검색을 수행한다.
검색 전처리부(20)는 사용자로부터 키 입력된 검색어에 대해 검색어로 의미가 없는 불용어(stopword)를 제거하고, 인코딩을 변경한다. 불용어는 검색시 검색 용어로 사용하지 않는 단어로 관사, 전치사, 조사, 접속사 등 검색 색인 단어로 의미가 없는 단어이다.
검색 후처리부(24)는 바이그램(bigram)에 의해 추출된 인덱스를 대상으로 검색된 결과에 대해 필터링을 수행함으로써 Garbage를 제거하는 기능을 수행하고 필터링된 검색결과를 출력한다. 이때 출력되는 검색결과에는 검색어가 포함된 각 문서이름과 그 문서 내에서의 빈도수가 포함될 수 있다. 나아가 각 문서에 대해 문자열 검색을 통해 문서 상에서 검색어의 위치를 분석하고 검색어에 식별 가능한 효과, 예를 들면 하이라이트(highlight) 처리를 해서 외부로 출력할 수 있다.
또한 사용자가 ‘주민번호’등과 같은 정규패턴에 대한 검색을 요청한 경우, 도 2에 도시된 정규식 패턴 분석부(122)에 의해 분석된 결과를 이용해 각 문서에서 정규패턴에 일치하는 모든 인덱스와 각 문서 상에서의 이들의 위치를 사용자에게 제공할 수 있다. 이때 해당되는 위치에 식별 가능한 효과, 예를 들면 하이라이트 효과를 주어 사용자에게 제공할 수 있다.
도 4는 본 발명의 다른 실시예에 따른 인덱스 검색장치(2b)의 구성도이다. 도 4를 참조하면, 다른 실시예에 따른 인덱스 검색장치(2b)는 검색 전처리부(20), 인덱스 검색부(22), 검색 후처리부(24), 체인키워드 매핑부(26) 및 포렌식 용어사전(28)을 포함한다.
검색 전처리부(20)는 사용자로부터 키 입력된 검색어에 대해 검색어로 의미가 없는 불용어를 제거하고, 인코딩을 변경한다. 그리고, 인덱스 검색부(22)는 가상 드라이브의 디스크 이미지에 포함된 디지털 자료를 대상으로 패턴매칭을 이용하여 추출된 인덱스를 인덱스 분석장치(1)로부터 수신하고, 수신된 인덱스를 포함하는 디지털자료에 대해 사용자로부터 키 입력된 검색어로 검색을 수행한다. 검색 후처리부(24)는 바이그램(bigram)에 의해 추출된 인덱스를 대상으로 검색된 결과에 대해 필터링을 수행하고 필터링된 검색결과를 출력한다.
한편, 체인키워드 매핑부(26)는 사용자로부터 키 입력된 검색어와 연관된 키워드를 미리 저장된 포렌식 용어사전(28)에서 검색하고, 검색된 키워드와 키 입력된 검색어가 결합된 확장 검색어를 인덱스 검색부(22)로 전송한다. 이때 검색 후처리부(24)는 검색된 결과가 사용자 질의어 외에 체인 키워드를 포함하고 있는지, 빈도수가 어느 정도인지 등을 고려해 우선순위가 높은 순서대로 사용자에게 검색결과를 제시할 수 있다.
포렌식 용어사전(28)은 디지털 포렌식을 위해 포렌식 용어를 정의한 사전이다. 예를 들면 포렌식 용어사전(28)에는 디지털 포렌식과 관련된 전문가들을 대상으로 수행된 설문조사를 통해 획득된 용어, 디지털 포렌식을 수행하는 사용자들을 통해 키 입력된 용어 및 웹 조사를 통해 획득된 용어를 포함할 수 있다. 구체적으로 포렌식 용어사전(28)은 검찰이나 경찰 등 디지털 포렌식을 수행한 경험이 있는 조사관들을 대상으로 설문조사를 수행하여 용어사전을 구축할 수 있다. 또는 포렌식 용어사전(28)은 포렌식을 수행하는 수사관을 통해 직접 편집될 수 있도록 하며, 추가적으로 웹 에이전트를 포함하는 편집수단을 이용해 웹 상에서 자주 사용되는 은어, 약어, 특정단어에 대한 연관 검색어 등을 주기적으로 수집하여 자동 갱신될 수 있다.
체인키워드 매핑부(26)의 확장 검색어를 이용한 검색과정의 일 실시예를 들 수 있다. 체인검색은 사용자로부터 검색어를 키 입력받은 경우, 포렌식 용어사 전(28)을 기반으로 검색어와 연관된 키워드들을 찾고 이를 이용해 검색어를 확장하여 검색을 수행할 수 있다. 예를 들면, 사용자가 “뇌물수수”라는 검색어를 질의했을 때, “계좌번호”, “은행” 등 연관관계에 있는 용어들을 함께 검색해서 결과를 보여주거나, 검색결과 후처리를 통해 검색 결과 내에서 특정 체인 키워드들 많이 포함하고 있는 문서를 검색 결과의 상단에 제시할 수 있다.
도 5는 본 발명의 일 실시예에 따른 인덱스 분석방법을 도시한 흐름도이다.
도 5를 참조하면, 일 실시예에 따른 인덱스 분석장치는 증거로서 수집된 디지털자료에 대해 가상 드라이브를 생성한다(S500). 그리고, 생성된 가상 드라이브의 디스크 이미지에 포함된 디지털 자료를 대상으로, 패턴매칭을 이용하여 디지털 자료로부터 인덱스를 추출한다(S520). 이때 미리 저장된 명사사전의 명사와 디지털 자료를 비교하거나 정규 표현식과 디지털 자료를 비교하여, 디지털 자료에서 일치하는 부분에 해당되는 인덱스를 추출할 수 있다. 이어서, 추출된 인덱스를 포함하는 디지털 자료를 저장한다(S530).
나아가, 가상 드라이브를 생성하는 단계(S500) 및 인덱스를 추출하는 단계(S520) 사이에, 사용자로부터 선택 입력받은 인덱싱 대상자료에 포함된 텍스트를 추출하여 포맷이 없는 플레인 텍스트로 변환하는 단계(S510)를 더 포함할 수 있다.
도 6은 본 발명의 일 실시예에 따른 인덱스 검색방법을 도시한 흐름도이다.
도 6을 참조하면, 일 실시예에 따른 인덱스 검색장치는 가상 드라이브의 디스크 이미지에 포함된 디지털 자료를 대상으로 패턴매칭을 이용하여 추출된 인덱스를 수신하고, 수신된 인덱스를 포함하는 디지털자료에 대해 사용자로부터 키 입력 된 검색어로 검색을 수행한다(S620).
나아가 검색 단계(S620) 전후로 사용자로부터 키 입력된 검색어에 대해 검색어로 의미가 없는 불용어를 제거하고, 인코딩을 변경하는 단계(S600) 및 바이그램(bigram)에 의해 추출된 인덱스를 대상으로 검색된 결과에 대해 필터링을 수행하고 필터링된 결과를 출력하는 단계(S630)를 더 포함할 수 있다.
나아가, 검색 단계(S620) 이전에 사용자로부터 키 입력된 검색어와 연관된 키워드를 미리 저장된 포렌식 용어사전에서 검색하여 검색된 키워드와 키 입력된 검색어가 결합된 확장 검색어를 생성하는 단계(S610)를 더 포함할 수 있다.
요약하면, 본 발명의 일 실시예에 따른 인덱스 분석장치 및 검색장치는 디지털 포렌식을 위한 분석의 정확성을 높이며 검색속도를 단축시킬 수 있다. 즉, 패턴 매칭을 이용한 인덱싱 방식을 통해 디지털 자료의 빠른 분석 및 검색이 가능하고 재현율을 높일 수 있다. 또한 체인 검색을 통해 검색의 정확도를 향상시킬 수 있다.
이제까지 본 발명에 대하여 그 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.
도 1은 본 발명의 일 실시예에 따른 인덱스 분석장치의 구성도,
도 2는 도 1의 인덱스 분석장치의 인덱스 분석부의 구성도,
도 3은 본 발명의 일 실시예에 따른 인덱스 검색장치의 구성도,
도 4는 본 발명의 다른 실시예에 따른 인덱스 검색장치의 구성도,
도 5는 본 발명의 일 실시예에 따른 인덱스 분석방법을 도시한 흐름도,
도 6은 본 발명의 일 실시예에 따른 인덱스 검색방법을 도시한 흐름도이다.
<도면의 주요부분에 대한 부호의 설명>
1 : 인덱스 분석장치 2a, 2b : 인덱스 검색장치
10 : 가상 드라이브 생성부 12 : 인덱스 분석부
14 : 데이터베이스 16 : 필터링부
20 : 검색 전처리부 22 : 인덱스 검색부
24 : 검색 후처리부 26 : 체인키워드 매핑부
28 : 포렌식 용어사전 120 : 명사 분석부
122 : 정규식 패턴 분석부 124 : N그램 분석부

Claims (16)

  1. 증거로서 수집된 텍스트 문서를 포함하는 디지털자료에 대해 가상 드라이브를 생성하는 가상 드라이브 생성부;
    상기 생성된 가상 드라이브의 디스크 이미지에 포함된 디지털 자료를 대상으로, 미리 설정된 패턴과의 비교를 통해 일치하는 부분을 찾는 패턴매칭을 이용하여 상기 디지털 자료로부터 인덱스어를 추출하는 인덱스 분석부; 및
    상기 추출된 인덱스어를 포함하는 디지털 자료를 저장하는 데이터베이스를 포함하는 것을 특징으로 하는 인덱스 분석장치.
  2. 제 1 항에 있어서, 상기 인덱스 분석부는,
    미리 저장된 명사사전의 명사와 상기 디지털 자료를 비교하여, 상기 디지털 자료에서 일치하는 부분에 해당되는 인덱스를 추출하는 명사 분석부; 및
    문자열 집합으로 나타내어지는 문자들의 패턴인 정규 표현식과 상기 디지털 자료를 비교하여, 상기 디지털 자료에서 일치하는 부분에 해당되는 인덱스를 추출하는 정규식 패턴 분석부를 포함하는 것을 특징으로 하는 인덱스 분석장치.
  3. 제 2 항에 있어서, 상기 인덱스 분석부는,
    상기 디지털 자료의 텍스트를 N개의 음절 단위로 분할하여 인덱스를 추출하는 N그램 분석부를 더 포함하는 것을 특징으로 하는 인덱스 분석장치.
  4. 제 2 항에 있어서,
    상기 정규식 패턴 분석부가 비교하는 정규 표현식은, 이메일, 전화번호, 주민번호를 포함하는 데이터를 대상으로 한 문자 패턴인 것을 특징으로 하는 인덱스 분석장치.
  5. 제 1 항에 있어서, 상기 인덱스 분석부는,
    상기 디지털 자료에서 상기 추출된 인덱스가 포함된 파일과 상기 추출된 인덱스의 출현 빈도수 및 상기 추출된 인덱스의 위치를 분석하는 것을 특징으로 하는 인덱스 분석장치.
  6. 제 1 항에 있어서, 상기 가상 드라이브 생성부는,
    상기 가상 드라이브의 디스크 이미지에서 삭제되거나 유실된 파일을 복구하는 것을 특징으로 하는 인덱스 분석장치.
  7. 제 1 항에 있어서,
    상기 생성된 가상 드라이브의 디스크 이미지에 포함된 디지털 자료를 대상으로 사용자로부터 인덱싱 대상자료를 선택 입력받으면, 상기 선택 입력받은 인덱싱 대상자료에 포함된 텍스트를 추출하여 포맷이 없는 플레인 텍스트로 변환하는 필터링부를 더 포함하는 것을 특징으로 하는 인덱스 분석장치.
  8. 제 7 항에 있어서, 상기 필터링부는,
    상기 인덱싱 대상자료가 암호알고리즘을 통해 암호화된 자료이면 암호를 크래킹하는 것을 특징으로 하는 인덱스 분석장치.
  9. 가상 드라이브의 디스크 이미지에 포함된 텍스트 문서를 포함하는 디지털 자료를 대상으로 패턴매칭을 이용하여 추출된 인덱스어를 수신하고, 상기 수신된 인덱스어를 포함하는 디지털자료에 대해 사용자로부터 키 입력된 검색어로 검색을 수행하는 인덱스 검색부를 포함하는 것을 특징으로 하는 인덱스 검색장치.
  10. 제 9 항에 있어서,
    상기 사용자로부터 키 입력된 검색어에 대해 검색어로 의미가 없는 불용어(stopword)를 제거하고, 인코딩을 변경하는 검색 전처리부; 및
    상기 인덱스 검색부를 통해 검색된 디지털 자료 중 바이그램 인덱스를 대상으로 검색된 디지털 자료를 필터링하고 상기 필터링된 검색결과를 출력하는 검색 후처리부를 더 포함하는 것을 특징으로 하는 인덱스 검색장치.
  11. 제 9 항에 있어서,
    상기 사용자로부터 키 입력된 검색어와 연관된 키워드를 미리 저장된 포렌식 용어사전에서 검색하고, 검색된 키워드와 상기 키 입력된 검색어가 결합된 확장 검 색어를 생성하여 상기 인덱스 검색부로 전송하는 체인키워드 매핑부를 더 포함하는 것을 특징으로 하는 인덱스 검색장치.
  12. 제 11 항에 있어서,
    상기 포렌식 용어사전은, 디지털 포렌식과 관련된 전문가들을 대상으로 수행된 설문조사를 통해 획득된 용어와 상기 디지털 포렌식을 수행하는 사용자들을 통해 키 입력된 용어 및 웹 조사를 통해 획득된 용어 중 적어도 하나를 포함하는 것을 특징으로 하는 인덱스 검색장치.
  13. 제 1 항에 있어서,
    상기 가상 드라이브는 상기 디지털자료를 손상시키지 않기 위한 것으로, 상기 가상 드라이브의 디스크 이미지는 상기 디지털자료 원본을 동일하게 복사한 것인 것을 특징으로 하는 인덱스 분석장치.
  14. 삭제
  15. 삭제
  16. 삭제
KR1020080130678A 2008-12-19 2008-12-19 인덱스 분석장치와 인덱스 검색장치 및 그 방법 KR101174057B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020080130678A KR101174057B1 (ko) 2008-12-19 2008-12-19 인덱스 분석장치와 인덱스 검색장치 및 그 방법
US12/580,714 US20100161615A1 (en) 2008-12-19 2009-10-16 Index anaysis apparatus and method and index search apparatus and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020080130678A KR101174057B1 (ko) 2008-12-19 2008-12-19 인덱스 분석장치와 인덱스 검색장치 및 그 방법

Publications (2)

Publication Number Publication Date
KR20100071829A KR20100071829A (ko) 2010-06-29
KR101174057B1 true KR101174057B1 (ko) 2012-08-16

Family

ID=42267567

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020080130678A KR101174057B1 (ko) 2008-12-19 2008-12-19 인덱스 분석장치와 인덱스 검색장치 및 그 방법

Country Status (2)

Country Link
US (1) US20100161615A1 (ko)
KR (1) KR101174057B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210065750A (ko) 2019-11-27 2021-06-04 삼성에스디에스 주식회사 검색 장치 및 방법
KR20220077845A (ko) 2020-12-02 2022-06-09 한양대학교 에리카산학협력단 디지털포렌식 데이터베이스 구축 시스템 및 그 방법

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20130049111A (ko) * 2011-11-03 2013-05-13 한국전자통신연구원 분산 처리를 이용한 포렌식 인덱스 방법 및 장치
CN103678405B (zh) * 2012-09-21 2016-12-21 阿里巴巴集团控股有限公司 邮件索引建立方法及***、邮件搜索方法及***
US9471715B2 (en) * 2013-03-31 2016-10-18 International Business Machines Corporation Accelerated regular expression evaluation using positional information
US9996569B2 (en) * 2015-03-18 2018-06-12 International Business Machines Corporation Index traversals utilizing alternate in-memory search structure and system memory costing
CN107203542A (zh) * 2016-03-17 2017-09-26 阿里巴巴集团控股有限公司 词组提取方法及装置
EP3443484A4 (en) * 2016-04-13 2019-10-09 Cosentino, Nicholas Bruce Alexander SYSTEMS AND METHODS OF COLLECTING DIGITAL FORENSIC EVIDENCE
US10430512B1 (en) * 2018-05-24 2019-10-01 Slack Technologies, Inc. Methods, apparatuses and computer program products for formatting messages in a messaging user interface within a group-based communication system

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5694546A (en) * 1994-05-31 1997-12-02 Reisman; Richard R. System for automatic unattended electronic information transport between a server and a client by a vendor provided transport software with a manifest list
US6192471B1 (en) * 1996-01-26 2001-02-20 Dell Usa, Lp Operating system independent system for running utility programs in a defined environment
US6874139B2 (en) * 2000-05-15 2005-03-29 Interfuse Technology Corporation Method and system for seamless integration of preprocessing and postprocessing functions with an existing application program
EP1349076A1 (en) * 2001-01-05 2003-10-01 Media Vision Incorporated Method for regenerating partition using virtual drive, data processor and data storage device
US8874431B2 (en) * 2001-03-16 2014-10-28 Meaningful Machines Llc Knowledge system method and apparatus
US6792545B2 (en) * 2002-06-20 2004-09-14 Guidance Software, Inc. Enterprise computer investigation system
US20040260876A1 (en) * 2003-04-08 2004-12-23 Sanjiv N. Singh, A Professional Law Corporation System and method for a multiple user interface real time chronology generation/data processing mechanism to conduct litigation, pre-litigation, and related investigational activities
US7082425B2 (en) * 2003-06-10 2006-07-25 Logicube Real-time searching of data in a data stream
JP2005352888A (ja) * 2004-06-11 2005-12-22 Hitachi Ltd 表記揺れ対応辞書作成システム
JPWO2006030509A1 (ja) * 2004-09-16 2008-05-08 富士通株式会社 画像検索装置、画像検索方法、画像作成装置、画像作成方法、プログラム
US7693829B1 (en) * 2005-04-25 2010-04-06 Google Inc. Search engine with fill-the-blanks capability
US8553084B2 (en) * 2005-09-12 2013-10-08 3Vr Security, Inc. Specifying search criteria for searching video data
US7603344B2 (en) * 2005-10-19 2009-10-13 Advanced Digital Forensic Solutions, Inc. Methods for searching forensic data
US7640323B2 (en) * 2005-12-06 2009-12-29 David Sun Forensics tool for examination and recovery of computer data
US7644138B2 (en) * 2005-12-06 2010-01-05 David Sun Forensics tool for examination and recovery and computer data
US7787030B2 (en) * 2005-12-16 2010-08-31 The Research Foundation Of State University Of New York Method and apparatus for identifying an imaging device
US20070174246A1 (en) * 2006-01-25 2007-07-26 Sigurdsson Johann T Multiple client search method and system
US8417568B2 (en) * 2006-02-15 2013-04-09 Microsoft Corporation Generation of contextual image-containing advertisements
WO2007138599A2 (en) * 2006-05-31 2007-12-06 Storwize Ltd. Method and system for transformation of logical data objects for storage
KR100846500B1 (ko) * 2006-11-08 2008-07-17 삼성전자주식회사 확장된 가보 웨이브렛 특징 들을 이용한 얼굴 인식 방법 및장치
KR100932537B1 (ko) * 2007-11-26 2009-12-17 한국전자통신연구원 이미지 필터를 이용한 포렌식 증거 분석 시스템 및 방법
US8312023B2 (en) * 2007-12-21 2012-11-13 Georgetown University Automated forensic document signatures
US8380692B2 (en) * 2008-01-25 2013-02-19 Nuance Communications, Inc. Fast index with supplemental store
US8358837B2 (en) * 2008-05-01 2013-01-22 Yahoo! Inc. Apparatus and methods for detecting adult videos
US8656095B2 (en) * 2010-02-02 2014-02-18 Cylance, Inc. Digital forensic acquisition kit and methods of use thereof

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210065750A (ko) 2019-11-27 2021-06-04 삼성에스디에스 주식회사 검색 장치 및 방법
KR20220077845A (ko) 2020-12-02 2022-06-09 한양대학교 에리카산학협력단 디지털포렌식 데이터베이스 구축 시스템 및 그 방법

Also Published As

Publication number Publication date
KR20100071829A (ko) 2010-06-29
US20100161615A1 (en) 2010-06-24

Similar Documents

Publication Publication Date Title
KR101174057B1 (ko) 인덱스 분석장치와 인덱스 검색장치 및 그 방법
KR101122942B1 (ko) 단어-분해에 사용하기 위한 새로운 단어 수집 방법 및 시스템
US7272558B1 (en) Speech recognition training method for audio and video file indexing on a search engine
US10445359B2 (en) Method and system for classifying media content
US7783476B2 (en) Word extraction method and system for use in word-breaking using statistical information
JP6461980B2 (ja) 検索結果におけるコヒーレントな質問回答
US20110264997A1 (en) Scalable Incremental Semantic Entity and Relatedness Extraction from Unstructured Text
CN107844493B (zh) 一种文件关联方法及***
US20120317125A1 (en) Method and apparatus for identifier retrieval
US20070112839A1 (en) Method and system for expansion of structured keyword vocabulary
Knees et al. Towards semantic music information extraction from the web using rule patterns and supervised learning
JP2008117351A (ja) 検索システム
KR101008877B1 (ko) 디지털 포렌식에서의 검색 및 검색 결과를 제시하는 방법, 그리고 그 장치
Gong et al. Web image indexing by using associated texts
JP2007133682A (ja) 全文検索システム、及び、その全文検索方法
KR100659370B1 (ko) 시소러스 매칭에 의한 문서 db 형성 방법 및 정보검색방법
Jadalla et al. A fingerprinting-based plagiarism detection system for Arabic text-based documents
EP1876539A1 (en) Method and system for classifying media content
JP2009282903A (ja) 知識抽出・検索装置およびその方法
JP2011159100A (ja) 逐次類似文書検索装置、逐次類似文書検索方法およびプログラム
KR20200122089A (ko) 지역 색인을 이용한 전자문서 검색 방법 및 장치
JP4384736B2 (ja) 画像検索装置およびその装置の各手段としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
KR20130062667A (ko) 속성 정보를 이용한 파일 검색 장치 및 방법
JPH10177575A (ja) 語句抽出装置および方法、情報記憶媒体
JP2007233724A (ja) 文書検索システム、その方法及びプログラム

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee