KR101054107B1 - 이미지 특성정보를 이용한 개인정보 노출 검색 시스템 - Google Patents

이미지 특성정보를 이용한 개인정보 노출 검색 시스템 Download PDF

Info

Publication number
KR101054107B1
KR101054107B1 KR1020110026778A KR20110026778A KR101054107B1 KR 101054107 B1 KR101054107 B1 KR 101054107B1 KR 1020110026778 A KR1020110026778 A KR 1020110026778A KR 20110026778 A KR20110026778 A KR 20110026778A KR 101054107 B1 KR101054107 B1 KR 101054107B1
Authority
KR
South Korea
Prior art keywords
image
personal information
vector
feature
information
Prior art date
Application number
KR1020110026778A
Other languages
English (en)
Inventor
이강신
이기호
하태균
최진영
김종배
Original Assignee
한국인터넷진흥원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국인터넷진흥원 filed Critical 한국인터넷진흥원
Priority to KR1020110026778A priority Critical patent/KR101054107B1/ko
Application granted granted Critical
Publication of KR101054107B1 publication Critical patent/KR101054107B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Algebra (AREA)
  • Computational Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

인터넷 상에 게재된 이미지를 수집하여 이미지가 개인정보를 포함하는지 여부를 판단하되, 개인정보 이미지 및 일반 이미지들의 특성으로 구성된 샘플벡터와 수집된 이미지의 특성벡터를 매칭시켜 판단하는 개인정보 노출 검색 시스템에 관한 것으로서, 제1 및 제2 샘플벡터 그룹을 구성하여 저장하되, 제1 샘플벡터 그룹은 다수의 개인정보 이미지들의 특성벡터로 구성되고, 제2 샘플벡터 그룹은 다수의 일반 이미지들의 특성벡터로 구성되는 샘플벡터 저장부; 인터넷 상에 게재된 이미지(이하 질의 이미지)를 수집하는 이미지 수집부; 질의 이미지의 특성(feature)들을 계산하여 특성벡터를 구성하는 특성벡터 구성부; 질의 이미지의 특성벡터(이하 대상 벡터)와 제1 및 제2 샘플벡터 그룹의 특성벡터(이하 샘플 벡터)들과 매칭시켜, 2개의 그룹 중 어느 그룹에 더 매칭되는지를 판단하는 이미지 매칭부; 및, 매칭의 판단 결과에 따라 질의 이미지가 개인정보 이미지인지를 판단하는 이미지 판단부를 포함하는 구성을 마련한다.
상기와 같은 시스템에 의하여, 인터넷 상에 유포되고 있는 실제 이미지를 샘플링하여 이들과의 매칭여부로 판단하되, 다수의 이미지 특성정보와 다수의 이미지 분류기를 이용함으로써, 인터넷 상에 존재하는 수많은 이미지파일들 중에서 개인정보가 포함된 개인식별용 이미지파일들을 검색하여 보다 강건하게 분류할 수 있다.

Description

이미지 특성정보를 이용한 개인정보 노출 검색 시스템 { A System for Exposure Retrieval of Personal Information Using Image Features }
본 발명은 인터넷 상에 게재된 이미지를 수집하여 이미지가 개인정보를 포함하는지 여부를 판단하는 개인정보 노출 검색 시스템에 관한 것이다.
최근 인터넷을 통해 홈쇼핑, 홈뱅킹, 교통편 예약 등 다양한 정보 서비스를 자신이 원하는 곳에서 제공받을 수 있게 되었다. 이러한 배경에는 급격한 정보통신 기술의 발전으로 인한 인터넷의 확산에 기인할 수 있다. 정보통신 기술의 급격한 발전으로 말미암아 개인용 컴퓨터의 성능이 더욱 강력하게 진보하고 있으며 이를 활용한 다양한 서비스 산업들이 급격히 성장하고 있다. 더구나 인터넷 보급에 따라 누구나 인터넷을 이용한 사이버 공간상에서 정보의 상호 교환, 전자상거래, 인터넷 뱅킹 등의 사회 활동이 컴퓨터를 통해 편리하게 활용하고 있다.
하지만, 사이버 공간 상에서 활발한 정보의 상호 교환으로 인해 자신의 비밀 정보를 알려야만 하는 경우가 있다. 예를 들어 신용카드번호, 전과, 병력, 자격증, 주민등록번호, 여권 번호, 학력 등과 같은 비밀 정보들을 남에게 알려주고 싶은 인터넷 사용자는 없을 것이 자명한 일이다.
그러나 아이러니하게도 수많은 개인의 비밀 정보들이 사이버 공간상에 존재하고 있는 것이 사실이다. 그 이유는 사용자의 비밀스러운 정보들이 개인 컴퓨터상에 입력하여 편리하게 사용함에 있다. 또한 인터넷을 통해 메일로 전송하거나, 웹 하드에 개인정보가 저장된 파일을 업로드하거나, 게시판에 무심코 게시하거나 바이러스 혹은 해킹에 의해 인터넷 상으로 유출됨으로써 불특정 다수가 노출된 개인정보를 식별할 수 있다. 즉, 인터넷의 급속한 확산으로 인해 우리 사회에 많은 순기능을 가져다 준 반면에 이러한 정보화에 따른 역기능으로 말미암아 프라이버시 침해, 문화 지체 (cultural lag), 정보 불평등과 정보격차 (digital divide) 등으로 인한 사회 전반에 인터넷 상에 노출된 개인정보의 시급한 노출 억제 및 대응책이 필요하게 되었다.
개인의 프라이버시 침해의 경우는 개인에 대한 비밀스러운 정보가 전자적인 매체로 표현됨으로써 큰 이슈로 부각되고 있다. 전자적인 매체로 표현된 개인 정보들에는 주민등록증, 여권, 신상기록부, 학력증명서, 병력증명서, 의료기록사본, 통지서 등 다양한 개인정보들이 텍스트(text) 혹은 이미지 형태로 인터넷 상에 존재하고 있다. 그 이유는 개인정보들이 전자적인 매체로 표현됨으로써 자료의 빠른 분류, 처리, 검색이 용이하다는 기술적인 효율성에 근거하여 공공기관, 의료기관, 교육기관, 금융기관 등에서 요구하고 있는 실정이다.
이에 따라 개인용 컴퓨터 사용자들은 주민등록증, 여권, 사진, 학력증명서, 운전면허증 등과 같은 민감한 개인의 정보가 포함된 자료들을 이미지화하여 메일 혹은 지정된 경로의 업로드를 통해 여과 없이 전송하고 있다. 그나마 주민등록증에 대한 중요성을 인식하고 있어 다소 노출이 적은편이나 자격증, 면허증, 졸업 및 학력 증명서, 각종 공공요금 고지서등은 인터넷을 통해 빈번히 노출되고 있는 실정이다. 물론 이러한 개인정보들은 인터넷을 통해 사용함으로써 사용자 개인을 식별하기 위한 중요한 수단으로 사용됨으로 그 사회적인 이익이 큰 것은 사실이다. 하지만 노출된 개인정보로 말미암아 사회적인 역기능을 가져다줌으로써 개인정보 노출을 미연에 방지하거나 차단할 수 있는 방안이 요구되고 있다.
한 연구에 의하면, 특정 검색 사이트의 데이터베이스에 접속하여 주민등록번호 노출 상황을 점검한 결과 약 90만 명의 주민등록번호가 인터넷 상에 존재하고, 주민등록번호 전부가 노출된 경우는 약 9만 5천여 명이고, 주민등록번호 앞자리 6자리가 노출된 경우는 80만 8천여 명에 이른다고 발표하였다.
이러한 문제점을 해결하고자, 인터넷 상에서 노출되는 개인정보, 주민등록번호, 신용카드번호, 계좌번호, 운전면허번호 등을 신속하게 검색하여 검증하고 삭제 조치 등 대응을 할 수 있는 "개인정보 노출 대응시스템"을 구축하여 운영하고 있다.
종래의 개인정보 노출 대응 시스템의 역할은 웹 사이트에 노출된 개인정보를 검색하여 검증, 개인정보 노출 삭제 현황 관리 및 삭제 지원, 개인정보 노출 원인 분석 및 노출 감소 종합대책 연구, 국내 개인정보 삭제 및 정보 공유를 위한 핫라인 운영, 국외에 노출된 개인정보 삭제 협력을 수행한다. 즉, 개인정보 노출 대응 시스템은 웹사이트의 페이지들을 검색하여 웹 자원에서 정확하게 개인정보 노출 사실을 추출하기 위해 개인정보 유효성을 적용하고 위협지수, 사실지수를 산정하여 노출 위협수준을 측정하는데 사용한다.
하지만, 개인정보 노출대응 시스템 구축 및 운영을 통하여 인터넷 상에 노출된 개인정보 검색 및 삭제로 개인정보 노출로 인한 오/남용 최소화에 기여 하였으나, 이미지파일 (JPG, BMP 등) 상의 개인정보 (주민번호, 카드번호 등) 노출에 대한 검색이 이루어지고 있지 않은 문제점을 가지고 있다.
이러한 문제점을 해결하기 위해서는 인터넷 상에 존재하는 수많은 이미지파일들 중에서 개인정보가 포함된 개인식별용 이미지파일들을 검색하여 분류하기 위한 방안이 필요하다.
즉, 웹 페이지 상에는 다양한 형태의 이미지 파일이 존재하는데, 특히, 개인정보가 포함된 이미지의 경우는 주민등록증에서부터 학생증까지 다양한 형태의 개인을 식별할 수 있는 정보들이 이미지 파일형태로 존재하고 있다. 일례로서, 도 1과 같은 개인식별용 신분증을 검색대상으로 정할 수 있다.
도 1과 같은 유형의 신분증들은 개인식별을 위한 목적으로 제작되었기 때문에 성명과 주민등록번호가 필수적으로 포함되어 있고 또한 신용카드 번호 혹은 운전 면허번호와 같은 정보가 포함되어 있다. 결국 성명과 주민등록번호 검색 및 인식이 필요하다. 하지만 과거부터 많은 문자 인식 연구를 통해 다양한 방법들이 개발되어 왔으나, 주민등록증과 같은 다양한 칼라 및 배경 무늬 상에 존재하는 문자 인식은 그 인식도가 상당히 떨어지는 것이 사실이다.
따라서 개인정보가 포함된 이미지로부터 개인정보를 인식하기 전에, 우선 수행되어할 것은 웹 페이지 상에 존재는 이미지 파일들 중에서 개인정보가 포함되어 있는 파일을 검색하고 분류하는 것이 필요하다.
본 발명의 목적은 상술한 바와 같은 문제점을 해결하기 위한 것으로, 인터넷 상에 게재된 이미지를 수집하여 이미지가 개인정보를 포함하는지 여부를 판단하되, 개인정보 이미지 및 일반 이미지들의 특성으로 구성된 샘플벡터와 수집된 이미지의 특성벡터를 매칭시켜 판단하는 개인정보 노출 검색 시스템을 제공하는 것이다.
또한, 본 발명의 목적은 다수의 이미지 특성에 대하여 개별적으로 성능평가를 실시하여 우수한 성능을 가진 특성들을 추출하여, 추출된 특성들만을 이용하여 특성벡터로 구성하고 매칭하는 개인정보 노출 검색 시스템을 제공하는 것이다.
또한, 본 발명의 목적은 하나의 이미지의 분류를 서로 다른 다수의 이미지 분류기에 적용하여, 개인정보가 포함된 이미지로 분류하는 분류기의 개수에 따라 최종적으로 이미지를 분류하는 개인정보 노출 검색 시스템을 제공하는 것이다.
상기 목적을 달성하기 위해 본 발명은 인터넷 상에 게재된 이미지를 수집하여 상기 이미지가 개인정보를 포함하는지 여부를 판단하는 개인정보 노출 검색 시스템에 관한 것으로서, 제1 및 제2 샘플벡터 그룹을 구성하여 저장하되, 상기 제1 샘플벡터 그룹은 다수의 개인정보 이미지들의 특성벡터로 구성되고, 상기 제2 샘플벡터 그룹은 다수의 일반 이미지들의 특성벡터로 구성되는 샘플벡터 저장부; 인터넷 상에 게재된 이미지(이하 질의 이미지)를 수집하는 이미지 수집부; 상기 질의 이미지의 특성(feature)들을 계산하여 특성벡터를 구성하는 특성벡터 구성부; 상기 질의 이미지의 특성벡터(이하 대상 벡터)와 상기 제1 및 제2 샘플벡터 그룹의 특성벡터(이하 샘플 벡터)들과 매칭시켜, 2개의 그룹 중 어느 그룹에 더 매칭되는지를 판단하는 이미지 매칭부; 및, 매칭의 판단 결과에 따라 상기 질의 이미지가 개인정보 이미지인지를 판단하는 이미지 판단부를 포함하는 것을 특징으로 한다.
또, 본 발명은 개인정보 노출 검색 시스템에 있어서, 상기 이미지 매칭부는 적어도 2개의 이미지 분류기를 이용하여 어느 그룹에 더 매칭되는지를 판단하고, 상기 이미지 판단부는 상기 질의 이미지의 특성벡터가 제1 샘플벡터 그룹에 더 매칭되는 것으로 판단하는 이미지 분류기의 개수에 의해, 상기 질의 이미지의 개인정보 이미지 여부를 판단하는 것을 특징으로 한다.
또, 본 발명은 개인정보 노출 검색 시스템에 있어서, 상기 시스템은, 상기 특성벡터의 각 특성에 대하여 개별적으로 성능평가를 수행하여 통과된 특성들을 추출하고, 상기 제1 및 제2 샘플벡터 그룹의 특성벡터들을 추출된 특성들로만 재구성하는 샘플벡터 재구성부를 더 포함하고, 상기 특성벡터 구성부 및 상기 이미지 매칭부는 재구성된 특성벡터를 이용하는 것을 특징으로 한다.
또, 본 발명은 개인정보 노출 검색 시스템에 있어서, 상기 성능평가는 재현율(recall rate), 긍정오류율(false positive rate), 및, 부정오류율(false negative rate)을 이용하는 것을 특징으로 한다.
또, 본 발명은 개인정보 노출 검색 시스템에 있어서, 상기 특성의 재현율(recall rate)이 제1 기준율 이상이고 상기 특성의 긍정오류율(false positive rate), 또는, 부정오류율(false negative rate)이 제2 기준율 이하이면, 상기 특성이 상기 성능평가에서 통과되는 것을 특징으로 한다.
또, 본 발명은 개인정보 노출 검색 시스템에 있어서, 상기 성능평가는 상기 제1 및 제2 샘플벡터 그룹의 특성벡터들을 테스트 그룹으로 평가되는 것을 특징으로 한다.
또, 본 발명은 개인정보 노출 검색 시스템에 있어서, 상기 추출된 특성은 그레이 콘트래스트(Gray Contrast), 평균 강도(Intensity), 칼라 모멘트(Moments), 픽셀값의 자기상관도(Autocorrelation), 픽셀값의 상관도(Correlation), 클러스터 쉐이드(Cluster Shade), 비유사성(Dissimilarity),색상 에너지(Energy), 색상 엔트로피(Entropy), 동질성(Homogeneity), 분산도(Variance), 합계 평균(Sum average), 합계 분산(Sum variance), 색상차 분산(Difference variance), 색상차 엔트로피(Difference entropy), 정규화 역차분(INN, Inverse difference normalized), 정규화 역차분 모멘트, 제3 모멘트(Third Moments), 불변 모멘트(Invariant Moments) 중 어느 하나 이상인 것을 특징으로 한다.
또, 본 발명은 개인정보 노출 검색 시스템에 있어서, 상기 이미지 매칭부는 상기 대상 벡터와 상기 샘플 벡터 간의 유사성을 평가하여 유사성이 가장 큰 샘플 벡터를 추출하고, 추출된 샘플벡터가 속하는 샘플벡터 그룹에, 상기 대상벡터가 매칭되는 것으로 판단하는 것을 특징으로 한다.
또, 본 발명은 개인정보 노출 검색 시스템에 있어서, 상기 이미지 매칭부는 상기 유사성을 유클리디안 거리(Euclidean Distance)로 계산하는 것을 특징으로 한다.
또, 본 발명은 개인정보 노출 검색 시스템에 있어서, 상기 이미지 분류기는 히스토그램 기반의 분류기, 특성정보 매칭 기반의 분류기, PCA 기반의 분류기, 학습기반(Support Vector Machine) 기반의 분류기 중 어느 하나 이상을 포함하는 것을 특징으로 한다.
상술한 바와 같이, 본 발명에 따른 개인정보 노출 검색 시스템에 의하면, 인터넷 상에 유포되고 있는 실제 이미지를 샘플링하여 이들과의 매칭여부로 판단함으로써, 인터넷 등의 환경에 보다 적절한 분류를 수행할 수 있는 효과가 얻어진다.
또한, 본 발명에 따른 개인정보 노출 검색 시스템에 의하면, 다수의 이미지 특성정보에 대하여 개별적으로 성능평가를 수행하여 우수한 성능의 특성정보만을 이용함으로써, 분류의 효율을 저하시키지 않으면서 특성벡터의 차원을 줄여 연산속도를 높일 수 있는 효과가 얻어진다.
또한, 본 발명에 따른 개인정보 노출 검색 시스템에 의하면, 이미지 특성정보를 이용한 분류를 서로 다른 다수의 이미지 분류기에 모두 적용함으로써, 다양한 각도에서 분류를 시도하여 보다 강건하게 분류할 수 있는 효과가 얻어진다.
도 1은 일반적인 개인정보 이미지에 포함되는 개인정보를 도시한 표이다.
도 2는 본 발명을 실시하기 위한 전체 시스템 구성의 일례를 도시한 도면이다.
도 3은 본 발명의 일실시예에 따른 개인정보 노출 검색 방법을 설명하는 흐름도이다.
도 4는 본 발명의 일실시예에 따른 개인정보 노출 검색 시스템의 구성에 대한 블록도이다.
도 5는 본 발명의 일실시예에 따른 이미지의 특성정보를 표시한 표이다.
도 6은 본 발명에 따라 사용된 개인정보 이미지의 일례들을 도시한 것이다.
도 7은 본 발명의 일실시예에 따른 개인정보 vs 일반 이미지들의 색상 히스토그램 결과를 도시한 것이다.
도 8은 본 발명의 일실시예에 따른 개인정보 vs. 일반 이미지 파일들의 특징 비교 분석 결과를 도시한 것이다.
도 9는 본 발명의 일실시예에 따른 이미지의 특성정보의 성능평가 결과를 표시한 표이다.
도 10은 본 발명의 일실시예에 따른 색상 히스토그램의 성능평가 결과를 표시한 표이다.
도 11은 본 발명의 일실시예에 따른 특성정보 매칭 분류 결과를 비트로 표시한 표이다.
도 12는 본 발명의 일실시예에 따른 학습기반(Support Vector Machine) 기반의 분류기에 의한 샘플벡터의 학습방법을 도시한 것이다.
도 13은 본 발명의 일실시예에 따른 학습기반(Support Vector Machine) 학습을 위한 파라미터를 도시한 표이다.
* 도면의 주요 부분에 대한 부호의 설명 *
10 : 웹사이트 20 : 네트워크
30 : 개인정보 노출 검색 시스템 31 : 샘플벡터 저장부
32 : 이미지 수집부 33 : 특성벡터 구성부
34 : 이미지 매칭부 35 : 이미지 판단부
36 : 샘플벡터 재구성부 40 : 데이터베이스
41 : 샘플벡터DB 42 : 이미지DB
43 : 특성벡터DB
이하, 본 발명의 실시를 위한 구체적인 내용을 도면에 따라서 설명한다.
또한, 본 발명을 설명하는데 있어서 동일 부분은 동일 부호를 붙이고, 그 반복 설명은 생략한다.
먼저, 본 발명을 실시하기 위한 전체 시스템의 구성의 예들에 대하여 도 2를 참조하여 설명한다. 본 발명에 따른 개인정보 노출검색 시스템은 도 2a에서와 같은 네트워크 상의 시스템 또는 도 2b와 같은 단일 시스템 내에서 구현될 수 있다.
도 2a에서 보는 바와 같이, 본 발명을 실시하기 위한 전체 시스템의 일례는 다수의 웹사이트(10), 개인정보 노출검색 시스템(30)(이하 노출검색 시스템)으로 구성된다. 웹사이트(10), 및 노출검색 시스템(30)은 모두 인터넷(20) 상에 연결되어 있다. 또, 필요한 데이터를 저장하기 위한 데이터베이스(40)도 포함할 수 있다.
웹사이트(10)는 인터넷(20) 상에서 웹페이지(또는 웹서비스)를 제공하는 사이트로서, 웹서버로서 구현된다. 즉, 웹사이트(10)는 도메인 네임에 의해 특정되며 다수의 웹서버에 의해 구현될 수 있다. 웹서버들도 물리적으로 떨어져 설치될 수 있다. 웹사이트를 구축하는 기술은 공지기술이므로 구체적 설명은 생략한다.
웹사이트(10)는 개인 홈피, 블로그 등 개인 호스팅 서비스, 카페, 게시판 등 커뮤니티 서비스를 제공하는 포털 사이트 뿐만 아니라, 은행, 쇼핑몰 등 각종 웹서비스를 제공하는 사이트를 모두 포함한다.
노출검색 시스템(30)은 상기 웹사이트(10)를 방문하여 웹사이트(10)에서 제공하는 웹페이지들을 검색하여, 상기 웹페이지에 게재된 이미지에 개인정보가 노출되고 있는지를 분석하는 서버이다.
노출검색 시스템(30)은 웹페이지에 게재된 이미지를 수집하여 샘플링 이미지를 구축한다. 샘플링 이미지는 관리자 또는 사용자에 의해 개인정보가 포함된 이미지(이하 개인정보 이미지)와 개인정보가 포함되지 않은 일반 이미지로 분류된다. 노출검색 시스템(30)은 분류된 샘플링 이미지에서 특성벡터를 추출하여 데이터베이스(40)에 저장한다. 이때 특성벡터를 구성하는 이미지 특성(feature)들은 이미지 분석에 사용되고 있는 알려진 다수 특성(feature)으로 만들어진다. 그리고 노출검색 시스템(30)은 개인정보가 포함된 것인지 여부에 따라 특성벡터를 2개의 그룹으로 나누어 구성한다.
그 후, 노출검색 시스템(30)은 인터넷 상에서 이미지를 수집하여, 수집된 이미지(이하 질의 이미지)로부터 특성벡터를 추출한다. 그리고 노출검색 시스템(30)은 질의 이미지의 특성벡터와 샘플 그룹의 특성벡터를 매칭함으로써, 질의 이미지를 분류한다.
데이터베이스(40)는 샘플 이미지로부터 추출된 특성벡터들을 저장하는 샘플벡터DB(41), 인터넷 상에서 수집한 이미지를 저장하는 이미지DB(42), 수집된 이미지로부터 추출한 특성벡터를 저장하는 특성벡터DB(43)로 이루어진다. 그러나 상기 데이터베이스(40)의 구성은 바람직한 일실시예일 뿐이며, 구체적인 장치를 개발하는데 있어서, 접근 및 검색의 용이성 및 효율성 등을 감안하여 데이터베이스 구축이론에 의하여 다른 구조로 구성될 수 있다.
또한, 도 2b에서 보는 바와 같이, 본 발명에 따른 개인정보 노출검색 시스템(30)은 데이터베이스(10)에 저장된 이미지를 입력받아 처리하는 컴퓨터 단말(30a) 상의 장치 또는 프로그램 시스템(30)으로 실시될 수 있다. 즉, 개인정보 노출검색 시스템(30)은 프로그램으로 구성되어 컴퓨터 단말(30a)에 설치되어 실행될 수 있다. 컴퓨터 단말(30a)에 설치된 프로그램은 하나의 장치 또는 시스템(30)과 같이 동작할 수 있다. 또한, 컴퓨터 단말(30a)은 서버, PC, 노트북, 넷북 등 컴퓨팅 기능을 가진 단말장치이다.
한편, 이때의 데이터베이스(40)는 앞서 설명한 데이터 등을 저장하는 데이터 저장소로서, 네트워크 상의 데이터베이스(또는 DB서버), 컴퓨터 단말(30a)의 하드 디스크 등 저장공간, 이동저장매체 등을 포함한다.
다음으로, 본 발명에 따른 개인정보 노출 검색 방법을 도 3을 참조하여 보다 구체적으로 설명한다.
도 3에서 보는 바와 같이, 본 발명에 따른 개인정보 노출 검색 방법은 샘플 이미지들에 대한 학습을 통해 사전에 정형화된 사전(또는 샘플 벡터)을 생성하는 단계(Training 단계 또는 학습단계)와 생성된 사전(샘플 벡터)을 바탕으로 내용 기반 파일 검색 단계에서는 입력된 이미지파일에 개인정보 이미지파일인지를 분류함으로써 파일 검색 단계(또는 CBIR 단계)로 구성된다.
즉, 웹 페이지 상에 존재하는 이미지파일들 중에서 개인정보가 포함된 이미지파일을 검색하기 위해 사전에 학습한 개인정보 이미지파일들의 특징 사전과의 유사성 비교를 수행함으로써 가능하다. 하지만 개인정보 이미지 파일들은 서로 유사한 상관관계를 가지고 있어 이들을 각각 분류하기 위한 특징 정보 선택은 많은 어려움이 존재하였다. 따라서 개인정보 이미지파일과 일반 이미지 파일을 분류하는데 초점을 둔다.
개인정보가 포함된 이미지 파일들의 경우 고유한 색상과 정해진 형식에 따라 개인정보가 표현되어 있다. 또한 이러한 개인식별용 신분증들은 사진과 성명 및 주민등록번호가 필수적으로 포함되어 있으면 그 외 필요한 정보과 위변조 방지를 위해 홀로그램 및 다양한 로그 및 그래픽 이미지들이 배경과 바탕에 정해진 규격에 따라 표현되어 있다. 개인식별용 신분증들은 증명서과 통지서와 달리 다양한 무늬 배경을 바탕으로 개인정보가 인쇄되어 있어 이를 인식하기에는 상당한 어려움이 존재한다. 우선 문자의 위치를 검출하는 것이 가장 큰 어려움이다. 배경 무늬와 글자가 함께 표현되어 있어 문자의 정확한 위치 판별이 가장 어려운 문제이다. 그리고 영상 획득 과정에서 발생하는 다양한 노이즈와 조명, 촬영 각도 등에 의한 왜곡 발생도 문자 인식을 어렵게 하는 요인 중에 하나이다.
따라서 해당 개인정보 이미지 파일 인식을 위해 해당 이미지 파일이 어떤 종류의 개인정보 이미지 파일인지를 분류할 수 있다면 각 이미지 파일들이 정해진 형식에 따른 후보 문자위치를 파악할 수 있을 것이다. 이를 위해 웹상에서 존재하는 개인정보 이미지 파일들을 검색하여 이들의 공통적인 특징정보를 분석하고 이를 바탕으로 개인정보 이미지파일들의 검색과 분류를 용이하게 하기 위해 사전(또는 샘플 벡터)을 생성한다. 그리고 생성된 개인정보 이미지파일의 사전(또는 샘플 벡터)을 사용하여 이미지 파일을 검색한다.
학습(Training) 단계에서 생성되는 사전(또는 샘플 벡터)은 이미지 파일에 대한 모양과 색상, 특징 등에 대해서 공통적으로 포함되는 정보를 담고 있는 이미지 특성정보의 사전을 의미한다. 이러한 사전은 단순히 개인정보가 포함된 유형의 이미지들의 특징 정보가 아니라 웹 페이지 상의 일반적인 이미지 파일들과 비교하여 개인정보 이미지 파일들이 가진 고유한 특징 정보들을 추출하고 이들을 사전에 포함시키는 것이다.
그리고 검색 단계(또는 CBIR 단계)에서, 생성된 사전(또는 샘플 벡터)을 바탕으로 내용 기반으로, 입력된 이미지파일에 개인정보 이미지파일 인지를 분류한다.
이미지파일에서 개인정보를 검색하기 위해서는 이미지 내의 특징들을 효율적으로 추출하고, 이를 표현할 수 있는 색인 기술과 얻어지는 색인 정보를 이용하여 대용량의 이미지 데이터를 빠르게 검색할 수 있으며, 그래픽과 같은 가시적인 질의가 가능한 사용자 인터페이스 등이 지원된다
한편, 이때, 보다 정확한 이미지 검색을 위해 파일의 형태는 일정한 조건 하에 실시하는 것으로 제한할 수 있다. 예를 들어, 이미지파일의 크기와 칼라 bit수 등의 파일 형식에 대한 제약 조건을 만족하는 이미지파일들만을 분류하기 위해 입력으로 사용할 수 있다.
일반적으로 이미지파일로부터 개인정보에 해당하는 문자정보를 식별하기 위해서는 최소한 일정크기 이상이어야 가능하다. 이는 가독성 측면에서도 일정 크기 이하에서는 문자를 판독하기 어렵기에 개인정보 노출 검색 시스템(30)에서도 이를 예외로 처리토록 한다.
그리고 칼라 이미지파일을 대상으로 하기 때문에 색상의 bit수를 24-bit로 한정하는 것이 바람직하다. 개인정보가 포함된 이미지파일 동향에서와 같이 개인정보 이미지파일의 대다수가 24-bit 칼라 색상으로 표현되어져 있어 이러한 제약을 가지는 이미지파일들에서만 제안한 방안을 적용하도록 한다. 다만, 흑백으로 표현된 개인정보 이미지파일도 존재할 때에는 예외처리를 하지 않는 것이 바람직할 것이다. 입력 가능한 이미지파일의 포맷은 본 발명의 구체적 실시에 따라 그 작업 도구 소프트웨어(S/W)에 따라 다르게 사용할 수 있다.
다음으로, 본 발명의 일실시예에 따라 사용될 특징정보에 대하여 보다 구체적으로 살펴본다.
도 5에서 보는 바와 같이, 특성정보는 색상, 질감, 그리고 모양정보로 구분된다. 색상정보는 이미지의 칼라와 흑백 정보를 이용하고, 질감 정보는 이미지 내의 픽셀값의 변화 정보를 통계학적 방법에 의해 표현된 정보를 이용한다. 그리고 모양 정보는 이미지가 여러 영역의 집합으로 표현되어 있음을 가정하고 각 영역의 구조적 분석 방법에 의해 표현된 특징정보들을 사용한다.
즉, 특성정보(또는 특성, feature)는 RGB 칼라 히스토그램, HSI 칼라 히스토그램, Gray-Level 히스토그램, 그레이 콘트래스트(Gray Contrast), 평균 강도(Intensity), 칼라 모멘트(Moments), 픽셀값의 자기상관도(Autocorrelation), 픽셀값의 상관도(Correlation), 클러스터 쉐이드(Cluster Shade), 비유사성(Dissimilarity),색상 에너지(Energy), 색상 엔트로피(Entropy), 동질성(Homogeneity), 분산도(Variance), 합계 평균(Sum average), 합계 분산(Sum variance), 색상차 분산(Difference variance), 색상차 엔트로피(Difference entropy), 정규화 역차분(INN, Inverse difference normalized), 정규화 역차분 모멘트, 제3 모멘트(Third Moments), 불변 모멘트(Invariant Moments) 등이 있다.
개인정보 이미지의 일례는 도 6과 같다. 도 6은 시계 방향으로 시작하여 주민등록증, 운전면허증, 여권, 학생증, 사원증, 자격증의 평균 이미지를 표현한 이미지이다.
각각의 개인정보 이미지들은 다양한 조건하에 촬영된 이미지 형태를 띠고 있어 각각을 개별적으로 분석하는데 그 분산의 정도가 높아 실질적인 특징정보 비교 분석을 수행하는데 어려움이 발생하였다. 따라서 이미지간의 특징정보 비교분석을 위해 개인정보 이미지들을 각각 평균 이미지를 계산한다. 평균 이미지는 획득된 샘플 이미지들의 크기를 정규화한 후 각각의 픽셀 위치에 해당하는 칼라 값을 합하여 그 평균을 계산한 이미지이다.
개인정보 이미지의 크기는 종류에 따라서 조금씩 차이를 가지고 있으나 대표적인 크기 비율에 따른 정규화를 수행하는 것이 바람직하다. 주민등록증, 운전면허증, 학생증, 여권 단면 등은 가로대 세로비가 1.6:1의 비율을 나타내었고, 국가기술자격증, 여권 양면, 신분증 등은 대부분 가로대 세로비가 1.4:1의 비율을 나타내었다. 따라서 이러한 비율에 따라 입력 영상들을 가로, 세로 픽셀의 크기를 확인하여 해당 비율로 이미지 크기를 정규화 한다. 일례로서, 전체적으로 1.6:1로 크기를 정규화 한다.
이하에서, 도 5에 도시된 이미지 특성(feature)을 차례로 설명한다.
① RGB / HSI / Gray-Level 히스토그램
히스토그램은 이미지의 색상정보가 어떠한 분포를 하고 있는가는 확인하는 특징정보이다. 데이터의 분포 상태를 알아보기 쉽게 하여 분포의 모습을 한눈으로 확인하여 데이터가 어떤 값을 중심으로 어떤 산포를 가지는가를 확인이 가능하다.
RGB컬러 모델은 빛의 삼원색인 빨강(Red), 초록(Green), 파랑(Blue)을 이용하여 색을 표현한다. 어떤 이미지라도 R, G, B 세 가지 색으로 분리하는 것이 가능하다. 흔히 R, G, B의 각 성분을 8비트로 표현하는 방식을 트루 컬러(True Color, Millions of colors)라고 한다. 각 성분에 16진수 두 자리씩 총 여섯 자리를 이용하면 모든 색을 나타내는 것이 가능하다. 빛은 혼합할수록 점점 밝아지기 때문에, RGB컬러 모델을 가산혼합(Additive Color Mixing)이라고 한다.
HSI 컬러 모델은 색상(Hue), 채도(Saturation), 명도(Intensity)로 이루어져 있다. 이 모델은 색의 변환이 용이하다는 장점을 지니고 있다. 색상(H)은 원색을 나타내고, 채도(S)는 색의 순수도(흰색 혼합도), 그리고 명도(I)는 밝기를 나타낸다. HSI 컬러 모델은 원뿔 모양으로 표현되어 진다. 여기서 색상(H)은 원뿔 둘레를 따라 표현하고 채도(S)는 원뿔 중심으로부터의 수평거리로 표현된다. 중심이 0이고 흰색이 100%가 되고, 가장자리가 1이고 순수한 원색이 된다. 명도(I)는 세로축으로 표현되는데 가장 아래쪽이 0이고 검정색을 나타내며, 가장 위가 1이고 흰색을 나타낸다. Gray-Level은 (R+G+B)/3을 한 값으로써 이미지의 밝기 값을 의미한다.
입력 이미지를 2, 3차원 형태의 RGB 공간으로 표현할 수 있다. RGB 각 채널의 칼라 값을 히스토그램의 간격(=샘플링)을 나타내는 Bin수에 따라 벡터로 표현함으로써 색상 특징정보로 표현한다.
도 7a와 같이, 두 평균 이미지의 2차원과 3차원의 칼라 히스토그램의 색상 분포, 균질도, 색상 밀도, 색상의 공간적 위치 등 여러 측면에서 서로 차이가 있음을 확인할 수 있다.
도 7b는 개인정보 이미지들과 일반 이미지들 사이의 2차원 칼라 히스토그램의 분포를 나타낸 그림이다. 실선은 각각의 개인정보 이미지들의 히스토그램을 의미하고 막대그래프는 일반 이미지의 칼라 히스토그램으로 표현하였다. 두 부류(개인정보 이미지 vs. 일반 이미지)의 히스토그램 비교를 통해 어느 정도 해당 부류를 유출할 수 있다.
예를 들어 개인정보 이미지들의 경우 검은색의 인쇄된 문자 정보가 다수 포함되어 있어 RGB 각각 모두 큰 밝기 값을 가지고 있음을 확인할 수 있다. 그에 반에 일반 이미지는 히스토그램의 가운데에 값에 대부분의 픽셀이 위치하고 있음을 알 수 있다. 이러한 단서를 바탕으로 향후 개인정보 이미지 파일 검색에 본 칼라 히스토그램 정보가 유용하게 사용될 수 있음을 확인할 수 있다.
② Gray Contrast
이미지내의 픽셀 값들의 변화 정도를 확인하는 특징정보이다. 해당 픽셀 값이 전체 이미지에서 나타나는 확률을 계산하고 주위에 인접한 픽셀들과의 밝기 값 차이 정보를 표현하는 척도이다.
도 7c는 두 부류 이미지 파일 사이의 Gray Contrast 비교를 나타낸 그림이다. 분석을 위해 개인정보 이미지 파일 50개와 랜덤하게 선택된 일반 이미지 50개씩을 크기를 정규화한 후 각각의 비교 분석을 수행하였다. 분석 결과 대비는 밝기 픽셀의 변화 정보를 의미함으로써 개인정보 이미지파일보다는 일반 이미지 파일들의 대비가 평균적으로 약 12.48%의 높은 결과치를 제시하였다. 이로써 개인정보가 포함된 이미지 파일 검색을 위한 특징 정보로써 Gray Contrast 정보가 유용함을 확인할 수 있다. 다만, 단순히 Contrast 정보만을 이용하게 되면 분류 성능 오류 예측치가 약 35.7%ㅁ(%5) 정도로 예측되었다. 따라서 다른 특징정보의 결합으로 이미지 파일 분류기의 성능을 높일 필요가 있다.
③ Color Moments
이미지를 5×5 grid로 표현하고 각 grid 내의 픽셀값들로부터 평균과 표준편차, 3차 모멘트의 Skewness를 계산한다. 즉 이미지 내 픽셀들의 변화정도를 측정하기 위해 전체 픽셀값의 평균과 값의 변화량, 그리고 비대칭 정도를 의미합니다. 측정 범위를 이미지 전체에서 수행할 수 있으며 구간 범위를 정하여 해당 범위마다 값을 측정할 수 있다.
도 7d는 두 부류의 칼라 모멘트값을 측정한 그래프이다. 그래프의 bin을 225로 출력하였다. 비교분석을 위해 각 질의 이미지들에서 칼라 모멘트값을 추출하고 이들의 평균값을 계산하여 그래프로 출력하였다. 비교분석 결과 개인정보 이미지파일들이 일반 이미지파일들보다 칼라 모멘트값이 평균적으로 10.04% 높게 나타났다. 비교적 근소한 차이의 성능 값을 나타내었지만 향후 두 부류 분류에 특징 값으로 사용할 수 있는 충분한 가치가 있음을 확인하였다. 다만, 단순히 칼라 모멘트 정보만을 이용하게 되면 분류 성능 오류 예측치가 약 33.4%ㅁ(%5) 정도로 예측되었다. 따라서 다른 특징정보들의 결합으로 이미지 파일 분류기의 성능을 높일 필요가 있다.
④ Autocorrelation
일반적으로 이미지 내에 픽셀값들은 반복되면서 일정한 크기의 밝기 군을 형성한다. 만약 밝기 군의 크기가 커다면 부드러운 질감을 가진 이미지가 될 가능성이 크고 만약 밝기 군의 크기가 작다면 미세한 질감을 가짐으로써 거친 이미지일 가능성이 크다고 할 수 있다. 따라서 이미지에서 자기상관이란 임의의 픽셀 값이 이웃하는 픽셀 값들과 어느 정도의 관련이 있는지를 측정하는 척도로써 밝기 군에 대한 크기를 추정하는 척도이다. 결국 자기상관함수의 값이 크다는 것은 밝기 군의 크기가 상대적으로 크다는 것을 의미하는 것이 되고 만약 자기상관함수의 값이 작아지면 밝기 군의 크기가 작아짐을 의미한다. 이는 이미지가 얼마나 부러운가? 혹은 거친가의 질감 정도를 파악할 수 있다.
비교 분석 결과, 개인정보 이미지 파일들이 일반 이미지 파일들보다 자기상관함수의 값이 평균적으로 18.6% 높게 나타났다. 이것은 개인정보 이미지 파일들이 정형화된 형식에 따라 제작되어 일반 이미지파일들에 비해 비교적인 균일한 색상 값의 영역이 크다는 것을 의미한다. 그리고 자기상관함수의 특징정보만을 이용하여 두 부류의 이미지파일을 분류하게 되면 성능 오류 예측치가 약 27.7%ㅁ(%5) 정도로 예측되었다. 결국 다른 특징정보의 결합으로 이미지 파일 분류기의 성능을 높일 필요가 있다.
④ Correlation
이지지 파일의 픽셀 값이 위치한 곳에서 이웃하는 픽셀들과의 상호 관계를 측정하는 척도이다. 이웃하는 픽셀들 간의 어떤 선형적 관계를 갖고 있는지 분석하는 방법으로써 상관관계 값이 작을수록 무상관에 가깝고 선형적인 상관관계가 존재하지 않음을 의미한다. 상관관계 값이 커다는 것은 이미지의 색상 변화가 그 만큼 적다는 것을 의미함으로 부러운 질감을 가질 확률이 높아지게 된다.
비교 분석 결과, 개인정보 이미지 파일들이 일반 이미지 파일들보다 자기상관함수의 값이 평균적으로 17.9% 높게 나타났다. 이것은 Autocorrelation 특징정보와 같이 개인정보 이미지 파일들이 정형화된 형식에 따라 제작되어 일반 이미지파일들에 비해 비교적인 균일한 색상 값으로 표현되어 있음을 의미한다. 그리고 자기상관함수의 특징정보만을 이용하여 두 부류의 이미지파일을 분류하게 되면 성능 오류 예측치가 약 26.3%ㅁ(%5) 정도로 예측되었다. 결국 다른 특징정보들의 결합으로 이미지 파일 분류기의 성능을 높일 필요가 있다.
⑤ Cluster Shade / Prominence
이미지 픽셀값의 분포가 비대칭인지를 측정하는 척도이다. 만약 Cluster Prominence 값이 크다는 것은 이미지 픽셀의 분포가 대칭적이지 않다는 것을 의미한다. 그 반대의 경우는 이미지 픽셀의 평균값을 중심으로 균형적인 픽셀 값 분포를 가지고 있음을 의미한다. 결국 이 척도를 사용하여 이미지 색상의 변화 여부를 파악할 수 있다.
비교 분석 결과, 개인정보 이미지 파일들이 일반 이미지 파일들보다 Cluster shade와 prominence 값이 평균적으로 약 23.3%와 11.5% 낮게 나타났다. 이것은 개인정보 이미지 파일들의 픽셀 값의 변화가 일반 이미지파일들에 비해 변화가 작음을 의미한다. 하지만, 일반 이미지의 경우 하나의 샘플 이미지에서 Cluster prominence 값이 평균에 비해 3배 이상 높게 나타냈다. 이 값으로 인해 일반 이미지 파일들의 평균 Cluster prominence 값이 크게 나타났다. 결국 Cluster prominence 특징 값으로만 두 부류 분류기 특징정보도 사용하기에는 다소 무리가 있다고 판단된다. 그리고 Cluster Shade의 경우는 충분히 두 부류 분류기의 특징정보도 사용할 수 있는 정보이다. 개인정보와 일반 이미지 파일 사이에 충분한 상관관계를 표현하고 있으며 특히 두 분류 사이의 Cluster shade 값의 차이가 현저하다.
⑥ Dissimilarity / Entropy / Energy
이미지 내의 인접한 픽셀들 간의 색상 값의 비 유사성 정도를 측정하는 척도들이다. Dissimilarity는 인접한 픽셀들 간의 색상 차이 정도를 측정, Entropy는 픽셀들 간의 무질서 정도를 측정, 그리고 Energy는 질감 정보의 균일성을 측정하는 척도들이다.
비교 분석한 결과, 평균적으로 약 13.2%의 두 분류 성능을 나타내었다. 하지만, Dissimilarity 특징정보만을 이용하여 두 부류의 이미지파일을 분류하게 되면 성능 오류 예측치가 약 42%ㅁ(%5) 정도로 저조하게 예측되었다. 이는 Dissimilarity는 일반 이미지와 개인정보 이미지 모두 다양한 색상 값으로 구성되어 있어 특징값이 낮은 결과를 나타내었다. 비록 두 분류 간 분류 성능이 좋은 결과를 제시하더라고 성능분류 오류율이 높아 실제 파일 검색 시스템 적용하기에는 다소 어려움이 존재한다. 따라서 분류 오류를 줄일 수 있는 다른 특징정보의 조합이 필요하다.
또한, Entropy 특징값 역시 분류 성능과 함께 분류 오류율이 역시 높아 실제 검색 시스템 적용에는 어려움이 존재한다.
또한, Energy 특징정보의 경우는 이미지의 색상 변화가 적은 때 적은 값을 가지는 특성에 의해 개인정보 이미지가 대부분 균일한 색상 분포를 나타내고 있어 낮은 Energy 값을 출력한다. Energy 척도를 비교 분석한 결과 평균적으로 약 13.38%의 두 분류 성능을 나타내었고 오류률은 평균적으로 약 24%의 결과를 제시하였다.
⑦ Homogeneity / Maximum probability
Homogeneity는 이웃한 픽셀들 간의 색상 값의 유사도를 측정하는 척도이다. 그리고 Maximum probability는 이미지내의 픽셀 값들 중에서 가장 높은 빈도를 가진 색상을 출력하는 척도이다. 즉, 이미지의 대표성을 측정하는 척도이기도 하다.
Homogeneity 척도를 비교 분석한 결과, 평균적으로 약 10.7%의 두 분류 성능을 나타내었다. 개인정보 이미지 파일의 경우는 일반 이미지들보다 유사한 영역으로 구성되어 있어 Homogeneity가 낮은 빈도를 제시하였고, 분류오류율은 평균적으로 약 29%의 성능을 제시하였다.
또한, Maximum probability 척도를 비교 분석한 결과, 평균적으로 약 10.5%의 두 분류 성능을 나타내었고, 분류 오류률은 평균적으로 약 38%의 성능을 제시하였다. 두 특징정보 각각으로 파일 검색 시스템의 척도로써 이용하기에는 무리가 있으나 다양한 특징정보들의 조합으로 높은 분류 성능을 나타낼 수 있을 것이다.
⑧ Smoothness / Third Moments / Uniformity
Smoothness는 이미지내의 영역에서 색상 값의 상대적인 부드러운 정보를 측정하는 척도이다. 임의의 영역이 일정한 색상 값을 가지고 있다면 0이고, 색상 값이 크게 벗어나는 영역에서는 큰 값에 접근한다. Third Moments는 이미지 파일의 색상값이 비대칭인 정도를 측정하는 척도이다. 대칭인 히스토그램은 0이고, 평균을 기준으로 오른쪽에 몰린 히스토그램에 대해서는 양의 값을 가지며, 왼쪽에 몰린 히스토그램에 대해서는 음의 값을 가진다. 그리고 Uniformity는 Homogeneity는 이웃한 픽셀들 간의 색상 값의 유사도를 측정하는 척도이다. 이 척도는 모든 그레이 레벨이 같은 때 최대이고, 그 이후부터는 감소한다.
Smoothness 척도를 비교 분석한 결과, 평균적으로 약 13.1%의 두 분류 성능을 나타내었고, 분류 오류율은 평균적으로 약 21.7%를 나타내었다.
또한, Third Moments 척도를 비교 분석한 결과, 평균적으로 약 20.7%의 두 분류 성능을 나타내었고, 분류 오류율은 평균적으로 약 10%를 나타내었다. 이 척도가 두 부류의 분류 성능이 높고 또한 오류율이 낮음을 제시하였다. 따라서 개인정보 노출 대응 시스템의 이미지 파일검색을 위해 필히 포함되어야할 특징정보이다.
그리고 Uniformity 척도를 비교 분석한 결과, 평균적으로 약 14.5%의 두 분류 성능을 나타내었고, 분류 오류율은 평균적으로 약 68%를 나타내었다.
도 8은 도 5에서 제시한 특징정보를 사용하여 개인정보 vs. 일반 이미지 파일의 비교 분석 결과를 나타낸 도면이다. 각 부류의 이미지 파일의 개수는 웹 페이지에서 수집한 196개씩을 사용하였고, 24-bit 색상과 함께 다양한 크기를 가진 이미지를 비교 분석한 그림들이다.
다음으로, 본 발명의 일실시예에 따른 개인정보 노출 검색 시스템(30)의 구성을 도 4를 참조하여 설명한다.
도 4에서 보는 바와 같이, 영상 프레임 복원 장치(30)는 샘플벡터 저장부(31), 이미지 수집부(32), 특성벡터 구성부(33), 이미지 매칭부(34), 및, 이미지 판단부(35)로 구성된다. 추가적으로, 샘플벡터 재구성부(36)를 더 포함하여 구성될 수 있다.
샘플벡터 저장부(31)는 제1 및 제2 샘플벡터 그룹을 구성하여 저장하되, 상기 제1 샘플벡터 그룹은 다수의 개인정보 이미지들의 특성벡터로 구성되고, 상기 제2 샘플벡터 그룹은 다수의 일반 이미지들의 특성벡터로 구성된다.
일례로서, 제1 샘플벡터 그룹은 80개(N개)의 개인정보 이미지로부터, 제2 샘플벡터 그룹은 261개(M개)의 일반 이미지로부터 만든다. 즉, 각 이미지마다 앞서 설명한 이미지 특성(feature)을 계산하여, 특성(feature)의 값으로 구성된 특성벡터를 구성한다. 즉, 특성(feature)의 종류수가 P개이라고 하면, 차원이 P개인 특성벡터가 각각 N개, M개가 만들어진다.
샘플벡터 재구성부(36)는 상기 특성벡터의 각 특성에 대하여 개별적으로 성능평가를 수행하여 통과된 특성들을 추출하고, 상기 제1 및 제2 샘플벡터 그룹의 특성벡터들을 추출된 특성들로만 재구성한다. 이때, 성능평가는 상기 제1 및 제2 샘플벡터 그룹의 특성벡터들을 테스트 그룹으로 평가한다.
성능평가를 위한 유사도(S)의 일례는 다음 [수학식 1]에 의해 계산된다.
[수학식 1]
Figure 112011021908512-pat00001
a와 b는 각각 비교질의 이미지의 특성값이다.
유사도(S)는 [수학식 1]이외에도 2개의 값의 유사성을 측정할 수 있는 것이면, 어느 것이나 적용할 수 있다.
성능평가는 다음 [수학식 2]에 의한 재현율(Rr, recall rate), 긍정오류율(FPr, false positive rate), 및, 부정오류율(FNr, false negative rate)을 이용한다.
[수학식 2]
Figure 112011021908512-pat00002
재현율(Rr, recall rate)은 전체 이미지파일에서 바르게 분류한 이미지 파일의 분류한 개수를 의미한다. FPr은 해당 클래스의 이미지 파일이 아님에서 해당 클래스로 분류한 개수이고(No인데 Yes라고 출력한 경우), FNr은 해당 클래스 임에도 해당 클래스가 아니라고 분류한 이미지 파일의 개수를 의미한다(Yes인데 No라고 출력한 경우).
샘플벡터 재구성부(36)는 상기 특성의 재현율(recall rate)이 제1 기준율 이상이고 상기 특성의 긍정오류율(false positive rate), 또는, 부정오류율(false negative rate)이 제2 기준율 이하이면, 상기 특성이 상기 성능평가에서 통과되는 것으로 한다.
도 9에서 이미지파일의 색상, 질감, 그리고 모양 특징정보들을 사용하여 이미지 파일들의 분류 성능을 확인한 결과, 재현율(recall rate) 성능이 70% 미만인 특징정보에는 Cluster Prominence, Maximum probability, Sum entropy, Information measure of correlation 1 and 2, Smoothness, 그리고 Uniformity 특징정보(feature)들이다. 이 특징값을 제외한 나머지 특징정보(feature)들을 이미지파일 분류에 사용한다.
부정오류율(FNr)와 긍정오류율(FPr)은 낮을수록 분류 오류가 적은 것을 의미하는데 개인정보 노출 대응시스템 입장에서 개인정보가 포함되어 있는 이미지파일임에도 불구하고 일반 이미지 분류하는 오류가 가능한 적은 것이 보다 효율적임으로 FNr이 적은 것은 FPr이 작은 것 보다는 유리하다.
도 9에서 FNr과 FPr이 30% 미만인 오류율을 제시한 특징정보들에는 평균, 밝기값, 칼라모멘트, Gray contrast, Autocorrelation, Correlation, Dissimilarity, Energy, Entropy, Homogeneity, Sum of square: Variance, Sum average, Sum variance, Difference variance, Difference entropy, Information measure of correlation1, Information measure of correlation2, Inverse difference normalized, 그리고 Inverse difference moment normalized들이다.
도 9의 특징정보의 재현율(Recall), 부정오류율(FNr)와 긍정오류율(FPr)을 비교한 결과, Cluster Prominence, Maximum probability, Sum entropy, Smoothness, 그리고 Uniformity 특징정보들은 개인정보 이미지와 일반 이미지들 사이를 구분 짓을 수 있는 정보로써의 의미가 작아 특징정보(feature)로서 사용하지 않은 것이 바람직하다.
따라서 성능이 우수한 특성들으로 판별된 것이 Q개이라고 하면, Q는 원래 특성 개수 P 보다 작다. 그리고 특성벡터는 Q차원으로 감소한다.
이미지 수집부(32)는 인터넷 상에 게재된 이미지(이하 질의 이미지)를 수집한다. 즉, 개인정보가 포함된지 여부를 확인하고자 하는 이미지들을 수집한다. 이때, 수집된 이미지는 분석을 위해 전처리(preprocessing) 과정을 거친다. 예를 들어, 노이즈를 제거하거나, 색상 또는 기울기 등을 보정한다.
특성벡터 구성부(33)는 상기 질의 이미지의 특성(feature)들을 계산하여 특성벡터를 구성한다. 앞서 설명한 샘플 이미지로부터 샘플벡터를 추출하는 것과 같은 동일한 방식으로, 색상, 질감, 모양 등의 특징정보(feature)를 계산한다. 각 특징정보를 벡터로 구성하여, 질의 이미지의 특성벡터를 구성한다. 질의 이미지의 특성벡터의 차원은 선별된 이미지 특성(feature)의 개수이다.
이때, 특성벡터 구성부(33)는 재구성된 특성벡터를 이용하는 것이 바람직하다. 즉, 샘플벡터 재구성부(36)에 의해 다수의 특성 중에서 우수한 성능을 가진 특성을 추출하면, 추출된 특성에 대해서만 질의 이미지의 특성값을 계산하여 특성벡터로 구성한다. 따라서 질의 이미지의 특성벡터도 Q차원으로 구성된다.
이미지 매칭부(34)는 상기 질의 이미지의 특성벡터(이하 대상 벡터)와 상기 제1 및 제2 샘플벡터 그룹의 특성벡터(이하 샘플 벡터)들과 매칭시켜, 2개의 그룹 중 어느 그룹에 더 매칭되는지를 판단한다.
즉, 앞서 구한 질의 이미지의 특성벡터(또는 대상 벡터)와 제1 및 제2 샘플벡터 그룹의 특성벡터와 매칭시킨다. 이때, 벡터간의 매칭은 [수학식 1]과 같은 유사도(S)를 이용한다. 일례로서, 각 벡터의 구성요소들과 대비하여 매칭여부에 따라 그 결과를 0 또는 1로 표시하고, 1의 개수에 의해 유사도를 정할 수도 있다. 또 다른 일례로서, 유클리디안 거리(Euclidean Distance) 등의 유사도를 사용할 수 있다. 벡터간의 유사성을 측정할 수 있는 지수라면 어느 것이나 적용이 가능하다.
한편, 대상 벡터는 1개이고, 샘플벡터의 개수는 N개(제1 샘플벡터 그룹) + M개(제2 샘플벡터 그룹)이다. 따라서 대상 벡터와 샘플벡터의 대비결과의 수는 모두 N + M 개다. 즉, 대비된 유사도가 N + M 개다.
이때, 유사도가 가장 적은 값을 가지는 샘플벡터를 찾아낸다. 그리고 그 샘플벡터가 제1 샘플벡터 그룹에 속하면, 질의 이미지를 개인정보 이미지로 판단한다. 또한, 유사도가 가장 적은 샘플벡터가 제2 샘플벡터 그룹에 속하면, 질의 이미지를 일반 이미지로 판단한다.
한편, 이미지 매칭부(34)는 적어도 2개의 이미지 분류기를 이용하여 어느 그룹에 더 매칭되는지를 판단할 수 있다. 이미지 분류기로서, 히스토그램 기반의 분류기, 특성정보 매칭 기반의 분류기, PCA 기반의 분류기, 학습기반(Support Vector Machine) 기반의 분류기 중 어느 하나 이상을 이용한다.
각각의 분류기에 대한 설명은 이미지 판단부(35)를 설명한 후, 보다 구체적으로 설명한다.
이미지 판단부(35)는 매칭의 판단 결과에 따라 상기 질의 이미지가 개인정보 이미지인지를 판단한다.
앞서 이미지 매칭부(34)에서 이용되는 이미지 분류기가 하나인 경우에는, 이미지 분류기에 의한 유사도 평가 결과에 따라 질의 이미지의 개인정보 이미지 여부가 판단된다.
이미지 분류기가 적어도 2개 이상 이용되는 경우, 다음 [수학식 3]에 의해, 각각의 이미지 분류기의 결과에 가중치를 부여한 점수에 의해 결정한다.
[수학식 3]
Figure 112011021908512-pat00003
단. Si = 0 또는 1이고, Wi는 분류기 i의 가중치이다.
Si는 분류기 i의 분류결과로서, 매칭되는 경우 1이고, 매칭되지 않은 경우 0의 값을 갖는다.
바람직하게는 가중치 Wi를 모두 1로 한다. 그리고 기준치를 2로 정한다. 이 경우, 전체 분류기의 개수가 4개라면, 4개의 분류기 중에서 2개 이상이 개인정보 이미지로 매칭되는 결과를 출력하면, 개인정보 이미지로 판단한다.
가중치를 모두 동일하게 하는 경우, 이미지 판단부(35)는 질의 이미지의 특성벡터가 제1 샘플벡터 그룹에 더 매칭되는 것으로 판단하는 이미지 분류기의 개수에 의해, 상기 질의 이미지의 개인정보 이미지 여부를 판단하는 것과 같다.
다음으로, 본 발명의 일실시예 따른 이미지 분류기에 대하여 보다 구체적으로 설명한다.
먼저, 히스토그램 기반의 분류기에 대하여 설명한다.
히스토그램 기반의 분류기는 개인정보 이미지들에 해당하는 색상 공간 분포들을 n개의 Bin을 가지는 히스토그램으로 표현하고, 질의 이미지가 표현된 히스토그램과의 유사성 평가를 통해 질의 이미지의 개인정보 이미지 여부를 판단한다.
히스토그램 기반의 분류기는 다른 분류기들에 비해 수행 속도 등에서 월등한 우위를 점하고 있으며 처리 단계도 단순하여 빠른 분류 결과를 제시할 수 있는 이점이 있다. 다만, 해당 부류의 많은 양의 샘플 데이터가 필요하고 유사성 평가 기준 척도 수립에 어려움 점이 존재한다.
히스토그램 기반의 분류기는 RGB/HSI/YCrCb 또는 그레이색상(Gray-Level) 히스토그램의 특성벡터를 이용한다. 색상 히스토그램의 특성벡터는 다른 특성벡터와는 달리, 각각의 히스토그램 특성에 따라 특성벡터를 구성한다. 예를 들어, RGB 히스토그램의 특성(feature)에 대하여, 히스토그램의 bin의 개수가 벡터의 차원이 되고, 각 bin의 값이 특성벡터의 요소값이 된다. 따라서 RGB 히스토그램의 특성(feature), HSI 히스토그램의 특성(feature), YCrCb 히스토그램의 특성(feature), 그레이색상 히스토그램의 특성(feature)의 각각에 대한 특성벡터를 구성한다.
유사성 평가는 유클리디안 거리(Euclidean Distance)를 사용하는 것이 바람직하다. 즉, 샘플벡터와 질의 이미지의 특성벡터의 유클리디안 거리를 계산하여, 그 계산값에 의해 평가한다. 작을수록 유사성이 높은 것으로 평가한다.
히스토그램의 성능평가는 어느 칼라 모델(RGB/HSI/YCrCb 또는 그레이색상)을 사용하였는가와 히스토그램 Bin의 수에 따라 달라질 수 있다. 따라서 최적의 성능을 나타내는 칼라 모델과 히스토그램 Bin을 사용하는 것이 바람직하다.
칼라 모델과 히스토그램 Bin의 수에 의해 성능결과가 어떠한지를 이하에서 살펴본다.
도 10은 다양한 칼라모델과 다양한 히스토그램 Bin 수에 따른 이미지파일 분류기의 성능분석 결과표이다. 실험을 위해 학습 이미지파일 1,039개수와 실험 이미지 341(개인정보 이미지 80개, 일반이미지 261개)개의 파일로부터 히스토그램 유사성 평가를 수행한 결과, 각 칼라 모델별 그리고 히스토그램 빈 수별 급격한 차이는 가지지 않았다.
다만 히스토그램 Bin 수에 따라 학습과 이미지파일 분류 테스트 과정에서 수행시간의 차이가 발생하였다. 이미지파일로부터 생성된 히스토그램으로부터 많은 특징정보를 추출하게 되면 그만큼 정보 손실이 줄어들지만 학습 시간과 비교분석 시간에 다소 걸리는 단점을 가지고 있다.
그리고 Gray / RGB / HSI / YCbCr 모델을 각각 이용한 결과 거의 80% 이상의 분류 성능을 제시하였다. 특히 Gray 색상값의 경우는 학습 시간과 분류 수행 시간에서 다른 색상 모델보다 빠른 결과를 도출하였다. 그리고 HSI 색상 모델의 경우는 FNr이 다른 색상모델에 비해 낮은 결과를 제시하였다. FNr은 "yes인데 no라고 하는 경우"로써 개인정보 이미지파일임에도 일반 이미지 파일로 분류하는 성능 평가치로써 개인정보 노출 대응시스템에서는 Recall이 높고 FNr가 낮은 것이 시스템 성능에 좋은 결과를 제시한다. 결국 HSI의 경우 Hue 칼라 정보가 조명변화에 영항을 최소화한 특징정보를 표현하고 있음으로 이미지파일 분류 성능에도 그 영향이 끼쳤음을 알 수 있다.
도 10의 칼라 모델과 히스토그램 Bin수에 따른 이미지파일 분류 성능을 분석한 결과, Gray 색상 보다는 정보가 많은 칼라색상 모델이 보다 분류 성능이 높음을 알 수 있다. 그리고 칼라 모델 중에서는 RGB 칼라모델이 YCbCr와 HSI 칼라 모델보다 좋은 분류 성능을 제시하였다.
그리고 히스토그램의 Bin수에 따른 분류 성능 비교에는 256개의 Bin을 모두 사용하는 것이 정보 손실을 최소화하므로 높은 분류 성능을 제시하였지만 학습 및 실험 시간의 소모로 인한 단점을 내포하고 있다. 따라서 히스토그램 Bin 수를 5~15까지 설정한 결과 RGB과 HSI 칼라 모델에서는 약 86% 이상의 분류 성능을 제시하였으며 적어도 30개의 Bin 수를 정하였음에도 최소 85%의 분류 성능을 제시하였다. 따라서 수행시간의 소모와 컴퓨터 처리량의 증대로 인한 손실이 있다면 가능한 칼라 모델의 히스토그램 Bin 수를 30개 이내로 제안하되 칼라 모델은 RGB와 HSI를 사용하는 것이 다른 모델에 비해 높은 이미지파일 분류 성능을 제시하였다.
한편, 히스토그램의 샘플링을 위한 Bin수가 작을수록 높은 분류 성능을 제시하였다. 그리고 Gray 보다는 칼라 색상 정보가 보다 이미지파일 분류 성능에 우월함을 확인할 수 있다. 그리고 False Positive Rate의 경우 개인정보 이미지가 아닌데 개인정보이미지라고 분류한 경우 역시 Gray 색상보다는 칼라 정보의 색상 모델이 FPr 오류에 작음을 확인할 수 있다.
그러나 히스토그램의 Bin수가 작고 칼라 모델이 3차원으로 복잡해짐에 따른 학습사전 생성의 수행 시간이 기하급수적으로 증가함을 알 수 있다. 현재는 학습데이터(샘플 데이터)의 크기가 약 1,000 여개에 불과하지만 향후 개인정보 노출 대응시스템의 개인정보 이미지파일이 많아지고 특히 일반 이미지의 크기가 많아지면 특징정보의 데이터베이스화에 많은 시간에 소모될 것이다. 게다가 실험 이미지 역시 비교대상이 그 만큼 많아지면 좋은 분류 성능을 기대할 수 있지만 처리 시간의 증가로 인해 노출대응 시스템의 실효성에 문제가 될 수도 있다. 따라서 학습데이터의 크기와 처리시간과의 상관관계를 적절히 조절함으로서 처리 시간의 감소와 분류 성능의 향상을 꾀할 수 있다.
다음으로, 특성정보 매칭 기반의 분류기에 대하여 구체적으로 설명한다.
특성정보 매칭 기반의 분류기는 정의한 특징정보의 조합을 사용하여 질의 이미지와의 특징정보 매칭을 통한 분류기이다.
유사성의 판단 기준에 크게 두 가지 방안이 있다. 첫 번째 방안은 특징정보 매칭을 통해 계산된 유사도로부터 임계치 기준에 따른 분류하는 방안과 두 번째 방안은 유사도로부터 최소값을 갖는 index의 값에 따라 이미지파일을 분류하는 방안이 있다.
각 방안마다 분류 결정과정에서 가지는 장단점을 가지고 있다. 임계치에 의한 분류 기준 방법은 계산이 단순하여 쉽게 해당 클래스로 분류할 수 있는 반면에 임계치 값이 적응적으로 반응하지 못해 수행과정에서 오류를 범할 가성이 존재한다. 그에 반해 유사도 평가 값의 최소값을 분류 기준으로 할 경우 최소값이 여러 개일 경우 해당 클래스 결정에 어려움이 있을 것이다.
샘플벡터를 바탕으로 유사도를 계산하여 최소 유사도를 가진 값의 인덱스를 확인하여 개인정보 이미지 인지 아닌지를 판별한다. 그리고 임계치에 의한 방법은 샘플벡터 그룹을 구성할 때, 개인정보 이미지와 일반 이미지 사이의 특징정보들마다 임계치를 사전에 계산을 통해 특징정보들의 임계치 사전을 생성한다. 임계치 생성 방법은 특징정보가 가지는 평균과 분산을 기준값으로 설정한다.
따라서 질의 이미지의 한 특징정보가 임계치 범위를 만족한다면 개인정보 이미지로 판별한다. 그리고 질의 이미지의 특징정보들은 임계치 사전(샘플벡터 그룹의 임계치)을 업데이트 하는데 사용된다.
임계치 기준은 [수학식 4]와 같이 결정한다.
[수학식 4]
Figure 112011021908512-pat00004

질의 이미지의 특성벡터와 샘플벡터 그룹의 샘플벡터와 최소 유사도를 분석한 결과, 도 11과 같은 결과를 나온다. 도 11은 히스토그램을 제외한 총 21개의 특징정보들의 조합으로부터 이미지파일을 분류한 것이다. 341개의 이미지파일들 중에서 개인정보 이미지파일 80개와 일반 이미지파일 261개로부터 21개의 특징정보를 추출하여 개인정보이미지가 가진 특징정보와 유사하면 "1", 일반이미지와 유사하면 "0"의 값을 나타내도록 한다.
도 11에서 공간 제약 상 소수개의 이미지파일과 특징정보로부터 추출한 bit string 결과를 나타낸다. 따라서 세로축으로 하나의 이미지파일 특징정보를 의미한다. 이때 몇 개의 특징정보를 만족하는(=1로 출력) 경우를 개인정보 이미지파일로 간주할 것인가 하는 기준이 요구된다. 특성정보 매칭 기반의 분류기에서는 기준에 해당하는 임계치값은 [수학식 4]로 계산한다. 개인정보 이미지의 최소 6개(21×0.3=6.3)의 특징정보가 만족해야만 개인정보 이미지파일로 간주하고 일반이미지의 경우 최대 15개(21×0.7=14.7) 이상의 특징정보가 만족할 경우 개인정보 이미지로 간주한다.
실험에서는 80개의 개인정보 이미지파일들 중에서 약 3개의 이미지파일이 일반 이미지로 분류되어 96.25%의 분류 성능을 제시하였다. 261개의 일반이미지들이 가진 21개의 특징정보들을 추출하여 일반이미지파일에 개인정보 이미지파일의 해당하는 특징정보("1"의 개수)의 개수가 얼마인지는 실험한 결과, 상위 70%, 2개의 파일들에 대해서만 개인정보 이미지라고 오분류됨을 확인할 수 있다. 이것은 0.7%의 오분류율을 제시한 것으로써 임계치 결정에 충분함을 확인할 수 있다. 하지만, 개인정보 이미지에 해당하는 특징정보의 개수인 "1"의 개수에 상위와 하위 기준을 절대적으로 적용하기에는 한계가 있다. 예를 들어 "1"의 개수가 21개 특징정보의 평균인 10개보다 많거나 적을 경우에는 상위 및 하위 임계치 기준을 일괄적으로 적용함으로써 오히려 오분류율을 증가시키는 단점을 가지고 있다.
다음으로, PCA 기반의 분류기에 대하여 구체적으로 설명한다.
Principal Components Analysis(PCA)는 다차원의 특징 벡터로 이루어진 데이터 x에 대해서 최대한 원본의 정보를 유지하면서 낮은 차원으로 차원을 축소시켜 데이터를 처리하는 방법이다. 입력된 데이터의 특징을 잘 나타내는 고유의 성분들을 추출하고 이 값들 중 특징 성분이 높은 값들만을 취함으로써 차원을 줄이되 원본 정보와의 차이를 최소화하는 것이다. 여기서 최소화는 차이의 에러를 최소화하면서 데이터의 차원을 축소시킨다.
따라서 우선 데이터를 잘 표현할 수 있는 주성분 축(PCA 축)을 구하고 이 축에 데이터 x를 사영(projection) 시켜 차원을 축소한다. PCA 방법의 장점은 정보의 손실을 최소화 하면서 정보의 차원을 줄일 수 있는 장점을 가지고 있는 반면에서 계산량과 저장 공간이 증가하게 되는 단점도 가지고 있다.
결국 특징벡터의 차원이 높아짐에 따라서 발생하는 문제점은 다음과 같다. 먼저, 특징이 많으면 잡음 특징들까지 포함되므로 오히려 분류에 오류가 발생할 가능성이 커진다. 또, 특징이 많으면 패턴 분류기에 의한 학습과 인식 속도가 느려진다. 또, 특징이 많으면 모델링에 필요한 학습 집합의 크기가 커진다.
이처럼 특징정보의 개수가 많아진다는 것은 결국 벡터의 차원이 높아짐을 의미한다. 벡터의 차원이 높아지면 그 만큼 패턴에 대한 정보의 손실을 줄일 수 있지만 벡터의 차원에 일정 정보에서는 그 성능이 오히려 감소되는 것을 확인 할 수 있다. 이러한 현상을 "차원의 저주(Curse of dimensionality)"라는 용어로 표현하고 있다.
PCA 기반의 분류기는 크게 2가지 데이터 처리 기법으로 구성되어 있다. 첫 번째는 데이터의 시각화이고 두 번째는 특징 추출이다. 데이터 시각화는 데이터가 고차원일 경우에는 실제 응용을 위해 직접 그 데이터의 분포의 형태를 표시할 수가 없다. 이와 같이 고차원 데이터의 분포를 2차원 혹은 3차원 공간상으로 시각화시키고자 할 때 PCA가 사용된다. 예를 들어 2차원으로 축소하려면 PCA를 통하여 처음 두 개의 주축을 구한다. 그리고 이 주축으로 차원을 축소시키고, 이 주축을 기준으로 데이터의 추정 분포를 표현할 수 있다. 그리고 특징추축은 고차원 데이터 집합에 대한 견고한 분류기를 설계하려고 하는데 필요한 충분히 많은 데이터를 확보하고 있지 않은 경우가 있다. 이런 경우에는 PCA를 사용하여 차원을 축소시켜 분류기를 설계하면 확보한 적은 양의 표본으로도 충분히 정확한 데이터의 분포를 표현하고 분류할 수 있다.
PCA 기반의 분류기 성능을 분석하기 위해서 학습데이터(또는 샘플 데이터)의 주성분 개수에 따른 유사도를 개인정보와 일반 이미지들과의 비교 분석을 실시하였다. 비교분석 과정에서 유사도 결정 기준인 임계치를 선정하는 것이 무엇보다는 성능 평가에 중요한 요소이다.
하지만 임계치 결정전에 몇 개의 주성분을 가지고 입력 데이터를 사영할 것인가가 필요하다. 주성분 개수(1,2,3,10,20,40)에 따라 학습된 주성분 사전과 실험을 위해 사용한 개인정보 이미지와 일반 이미지들이 가지는 유사도를 분석한다. 유사도 값은 주성분 사전과 비교하여 최소값을 출력한다. 실험을 통해 두 부류의 구분이 명확한 경계선을 기준으로 임계치를 정하고, 해당 임계치보다 큰 것은 일반이미지, 그 외의 경우는 개인정보 이미지파일로 분류한다.
다음으로, 학습기반(Support Vector Machine) 기반의 분류기에 대하여 구체적으로 설명한다.
SVM(Support Vector Machines)은 polynomial, radial basis function, 그리고 multi-layer perceptron classifiers의 대안적인 학습 방법으로 패턴을 고차원 특징 공간으로 사상시킬 수 있다는 점과 대역적으로 최적의 식별이 가능한 특징을 가지고 있다.
이러한 SVM의 주요한 특징으로는 두 클래스 사이를 분리 할 수 있는 선은 무수히 많이 존재할 것이다. SVM은 두 클래스와 분리 가능한 직선 사이의 거리인 마진이 최대가 되는 직선을 선택하는 것이다. 이는 "최적분류초평면(Optimal Separating Hyperplane: OSH)"라고 정의하는데 이 OSH 상에 존재하는 점은 Support Vector라고 정의한다. 결국 SVM은 최적 분류 초평면을 포함하는 마진을 수식적으로 표현하고 이를 최대화하는 문제로 귀결된다.
하지만 모든 문제가 선형으로 분리가 가능하지는 않다. 선형으로 분리 가능한 부분은 결정 경계가 명확하여 선형으로 분리할 수 있다. 선형으로 두 부류를 구분할 수는 없는 경우도 있다. 따라서 이를 구분하기 위해서는 1차원 특징 공간에서 2차원 특징 공간으로 데이터를 사상시켜 선형으로 분리하면 가능할 것이다.
주어진 문제가 선형으로 분리가 불가능한 데이터 집합이라면 선형 분리로 인해 발생하는 오분류를 고려하여 슬랙 변수(slack variable)를 제약조건에 포함시킨다. 다른 방안으로는 비선형 변환 함수를 이용하여 입력 데이터를 고차원 공간으로 사상시키면 선형분리가 가능한 결정 경계를 가질 수 있다. 데이터를 고차원 공간으로 사상시킬 때 사상된 공간에서도 데이터들이 가진 거리를 일정 수준이상 보존해야 함으로 사상 함수를 이용하여 커널 함수(Kernel Function)를 사용한다.
도 12에서 보는 바와 같이, 학습기반(Support Vector Machine) 기반의 분류기는 제1 및 제2 샘플벡터 그룹의 샘플벡터들을 학습시켜, Support Vector 파라미터들로 형성하여 사전에 저장한다.
이때, SVM 학습을 위해, Bin수가 30이고, offset 크기는 한 픽셀로부터 0°, 45°, 90°, 135° 방향에 위치한 픽셀들과의 관계를 계산한다면 4이다. 따라서 SVM 분류기의 학습을 위해 이미지파일당 추출하는 특징정보 벡터의 크기는 [1×418] 이다. 이는 입력 이미지파일을 [100×160]으로 크기를 조정하여 160,00개의 픽셀정보들을 418개의 특징 벡터 차원으로 축소시키는 작업과 동일하다. 이로서 SVM 학습기의 입력은 418개의 노드가 주어지고 학습을 위한 사용한 SVM parameter들은 도 13과 같다. 도 13의 SVM 파라미터를 입력으로 하고 학습을 위한 학습데이터는 1,012개로써 개인정보 이미지파일 385개, 그리고 일반 이미지 654개를 사용하였다.
이상, 본 발명자에 의해서 이루어진 발명을 실시 예에 따라 구체적으로 설명하였지만, 본 발명은 실시 예에 한정되는 것은 아니고, 그 요지를 이탈하지 않는 범위에서 여러 가지로 변경 가능한 것은 물론이다.
본 발명은 인터넷 상에 게재된 이미지를 수집하여 이미지가 개인정보를 포함하는지 여부를 판단하는 개인정보 노출 검색 시스템을 개발하는 데 적용이 가능하다.

Claims (10)

  1. 인터넷 상에 게재된 이미지를 수집하여 상기 이미지가 개인정보를 포함하는지 여부를 판단하는 개인정보 노출 검색 시스템에 있어서,
    제1 및 제2 샘플벡터 그룹을 구성하여 저장하되, 상기 제1 샘플벡터 그룹은 다수의 개인정보 이미지들의 특성벡터로 구성되고, 상기 제2 샘플벡터 그룹은 다수의 일반 이미지들의 특성벡터로 구성되는 샘플벡터 저장부;
    상기 특성벡터의 각 특성에 대하여 개별적으로 성능평가를 수행하여 통과된 특성들을 추출하고, 상기 제1 및 제2 샘플벡터 그룹의 특성벡터들을 추출된 특성들로만 재구성하는 샘플벡터 재구성부;
    인터넷 상에 게재된 이미지(이하 질의 이미지)를 수집하는 이미지 수집부;
    상기 질의 이미지의 특성(feature)들을 계산하여 특성벡터를 구성하는 특성벡터 구성부;
    상기 질의 이미지의 특성벡터(이하 대상 벡터)와 상기 제1 및 제2 샘플벡터 그룹의 특성벡터(이하 샘플 벡터)들과 매칭시켜, 2개의 그룹 중 어느 그룹에 더 매칭되는지를 판단하는 이미지 매칭부; 및,
    매칭의 판단 결과에 따라 상기 질의 이미지가 개인정보 이미지인지를 판단하는 이미지 판단부를 포함하고,
    상기 특성벡터 구성부 및 상기 이미지 매칭부는 상기 샘플벡터 재구성부에 의해 재구성된 특성벡터를 이용하고,
    상기 성능평가는 상기 제1 및 제2 샘플벡터 그룹의 특성벡터들을 테스트 그룹으로 평가되고,
    상기 이미지 매칭부는 상기 대상 벡터와 상기 샘플 벡터 간의 유사성을 평가하여 유사성이 가장 큰 샘플 벡터를 추출하고, 추출된 샘플벡터가 속하는 샘플벡터 그룹에, 상기 대상벡터가 매칭되는 것으로 판단하는 것을 특징으로 하는 개인정보 노출 검색 시스템.
  2. 제1항에 있어서,
    상기 이미지 매칭부는 적어도 2개의 이미지 분류기를 이용하여 어느 그룹에 더 매칭되는지를 판단하고,
    상기 이미지 판단부는 상기 질의 이미지의 특성벡터가 제1 샘플벡터 그룹에 더 매칭되는 것으로 판단하는 이미지 분류기의 개수에 의해, 상기 질의 이미지의 개인정보 이미지 여부를 판단하는 것을 특징으로 하는 개인정보 노출 검색 시스템.
  3. 삭제
  4. 제1항에 있어서,
    상기 성능평가는 재현율(recall rate), 긍정오류율(false positive rate), 및, 부정오류율(false negative rate)을 이용하는 것을 특징으로 하는 개인정보 노출 검색 시스템.
  5. 제4항에 있어서,
    상기 특성의 재현율(recall rate)이 제1 기준율 이상이고 상기 특성의 긍정오류율(false positive rate), 또는, 부정오류율(false negative rate)이 제2 기준율 이하이면, 상기 특성이 상기 성능평가에서 통과되는 것을 특징으로 하는 개인정보 노출 검색 시스템.
  6. 삭제
  7. 제1항에 있어서,
    상기 추출된 특성은 그레이 콘트래스트(Gray Contrast), 평균 강도(Intensity), 칼라 모멘트(Moments), 픽셀값의 자기상관도(Autocorrelation), 픽셀값의 상관도(Correlation), 클러스터 쉐이드(Cluster Shade), 비유사성(Dissimilarity),색상 에너지(Energy), 색상 엔트로피(Entropy), 동질성(Homogeneity), 분산도(Variance), 합계 평균(Sum average), 합계 분산(Sum variance), 색상차 분산(Difference variance), 색상차 엔트로피(Difference entropy), 정규화 역차분(INN, Inverse difference normalized), 정규화 역차분 모멘트, 제3 모멘트(Third Moments), 불변 모멘트(Invariant Moments) 중 어느 하나 이상인 것을 특징으로 하는 개인정보 노출 검색 시스템.
  8. 삭제
  9. 제1항에 있어서,
    상기 이미지 매칭부는 상기 유사성을 유클리디안 거리(Euclidean Distance)로 계산하는 것을 특징으로 하는 개인정보 노출 검색 시스템.
  10. 제2항에 있어서,
    상기 이미지 분류기는 히스토그램 기반의 분류기, 특성정보 매칭 기반의 분류기, PCA 기반의 분류기, 학습기반(Support Vector Machine) 기반의 분류기 중 어느 하나 이상을 포함하는 것을 특징으로 하는 개인정보 노출 검색 시스템.
KR1020110026778A 2011-03-25 2011-03-25 이미지 특성정보를 이용한 개인정보 노출 검색 시스템 KR101054107B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020110026778A KR101054107B1 (ko) 2011-03-25 2011-03-25 이미지 특성정보를 이용한 개인정보 노출 검색 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020110026778A KR101054107B1 (ko) 2011-03-25 2011-03-25 이미지 특성정보를 이용한 개인정보 노출 검색 시스템

Publications (1)

Publication Number Publication Date
KR101054107B1 true KR101054107B1 (ko) 2011-08-03

Family

ID=44932839

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020110026778A KR101054107B1 (ko) 2011-03-25 2011-03-25 이미지 특성정보를 이용한 개인정보 노출 검색 시스템

Country Status (1)

Country Link
KR (1) KR101054107B1 (ko)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101309592B1 (ko) 2011-08-18 2013-11-21 주식회사 자바웨어 개인 정보 보호 방법
KR101537032B1 (ko) * 2014-05-15 2015-07-15 심해청 영상 필터링을 위한 영상 특징정보 생성 방법 및 그 방법이 기록된 기록매체
KR20160016201A (ko) * 2014-08-04 2016-02-15 조정현 개인정보 자동 검색 시스템, 방법 및 컴퓨터프로그램
KR101906229B1 (ko) * 2018-01-02 2018-10-11 (주)지란지교시큐리티 파일 내 포함된 특정정보 탐지장치 및 방법, 그 기록매체
KR20200137161A (ko) * 2019-05-29 2020-12-09 주식회사 허그케어앤테라퓨틱스 인공지능기반 개인맞춤형 인지 중재 방법
KR102276189B1 (ko) * 2020-11-13 2021-07-12 주식회사 스파이스웨어 암호화 네트워크를 이용한 개인정보 암호화 방법 및 장치
KR102318981B1 (ko) * 2020-11-13 2021-10-29 주식회사 스파이스웨어 이미지 합성을 이용한 개인정보 암호화 방법 및 장치
KR20220090332A (ko) * 2020-12-22 2022-06-29 연세대학교 원주산학협력단 Cdm 패킷을 이용하여 개인정보 노출 여부를 결정하는 방법 및 장치

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100084510A (ko) * 2007-09-12 2010-07-26 레퓨테이션디펜더, 인코포레이티드 전자 소스로부터 특정 개체와 관련된 정보를 식별하는 방법, 시스템 및 장치
KR20110027666A (ko) * 2008-06-06 2011-03-16 톰슨 라이센싱 이미지들의 유사성 검색을 위한 시스템 및 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100084510A (ko) * 2007-09-12 2010-07-26 레퓨테이션디펜더, 인코포레이티드 전자 소스로부터 특정 개체와 관련된 정보를 식별하는 방법, 시스템 및 장치
KR20110027666A (ko) * 2008-06-06 2011-03-16 톰슨 라이센싱 이미지들의 유사성 검색을 위한 시스템 및 방법

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101309592B1 (ko) 2011-08-18 2013-11-21 주식회사 자바웨어 개인 정보 보호 방법
KR101537032B1 (ko) * 2014-05-15 2015-07-15 심해청 영상 필터링을 위한 영상 특징정보 생성 방법 및 그 방법이 기록된 기록매체
KR20160016201A (ko) * 2014-08-04 2016-02-15 조정현 개인정보 자동 검색 시스템, 방법 및 컴퓨터프로그램
KR101667784B1 (ko) * 2014-08-04 2016-10-19 조정현 개인정보 자동 검색 시스템, 방법 및 컴퓨터프로그램
KR101906229B1 (ko) * 2018-01-02 2018-10-11 (주)지란지교시큐리티 파일 내 포함된 특정정보 탐지장치 및 방법, 그 기록매체
KR20200137161A (ko) * 2019-05-29 2020-12-09 주식회사 허그케어앤테라퓨틱스 인공지능기반 개인맞춤형 인지 중재 방법
KR102273149B1 (ko) 2019-05-29 2021-07-07 주식회사 허그케어앤테라퓨틱스 인공지능기반 개인맞춤형 인지 중재 방법
KR102276189B1 (ko) * 2020-11-13 2021-07-12 주식회사 스파이스웨어 암호화 네트워크를 이용한 개인정보 암호화 방법 및 장치
KR102318981B1 (ko) * 2020-11-13 2021-10-29 주식회사 스파이스웨어 이미지 합성을 이용한 개인정보 암호화 방법 및 장치
KR20220090332A (ko) * 2020-12-22 2022-06-29 연세대학교 원주산학협력단 Cdm 패킷을 이용하여 개인정보 노출 여부를 결정하는 방법 및 장치
KR102440180B1 (ko) * 2020-12-22 2022-09-02 연세대학교 원주산학협력단 Cdm 패킷을 이용하여 개인정보 노출 여부를 결정하는 방법 및 장치

Similar Documents

Publication Publication Date Title
KR101054107B1 (ko) 이미지 특성정보를 이용한 개인정보 노출 검색 시스템
Williford et al. Explainable face recognition
Ferrara et al. Face morphing detection in the presence of printing/scanning and heterogeneous image sources
Singh et al. A survey of OCR applications
Shojae Chaeikar et al. PSW statistical LSB image steganalysis
Wang et al. Perceptual hashing‐based image copy‐move forgery detection
AU2017200935A1 (en) Method for securing and verifying a document
US10867170B2 (en) System and method of identifying an image containing an identification document
Xiang et al. Research on splicing image detection algorithms based on natural image statistical characteristics
Mahale et al. Image inconsistency detection using local binary pattern (LBP)
Tao et al. Local difference ternary sequences descriptor based on unsupervised min redundancy mutual information feature selection
Nandanwar et al. A new method for detecting altered text in document images
Nandanwar et al. Forged text detection in video, scene, and document images
Alkhowaiter et al. Evaluating perceptual hashing algorithms in detecting image manipulation over social media platforms
Roy et al. A new multi-modal technique for bib number/text detection in natural images
Saadi et al. Image Fake News Prediction Based on Random Forest and Gradient-boosting Methods
Al-Jarrah et al. Steganalysis using LSB-focused statistical features
Lu et al. Detection of image seam carving using a novel pattern
Hannan et al. Analysis of detection and recognition of Human Face using Support Vector Machine
Steinebach et al. FaceHash: face detection and robust hashing
Tolendiyev et al. Adaptive margin based liveness detection for face recognition
Mahale et al. Copy-Move Image Forgery Detection Using Discrete Wavelet Transform
Hmood et al. Statistical edge-based feature selection for counterfeit coin detection
Chennupati A structured approach to JPEG tampering detection using enhanced fusion algorithm
Khandan An intelligent hybrid model for identity document classification

Legal Events

Date Code Title Description
A201 Request for examination
A302 Request for accelerated examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20140703

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20150720

Year of fee payment: 5

LAPS Lapse due to unpaid annual fee