KR102035796B1

KR102035796B1 - 데이터를 비식별 처리하는 방법, 시스템 및 비일시성의 컴퓨터 판독 가능 기록 매체

Info

Publication number: KR102035796B1
Application number: KR1020180086929A
Authority: KR
Inventors: 김태훈
Original assignee: 주식회사 딥핑소스
Priority date: 2018-07-26
Filing date: 2018-07-26
Publication date: 2019-10-24
Also published as: US10635788B2; EP3827366A1; JP7041823B2; US10747854B2; US20200201957A1; WO2020022703A1; US20200034520A1; JP2021523489A; EP3827366C0; JP2021512442A; US10896246B2; WO2020022704A1; CN111373403B; CN111373403A; EP3827365A1; EP3827366A4; EP3827366B1; EP3827365A4; JP7040712B2; US20200034565A1

Abstract

본 발명의 일 태양에 따르면, 데이터를 비식별(anonymization) 처리하는 방법으로서, 원본 데이터를 획득하는 단계, 및 상기 원본 데이터로부터 변조(obfuscation)되는 변조 데이터로서, 학습 모델(learning model)에 입력되면, 상기 학습 모델에 상기 원본 데이터가 입력됨에 따라 출력되는 결과와 서로 동일하거나 유사한 결과가 출력되는 변조 데이터를 비식별 처리된 데이터로서 생성하는 단계를 포함하는 방법이 제공된다.

Description

데이터를 비식별 처리하는 방법, 시스템 및 비일시성의 컴퓨터 판독 가능 기록 매체{METHOD, SYSTEM AND NON-TRANSITORY COMPUTER-READABLE RECORDING MEDIUM FOR PROCESSING DATA TO BE ANONYMIZED}

본 발명은 데이터를 비식별 처리하는 방법, 시스템 및 비일시성의 컴퓨터 판독 가능 기록 매체에 관한 것이다.

빅데이터(big data)란, 기존의 기업 환경이나 공공 기관에서 사용되는 정형화된 데이터는 물론, 전자 상거래 데이터, 메타 데이터, 웹 로그 데이터, 무선 식별(RFID; Radio Frequency Identification) 데이터, 센서 네트워크 데이터, 소셜 네트워크 데이터, 인터넷 텍스트와 문서에 관한 데이터, 인터넷 검색 인덱싱 데이터 등 기존에 미처 활용되지 못하던 비정형화 또는 반정형화된 데이터를 모두 포함하는 데이터로서, 이와 같은 데이터는 일반적으로 보통의 소프트웨어 툴 및 컴퓨터 시스템으로는 다루기 어려운 수준의 데이터 양을 갖게 된다는 의미에서 빅데이터라 칭하고 있다.

또한, 이러한 빅데이터는 그 자체만으로는 의미가 없을 수 있으나, 패턴 등에 대한 기계 학습을 통해 다양한 분야에서 새로운 데이터를 만들어내거나 판단 또는 예측을 하는데 유용하게 사용될 수 있다.

근래에 들어, 개인 정보 보호법 강화 등으로 인해 이러한 빅데이터를 거래 또는 공유하기 위해서는 해당 데이터의 개인 식별이 가능한 정보를 삭제하거나 해당 개인의 동의를 받는 것이 요구되었다. 하지만, 상당한 양의 빅데이터 중 개인 식별이 가능한 정보가 있는지 여부를 일일이 확인하기도 어려울 뿐만 아니라 개인의 동의를 일일이 받는 것도 불가능하였기 때문에 이를 지원하기 위한 다양한 기술들이 등장하고 있다.

이에 관한 종래 기술의 일 예로서, 한국등록특허공보 제1861520호에 개시된 기술을 예로 들 수 있는데, 이에 따르면, 입력된 변형 대상 이미지에서 사람의 얼굴 영역을 검출하는 검출 단계, 상기 변형 대상 이미지에서 사람이 비식별되도록 상기 검출된 얼굴 영역을 사람의 얼굴 형상이 아닌 왜곡된 제1 이미지로 변형하는 제1 비식별화 단계, 및 상기 제1 이미지를 토대로 소정의 얼굴 형상을 갖는 제2 이미지를 생성하고, 상기 변형 대상 이미지에서 상기 제1 이미지를 상기 제2 이미지로 변형시키되, 상기 제2 이미지는 상기 검출 단계에서 검출된 얼굴 영역의 형상과 상이한 얼굴 형상을 갖도록 생성되는 제2 비식별화 단계를 포함하는 얼굴 비식별화 방법이 제공된다.

하지만, 위와 같은 종래 기술을 비롯하여 지금까지 소개된 기술에 의하면, 데이터 상에 얼굴, 텍스트 등의 식별 정보를 포함하는지 여부를 확인하고, 식별 정보에 해당하는 부분을 마스킹(masking) 또는 블러(blur) 처리하여 지우거나 가리는 방식이었기 때문에, 원본 데이터의 손상으로 인해 기계 학습에서 사용되기 어려웠고, 데이터 상에 예측하기 못한 식별 정보가 포함되어 이를 비식별화하지 못하는 경우도 종종 발생하였다. 특히, 종래의 보안 카메라(security camera)는 영상 이미지 내에서 프레임 간 변화가 있는 모든 픽셀을 블러(blur) 처리하는 방식으로 비식별 처리를 수행하게 되는데, 이러한 방식으로 비식별 처리를 수행하게 되면, 비식별 처리된 얼굴의 표정 등 주요 정보가 원본 영상 이미지에 담긴 정보와 달라지게 될 뿐만 아니라 얼굴 검출 과정에서 누락된 개인 식별 정보가 원본 영상 이미지 상에 그대로 남게 되는 문제가 있었다.

이에 본 발명자(들)는, 원본 데이터와 상이하게 변조(obfuscation)된 변조 데이터를 생성하되, 학습 모델에 원본 데이터가 입력됨에 따라 출력되는 결과와 해당 학습 모델에 위의 변조 데이터가 입력됨에 따라 출력되는 결과가 서로 동일하거나 유사하게 되는 기술을 제안하는 바이다.

본 발명은, 전술한 종래 기술의 문제점을 모두 해결하는 것을 그 목적으로 한다.

또한, 본 발명은, 데이터 내에서 개인 식별 정보를 찾는 작업이 요구되지 않으므로, 비교적 간편하면서도 정확하게 비식별(anonymization) 처리를 수행할 수 있도록 하는 것을 또 다른 목적으로 한다.

또한, 본 발명은, 원본 데이터로부터 비가역적으로 변조(obfuscation)하여 비식별(anonymization) 처리된 데이터를 생성함으로써, 원본 데이터의 보안 및 프라이버시를 지킬 수 있는 것을 또 다른 목적으로 한다.

또한, 본 발명은, 인간에게는 전혀 다르게 보이는 데이터이지만, 컴퓨터에게는 서로 동일하거나 유사하게 보이는 데이터를 생성하는 것을 또 다른 목적으로 한다.

또한, 본 발명은, 빅데이터 거래 시장을 보다 활성화시키는 것을 또 다른 목적으로 한다.

상기 목적을 달성하기 위한 본 발명의 대표적인 구성은 다음과 같다.

본 발명의 다른 태양에 따르면, 데이터를 비식별(anonymization) 처리하는 시스템으로서, 원본 데이터를 획득하는 원본 데이터 획득부, 및 상기 원본 데이터로부터 변조(obfuscation)되는 변조 데이터로서, 학습 모델(learning model)에 입력되면, 상기 학습 모델에 상기 원본 데이터가 입력됨에 따라 출력되는 결과와 서로 동일하거나 유사한 결과가 출력되는 변조 데이터를 비식별 처리된 데이터로서 생성하는 비식별 처리 데이터 생성부를 포함하는 시스템이 제공된다.

이 외에도, 본 발명을 구현하기 위한 다른 방법, 다른 시스템 및 상기 방법을 실행하기 위한 컴퓨터 프로그램을 기록하는 비일시성의 컴퓨터 판독 가능한 기록 매체가 더 제공된다.

본 발명에 의하면, 데이터 내에서 개인 식별 정보를 찾는 작업이 요구되지 않으므로, 비교적 간편하면서도 정확하게 비식별(anonymization) 처리를 수행할 수 있게 된다.

또한, 본 발명에 의하면, 원본 데이터로부터 비가역적으로 변조(obfuscation)하여 비식별(anonymization) 처리된 데이터를 생성함으로써, 데이터의 보안 및 프라이버시를 지킬 수 있게 된다.

또한, 본 발명에 의하면, 인간에게는 전혀 다르게 보이는 데이터이지만, 컴퓨터에게는 서로 동일하거나 유사하게 보이는 데이터를 생성할 수 있게 된다.

또한, 본 발명에 의하면, 빅데이터 거래 시장을 보다 활성화시킬 수 있게 된다.

도 1은 본 발명의 일 실시예에 따라 데이터를 비식별(anonymization) 처리하기 위한 전체 시스템의 구성을 개략적으로 나타내는 도면이다.
도 2는 본 발명의 일 실시예에 따른 비식별 처리 시스템의 내부 구성을 예시적으로 나타내는 도면이다.
도 3 및 도 4는 본 발명의 일 실시예에 따라 데이터가 비식별 처리되는 과정의 일부를 예시적으로 나타내는 도면이다.
도 5 및 도 6은 본 발명의 일 실시예에 따라 원본 이미지 데이터가 비식별 처리되는 과정을 예시적으로 나타내는 도면이다.

후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이러한 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 본 명세서에 기재되어 있는 특정 형상, 구조 및 특성은 본 발명의 정신과 범위를 벗어나지 않으면서 일 실시예로부터 다른 실시예로 변경되어 구현될 수 있다. 또한, 각각의 실시예 내의 개별 구성요소의 위치 또는 배치도 본 발명의 정신과 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 행하여지는 것이 아니며, 본 발명의 범위는 특허청구범위의 청구항들이 청구하는 범위 및 그와 균등한 모든 범위를 포괄하는 것으로 받아들여져야 한다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 구성요소를 나타낸다.

이하에서는, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 하기 위하여, 본 발명의 여러 바람직한 실시예에 관하여 첨부된 도면을 참조하여 상세히 설명하기로 한다.

전체 시스템의 구성

도 1은 본 발명의 일 실시예에 따라 데이터를 비식별(anonymization) 처리하기 위한 전체 시스템의 구성을 개략적으로 나타내는 도면이다.

도 1에 도시된 바와 같이, 본 발명의 일 실시예에 따른 전체 시스템은 통신망(100), 비식별(anonymization) 처리 시스템(200) 및 디바이스(300)를 포함할 수 있다.

먼저, 본 발명의 일 실시예에 따르면, 통신망(100)은 유선 통신이나 무선 통신과 같은 통신 양태를 가리지 않고 구성될 수 있으며, 근거리 통신망(LAN; Local Area Network), 도시권 통신망(MAN; Metropolitan Area Network), 광역 통신망(WAN; Wide Area Network) 등 다양한 통신망으로 구성될 수 있다. 바람직하게는, 본 명세서에서 말하는 통신망(100)은 공지의 인터넷 또는 월드와이드웹(WWW; World Wide Web)일 수 있다. 그러나, 통신망(100)은, 굳이 이에 국한될 필요 없이, 공지의 유무선 데이터 통신망, 공지의 전화망 또는 공지의 유무선 텔레비전 통신망을 그 적어도 일부에 있어서 포함할 수도 있다.

예를 들면, 통신망(100)은 무선 데이터 통신망으로서, 와이파이(WiFi) 통신, 와이파이 다이렉트(WiFi-Direct) 통신, 롱텀 에볼루션(LTE, Long Term Evolution) 통신, 블루투스 통신(더 구체적으로는, 저전력 블루투스(BLE; Bluetooth Low Energy)), 적외선 통신, 초음파 통신 등과 같은 종래의 통신 방법을 적어도 그 일부분에 있어서 구현하는 것일 수 있다.

다음으로, 본 발명의 일 실시예에 따른 비식별 처리 시스템(200)은 통신망(100)을 통하여 후술할 디바이스(300)와 통신을 수행할 수 있고, 원본 데이터를 획득하고, 위의 원본 데이터로부터 변조(obfuscation)되는 변조 데이터로서, 학습 모델(learning model)에 입력되면, 그 학습 모델에 위의 원본 데이터가 입력됨에 따라 출력되는 결과와 서로 동일하거나 유사한 결과가 출력되는 변조 데이터를 비식별 처리된 데이터로서 생성하는 기능을 수행할 수 있다. 예를 들어, 본 발명의 일 실시예에 따른 비식별 처리 시스템(200)은 서버 시스템일 수 있다.

또한, 본 발명의 일 실시예에 따르면, 위의 학습 모델에는 기계 학습(machine learning) 모델, 강화 학습(reinforcement learning) 모델, 딥 러닝(deep learning) 모델, 신경망 학습(neural network learning) 모델 등이 포함될 수 있다.

비식별 처리 시스템(200)의 기능에 관하여는 아래에서 더 자세하게 알아보기로 한다. 한편, 비식별 처리 시스템(200)에 관하여 위와 같이 설명되었으나, 이러한 설명은 예시적인 것이고, 비식별 처리 시스템(200)에 요구되는 기능이나 구성요소의 적어도 일부가 필요에 따라 후술할 디바이스(300) 내에서 실현(예를 들어, 비식별 처리 시스템(200)에 요구되는 기능이나 구성요소의 적어도 일부가 IC 칩(구체적으로는, 디바이스(300)에 포함된 IC 칩)에 의해 구현될 수 있다.)되거나 외부 시스템(미도시됨) 내에 포함될 수도 있음은 당업자에게 자명하다.

다음으로, 본 발명의 일 실시예에 따른 디바이스(300)는 통신망(100)을 통해 비식별 처리 시스템(200)에 접속한 후 통신할 수 있도록 하는 기능을 포함하는 디지털 기기로서, 스마트폰, 태블릿 PC 등과 같이 메모리 수단을 구비하고 마이크로 프로세서를 탑재하여 연산 능력을 갖춘 디지털 기기라면 얼마든지 본 발명에 따른 디바이스(300)로서 채택될 수 있다.

한편, 본 발명의 일 실시예에 따르면, 디바이스(300)에는 본 발명에 따른 데이터의 비식별 처리를 지원하기 위한 애플리케이션이 포함되어 있을 수 있다. 이와 같은 애플리케이션은 비식별 처리 시스템(200) 또는 외부의 애플리케이션 배포 서버(미도시됨)로부터 다운로드된 것일 수 있다.

비식별 처리 시스템의 구성

이하에서는, 본 발명의 구현을 위하여 중요한 기능을 수행하는 비식별 처리 시스템(200)의 내부 구성 및 각 구성요소의 기능에 대하여 살펴보기로 한다.

도 2는 본 발명의 일 실시예에 따른 비식별 처리 시스템(200)의 내부 구성을 예시적으로 나타내는 도면이다.

도 2를 참조하면, 본 발명의 일 실시예에 따른 비식별 처리 시스템(200)은 원본 데이터 획득부(210), 비식별 처리 데이터 생성부(220), 통신부(230) 및 제어부(240)를 포함할 수 있다. 본 발명의 일 실시예에 따르면, 원본 데이터 획득부(210), 비식별 처리 데이터 생성부(220), 통신부(230) 및 제어부(240)는 그 중 적어도 일부가 외부 시스템(미도시됨)과 통신하는 프로그램 모듈들일 수 있다. 이러한 프로그램 모듈들은 운영 시스템, 응용 프로그램 모듈 및 기타 프로그램 모듈의 형태로 비식별 처리 시스템(200)에 포함될 수 있으며, 물리적으로는 여러 가지 공지의 기억 장치 상에 저장될 수 있다. 또한, 이러한 프로그램 모듈들은 비식별 처리 시스템(200)과 통신 가능한 원격 기억 장치에 저장될 수도 있다. 한편, 이러한 프로그램 모듈들은 본 발명에 따라 후술할 특정 업무를 수행하거나 특정 추상 데이터 유형을 실행하는 루틴, 서브루틴, 프로그램, 오브젝트, 컴포넌트, 데이터 구조 등을 포괄하지만, 이에 제한되지는 않는다.

먼저, 본 발명의 일 실시예에 따른 원본 데이터 획득부(210)는 원본 데이터를 획득하는 기능을 수행할 수 있다.

예를 들어, 본 발명의 일 실시예에 따른 원본 데이터 획득부(210)는 문자, 이미지 및 소리 중 적어도 하나에 관한 데이터를 원본 데이터로서 획득할 수 있다.

한편, 본 발명의 일 실시예에 따르면, 위의 원본 데이터는 기계 학습 모델을 통해 학습을 시키는데 사용되는 데이터를 포함할 수 있다.

다음으로, 본 발명의 일 실시예에 따른 비식별 처리 데이터 생성부(220)는 원본 데이터로부터 변조(obfuscation)되는 변조 데이터로서, 학습 모델(learning model)에 입력되면, 해당 학습 모델에 위의 원본 데이터가 입력됨에 따라 출력되는 결과와 서로 동일하거나 유사한 결과가 출력되는 변조 데이터를 비식별 처리된 데이터로서 생성할 수 있다. 본 발명의 일 실시예에 따르면, 위의 결과는 위의 데이터(즉, 원본 데이터 또는 변조 데이터) 내 소정 특징과 연관된 확률(probability), 벡터(vector), 행렬(matrix) 및 좌표(coordinate) 중 적어도 하나에 관한 값을 포함할 수 있다. 예를 들어, 본 발명의 일 실시예에 따르면, 원본 데이터가 얼굴 이미지 데이터인 경우에, 위의 결과는 얼굴 특징점(landmark point, 예를 들어, 눈의 양 끝점)에 관한 좌표 또는 얼굴 특징점에 관한 확률 분포(probability distribution)값 또는 로짓(logits)값일 수 있다.

구체적으로, 본 발명의 일 실시예에 따른 비식별 처리 데이터 생성부(220)는 원본 데이터를 변조하여 후보 변조 데이터를 생성할 수 있다. 또한, 본 발명의 일 실시예에 따른 비식별 처리 데이터 생성부(220)는 적어도 하나의 학습 모델에서 위의 후보 변조 데이터가 입력됨에 따라 출력되는 결과 및 위의 원본 데이터가 입력됨에 따라 출력되는 결과 사이의 차이를 산출하고, 그 산출되는 차이에 기초하여 위의 후보 변조 데이터를 보정할 수 있다.

예를 들어, 도 3을 참조하면, 본 발명의 일 실시예에 따른 비식별 처리 데이터 생성부(220)는 원본 데이터 x를 변조하여(예를 들어, 정규분포 N(0, σ)를 노이즈로서 부가하여) 후보 변조 데이터 x'을 생성할 수 있다(310). 그 다음에, 본 발명의 일 실시예에 따른 제1 학습 모델 F₁에서 위의 후보 변조 데이터 x'이 입력됨에 따라 출력되는 결과 및 위의 원본 데이터 x가 입력됨에 따라 출력되는 결과 사이의 차이의 노름(norm)(즉, "||F₁(x)-F₁(x')||")을 에러값(err)으로서 산출할 수 있다(320). 그 다음에, 본 발명의 일 실시예에 따른 비식별 처리 데이터 생성부(220)는 위의 에러값에 기초하여 역전파된 그라디언트(back propagated-gradient from err)를 산출하여 위의 후보 데이터 x'에 반영(예를 들어, 위의 후보 데이터 x'와 위의 역전파된 그라디언트의 합을 위의 후보 데이터 x'로 함)시킴으로써, 위의 후보 변조 데이터 x'을 보정할 수 있다(330). 그 다음에, 본 발명의 일 실시예에 따른 비식별 처리 데이터 생성부(220)는 제2 학습 모델 F₂에서 위의 보정된 후보 변조 데이터 x'이 입력됨에 따라 출력되는 결과 및 위의 원본 데이터 x가 입력됨에 따라 출력되는 결과 사이의 차이의 노름(norm)(즉, "||F₂(x)-F₂(x')||")을 에러값(err)으로서 산출할 수 있다(320). 그 다음에, 본 발명의 일 실시예에 따른 비식별 처리 데이터 생성부(220)는 위의 에러값에 기초하여 역전파된 그라디언트(back propagated-gradient from err)를 산출하여 위의 보정된 후보 변조 데이터 x'을 재보정할 수 있다(330). 또한, 본 발명의 일 실시예에 따르면, 비식별 처리 데이터 생성부(220)는 위의 재보정 이후에 제3 내지 제N 학습 모델(즉 F₃ 내지 F_N)에 대하여도 위와 동일한 과정을 반복하여 수행할 수 있고, 이를 통해 위의 재보정된 후보 변조 데이터 x'을 재차 보정할 수 있다. 한편, 본 발명의 일 실시예에 따르면, 위의 에러값(err)을 산출함에 있어서, 위의 제N 학습 모델 F_N에서의 에러값은, 제1 내지 제N 학습 모델 각각에서의 노름의 합에 기초하여 산출될 수도 있다. 예를 들어, 본 발명의 일 실시예에 따르면, 위의 제N 학습 모델 F_N에서의 에러값은 ∑_N||F_N(x)-F_N(x')||에 기초하여 산출될 수 있다.

한편, 앞서 살펴본 예에서는 결과 사이의 차이에 기초하여 에러값을 구하는 과정에서 노름(구체적으로는 L1 노름(norm))을 이용하였으나, 이에 한정되지 않고, 코사인 유사도(cosine similarity), L2 노름(norm) 등 거리 차이를 산출하는 다른 방식 또한 본 발명의 목적을 달성할 수 있는 범위 내에서 얼마든지 사용될 수 잇다.

또한, 본 발명의 일 실시예에 따른 비식별 처리 데이터 생성부(220)는 위의 학습 모델에 원본 데이터가 입력됨에 따라 출력되는 결과와 위의 학습 모델에 비식별 처리된 데이터가 입력됨에 따라 출력되는 결과 사이의 차이를 감소(또는 최소화)시키고, 원본 데이터와 비식별 처리된 데이터 사이의 차이를 증가(또는 최대화)시키도록 하여 위의 비식별 처리된 데이터를 생성할 수 있다.

예를 들어, 도 4를 참조하면, 본 발명의 일 실시예에 따른 비식별 처리 데이터 생성부(220)는 원본 데이터 x를 변조하여(예를 들어, 정규분포 N(0, σ)를 노이즈로서 부가하여) 후보 변조 데이터 x'을 생성할 수 있다(410). 이 경우에, 본 발명의 일 실시예에 따르면, 위의 원본 데이터 x를 위의 후보 변조 데이터 x'로 변조하는 목적 함수를 O(x)로 가정해 볼 수 있다. 또한, 본 발명의 일 실시예에 따른 비식별 처리 데이터 생성부(220)는 제1 학습 모델 F₁에서 위의 후보 변조 데이터 x'이 입력됨에 따라 출력되는 결과 및 위의 원본 데이터 x가 입력됨에 따라 출력되는 결과 차이의 노름(norm)에 기초하여 에러값(err)을 산출할 수 있다(예를 들어, 이러한 에러값은 앞서 살펴본 ∑_N||F_N(x)-F_N(x')|| 수식을 통해 ∑₁||F₁(x)-F₁(x')||로 산출될 수도 있다.)(420).

그 다음에, 본 발명의 일 실시예에 따른 비식별 처리 데이터 생성부(220)는, 후보 변조 데이터 x'으로부터 원본 데이터 x와 연관된 시각적(예를 들어, 원본 데이터가 문자 또는 이미지에 관한 데이터인 경우) 또는 청각적(예를 들어, 원본 데이터가 소리에 관한 데이터인 경우) 특징을 제거하는 방해 모델 D에 기초하여 위의 에러값(err)을 보정할 수 있다(430).

예를 들어, 본 발명의 일 실시예에 따르면, 위의 방해 모델 D는 적대적 트레이닝(adversarial training)을 이용한 학습(예를 들어, 실제(real)/가짜(fake) 학습)에 기초하여 특정되는 모델일 수 있고, 그 모델로부터 원본 데이터 x 및 후보 변조 데이터 x' 사이의 차이를 소정 수준 이상으로 증가(또는 최대화)시키기 위한 출력값이 산출될 수 있으며, 비식별 처리 데이터 생성부(220)가 그 출력값을 위의 에러값에 반영시킴으로써, 위의 에러값을 보정할 수 있다. 즉, 위의 에러값에 위의 출력값을 반영시킴으로써, 원본 데이터 x와 후보 변조 데이터 x' 사이의 차이를 증가시키고, 이를 통해, 원본 데이터 x와 후보 변조 데이터 x'가 시각적 또는 청각적으로 서로 상이하게 될 수 있다.

한편, 본 발명의 일 실시예에 따르면, 이러한 방해 모델 D는 후보 변조 데이터 x'에서 원본 데이터 x로 복구가 될 수 없도록 위의 에러값을 더 보정함으로써, 비가역(irreciprocal) 처리를 더 수행하는 모델일 수 있다.

그 다음에, 본 발명의 일 실시예에 따른 비식별 처리 데이터 생성부(220)는 위의 보정된 에러값에 기초하여 위의 제1 학습 모델 F₁에 원본 데이터가 입력됨에 따라 출력되는 결과와 위의 제1 학습 모델 F₁에 후보 변조 데이터 x'이 입력됨에 따라 출력되는 결과 사이의 차이를 감소(또는 최소화)시키도록 위의 O(x) 함수를 보정할 수 있다(440).

예를 들어, 본 발명의 일 실시예에 따른 비식별 처리 데이터 생성부(220)는 위의 보정된 에러값이 소정 수준 이하로 작아지도록 O(x) 함수를 보정할 수 있고, 이를 통해, 위의 제1 학습 모델 F₁에 원본 데이터가 입력됨에 따라 출력되는 결과와 위의 제1 학습 모델 F₁에 후보 변조 데이터 x'이 입력됨에 따라 출력되는 결과 사이의 차이가 작아지도록(또는 최소화) 할 수 있다.

그 다음에, 위의 본 발명의 일 실시예에 따른 비식별 처리 데이터 생성부(220)는 위의 보정 이후에 제2 내지 제N 학습 모델(즉 F₂ 내지 F_N)에 대하여도 위와 동일한 과정을 반복하여 수행할 수 있고, 위의 과정을 반복하여 N회 보정된 O(x)에 원본 데이터 x가 입력됨에 따라 출력되는 결과를 비식별 처리된 데이터로서 생성할 수 있다(450).

다음으로, 본 발명의 일 실시예에 따르면, 통신부(230)는 원본 데이터 획득부(210) 및 비식별 처리 데이터 생성부(220)로부터의/로의 데이터 송수신이 가능하도록 하는 기능을 수행할 수 있다.

마지막으로, 본 발명의 일 실시예에 따르면, 제어부(240)는 원본 데이터 획득부(210), 비식별 처리 데이터 생성부(220) 및 통신부(230) 간의 데이터의 흐름을 제어하는 기능을 수행할 수 있다. 즉, 본 발명에 따른 제어부(240)는 비식별 처리 시스템(200)의 외부로부터의/로의 데이터 흐름 또는 비식별 처리 시스템(200)의 각 구성요소 간의 데이터 흐름을 제어함으로써, 원본 데이터 획득부(210), 비식별 처리 데이터 생성부(220) 및 통신부(230)에서 각각 고유 기능을 수행하도록 제어할 수 있다.

도 5 및 도 6은 본 발명의 일 실시예에 따라 원본 이미지 데이터가 비식별 처리되는 과정을 예시적으로 나타내는 도면이다.

도 5의 (a)는 캐나다 고등 연구소(CIFAR; Canadian Institute for Advanced Research)에서 이미지 분류 문제 해결을 위해 수집해 정리한 데이터인 CIFAR-10 분류 데이터 세트로부터 선정된 64개의 이미지 샘플을 예시적으로 나타내는 도면이다.

먼저, 도 5의 (a) 및 도 6을 참조하면, 본 발명의 일 실시예에 따른 비식별 처리 시스템(200)은 위의 64개의 이미지 샘플을 원본 이미지 데이터로서 획득할 수 있다.

그 다음에, 본 발명의 일 실시예에 따른 비식별 처리 시스템(200)은 위의 원본 이미지 데이터 x에 정규 분포 N(0, σ)를 노이즈로서 부가하여 후보 변조 이미지 데이터 x'을 생성할 수 있다(610). 이 경우에, 본 발명의 일 실시예에 따르면, 위의 원본 이미지 데이터 x를 위의 후보 변조 이미지 데이터 x'로 변조하는 목적 함수를 O(x)로 가정해 볼 수 있다.

그 다음에, 본 발명의 일 실시예에 따른 비식별 처리 시스템(200)은 제1 학습 모델 F₁에서 위의 후보 변조 이미지 데이터 x'이 입력됨에 따라 출력되는 결과 및 위의 원본 이미지 데이터 x가 입력됨에 따라 출력되는 결과 차이의 노름(norm)에 기초하여 에러값(err)을 산출할 수 있다(620).

그 다음에, 본 발명의 일 실시예에 따른 비식별 처리 시스템(200)은, 후보 변조 이미지 데이터 x'으로부터 원본 이미지 데이터 x와 연관된 시각적 특징을 소정 수준 이상 변형 또는 제거(즉, 시각적으로 다르게 보이도록)하고 후보 변조 이미지 데이터 x'에서 원본 이미지 데이터 x로 복구가 불가능하도록 하는 방해 모델 D에 기초하여 위의 에러값(err)을 보정할 수 있다(640). 한편, 본 발명의 일 실시예에 따르면, 위의 방해 모델 D는 적대적 트레이닝(adversarial training)을 이용한 학습(예를 들어, 실제(real)/가짜(fake) 학습)에 기초하여 특정되는 모델일 수 있다. 예를 들어, 방해 모델 D와 위의 O(x) 사이의 관계는 아래 수학식 1과 같이 설정될 수 있다.

이 경우에, 본 발명의 일 실시예에 따르면, V(O, D)는 O(x)의 최소 및 D(x)의 최대를 만족시키는 값을 찾는 가치 함수(value function)일 수 있고, p_desired 및 p_x는 각각 원하는 분포(desired distribution) 및 데이터 분포(data distribution)를 의미할 수 있다.

그 다음에, 본 발명의 일 실시예에 따른 비식별 처리 시스템(200)은 위의 보정된 에러값에 기초하여 위의 제1 학습 모델 F₁에 원본 이미지 데이터가 입력됨에 따라 출력되는 결과와 위의 제1 학습 모델 F₁에 후보 변조 이미지 데이터 x'이 입력됨에 따라 출력되는 결과 사이의 차이가 최소화되도록 위의 O(x) 함수를 보정할 수 있다(650).

그 다음에, 본 발명의 일 실시예에 따르면, 비식별 처리 시스템(200)은 제2 내지 제N 학습 모델(즉 F₂ 내지 F_N)에 대하여도 위와 동일한 과정을 반복하여 수행함으로써, O(x) 함수를 재차 보정할 수 있다. 한편, 본 발명의 일 실시예에 따르면, 위의 N은 제N 학습 모델 F_N에 원본 이미지 데이터가 입력됨에 따라 출력되는 결과와 N-1회 보정된 후보 변조 이미지 데이터 x'이 입력됨에 따라 출력되는 결과 사이의 차이가 소정 수준 이하가 되는 값으로 결정될 수 있다.

그 다음에, 본 발명의 일 실시예에 따르면, 비식별 처리 시스템(200)은 위의 N회(또는 N-1회) 보정된 O(x)에 원본 이미지 데이터 x가 입력됨에 따라 출력되는 결과를 비식별 처리된 이미지 데이터로서 생성할 수 있다(660).

도 5의 (b)는 본 발명의 일 실시예에 따라 위의 64개의 원본 이미지 데이터가 비식별 처리된 결과를 예시적으로 나타내는 도면이다.

도 5의 (a) 및 도 5의 (b)를 참조하면, 본 발명의 일 실시예에 따른 도 5의 (b)의 64개의 비식별 처리된 이미지 데이터는 도 5의 (a)의 64개의 원본 이미지 데이터와는 시각적으로 서로 상이하지만, 어떠한 학습 모델에 입력되든지 동일하거나 유사한 결과를 산출할 수 있는 데이터일 수 있다.

한편, 본 발명의 일 실시예에 따른 비식별 처리 시스템(200)에 의해 비식별 처리된 이미지 데이터는 이미지 빅데이터 구매를 원하는 구매자에게 제공(또는 판매)될 수 있다.

또한, 본 발명의 일 실시예에 따르면, 위의 구매자에게 비식별 처리된 이미지 데이터가 제공(또는 판매)되면서, 비식별 처리 시스템(200)에 의해 산출된 목적 함수 O(x)의 기능을 수행하는 변환 디바이스가 함께 제공될 수 있다. 본 발명의 일 실시예에 따르면, 구매자는 위의 변환 디바이스를 이용하여 자신이 별도로 보유하고 있는 원본 이미지 데이터로부터 비식별 처리된 데이터를 생성할 수 있게 된다. 즉, 목적 함수 O(x)의 기능을 수행하는 변환 디바이스에 기초하여 학습 모델 F(구체적으로는, 구매자에 의해 임의로 선정되는 학습 모델 F)에 원본 이미지 데이터 x가 입력됨에 따라 출력되는 결과(즉, F(x))와 해당 학습 모델 F에 비식별 처리된 이미지 데이터 x'(즉, O(x))가 입력됨에 따라 출력되는 결과(즉, F(O(x))가 서로 동일하거나 유사할 수 있게 되므로, 구매자는 위의 제공 받은 변환 디바이스를 통해 자신이 보유하거나 다른 출처 또는 경로로부터 획득된 원본 이미지 데이터를 변환하여 비식별 처리된 이미지 데이터를 생성할 수 있고, 그 비식별 처리된 이미지 데이터를 자신의 학습 모델(즉, 임의의 학습 모델)에서 이용할 수 있게 된다. 또한, 구매자는 그 비식별 처리된 이미지 데이터, 자신이 보유하거나 다른 출처 또는 경로로부터 획득된 원본 이미지 데이터, 및 위의 제공(또는 판매)받은 비식별 처리된 이미지 데이터 중 적어도 둘 이상을 자신의 학습 모델에서 함께 사용할 수도 있게 된다. 한편, 본 발명의 일 실시예에 따르면, 위의 변환 디바이스는 스마트폰, 태블릿 PC 등과 같이 메모리 수단을 구비하고 마이크로 프로세서를 탑재하여 연산 능력을 갖춘 디지털 기기일 수 있다.

한편, 본 발명의 일 실시예에 따르면, 위의 비식별 처리 시스템(200)에 의해 산출되는 목적 함수 O(x)는 정확도가 높게 설정되어 구매자의 변환 디바이스에서는 컴퓨팅 오버 헤드(computational overhead)를 발생시킬 수 있으므로, 컴퓨팅 연산을 보다 감소시킨 O'(x)의 기능으로 위의 변환 디바이스에서 수행될 수 있다. 본 발명의 일 실시예에 따르면, 학습 모델에 원본 데이터가 입력됨에 따라 출력되는 결과와 해당 학습 모델에 비식별 처리된 데이터가 입력됨에 따라 출력되는 결과 사이의 차이를 감소시키는 정도를 보다 완화하거나 O(x)보다 낮은 차수로 근사화함으로써, O'(x)가 결정될 수 있다.

또한, 본 발명의 일 실시예에 따르면, 위의 비식별 처리 시스템(200)에 의해 산출되는 목적 함수 O(x)를 이용하여 기계 학습(machine learning)을 수행함으로써, 학습 모델 G가 생성될 수 있고, 이러한 학습 모델 G는 G(O(x)), G(O'(x)) 및 G(x)가 동일하거나 유사한 결과를 산출할 수 있도록 학습된 모델일 수 있다. 즉, 이 경우에, 위의 구매자는 위의 목적 함수 O(x) 기능을 수행하는 변환 디바이스를 사용하지 않고, 구매자 자신이 보유하거나 다른 출처 또는 경로로부터 획득된 원본 이미지 데이터를 위의 학습 모델 G에 바로 입력하여 사용할 수 있다.

이상 설명된 본 발명에 따른 실시예는 다양한 컴퓨터 구성요소를 통하여 실행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것이거나 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수 있다. 컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium), 및 ROM, RAM, 플래시 메모리 등과 같은, 프로그램 명령어를 저장하고 실행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령어의 예에는, 컴파일러에 의하여 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용하여 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위하여 하나 이상의 소프트웨어 모듈로 변경될 수 있으며, 그 역도 마찬가지이다.

이상에서 본 발명이 구체적인 구성요소 등과 같은 특정 사항과 한정된 실시예 및 도면에 의하여 설명되었으나, 이는 본 발명의 보다 전반적인 이해를 돕기 위하여 제공된 것일 뿐, 본 발명이 상기 실시예에 한정되는 것은 아니며, 본 발명이 속하는 기술분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정과 변경을 꾀할 수 있다.

따라서, 본 발명의 사상은 상기 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등한 또는 이로부터 등가적으로 변경된 모든 범위는 본 발명의 사상의 범주에 속한다고 할 것이다.

100: 통신망
200: 비식별 처리 시스템
210: 원본 데이터 획득부
220: 비식별 처리 데이터 생성부
230: 통신부
240: 제어부
300: 디바이스

Claims

데이터를 비식별(anonymization) 처리하기 위한 비식별 처리 시스템에서 구현되는 방법으로서 - 상기 비식별 처리 시스템은 원본 데이터 획득부 및 비식별 처리 데이터 생성부를 포함함 - ,
상기 원본 데이터 획득부가, 원본 데이터를 획득하는 단계, 및
상기 비식별 처리 데이터 생성부가, 상기 원본 데이터로부터 변조(obfuscation)되는 변조 데이터로서, 학습 모델(learning model)에 입력되면, 상기 학습 모델에 상기 원본 데이터가 입력됨에 따라 출력되는 결과와 서로 동일하거나 유사한 결과가 출력되는 변조 데이터를 비식별 처리된 데이터로서 생성하는 단계를 포함하고,
상기 생성 단계에서, 상기 비식별 처리 데이터 생성부는, 목적 함수를 이용하여 상기 원본 데이터를 상기 변조 데이터로 변조(obfuscation)하고,
상기 생성 단계는, 상기 비식별 처리 데이터 생성부가, 상기 원본 데이터를 변조(obfuscation)하여 후보 변조 데이터를 생성하는 단계,
상기 비식별 처리 데이터 생성부가, 적어도 하나의 학습 모델에서 상기 후보 변조 데이터가 입력됨에 따라 출력되는 결과 및 상기 원본 데이터가 입력됨에 따라 출력되는 결과 사이의 차이에 기초하여 에러값을 산출하는 단계, 및
상기 비식별 처리 데이터 생성부가, 상기 에러값이 소정 수준 이하가 되도록 상기 목적 함수를 보정하는 단계를 포함하는
방법.
제1항에 있어서,
상기 결과는, 상기 원본 데이터 또는 상기 변조 데이터 내 소정 특징과 연관된 확률(probability), 벡터(vector), 행렬(matrix) 및 좌표(coordinate) 중 적어도 하나에 관한 값을 포함하는
방법.
제1항에 있어서,
상기 생성 단계에서, 상기 학습 모델에 상기 원본 데이터가 입력됨에 따라 출력되는 결과와 상기 학습 모델에 상기 비식별 처리된 데이터가 입력됨에 따라 출력되는 결과 사이의 차이를 감소시키고, 상기 원본 데이터와 상기 비식별 처리 데이터 사이의 차이를 증가시켜 상기 비식별 처리된 데이터를 생성하는
방법.
삭제
제1항에 있어서,
상기 비식별 처리된 데이터는, 상기 원본 데이터로부터 비가역적으로 변조되는 변조 데이터인
방법.
제1항에 있어서,
상기 비식별 처리된 데이터는, 상기 원본 데이터와 시각적 또는 청각적으로 소정 수준 이상 다른
방법.
제1항에 있어서,
상기 학습 모델에는, 기계 학습(machine learning) 모델 및 신경망 학습(neural network learning) 모델 중 적어도 하나가 포함되는
방법.
제1항에 따른 방법을 실행하기 위한 컴퓨터 프로그램을 기록하는 비일시성의 컴퓨터 판독 가능 기록 매체.
데이터를 비식별(anonymization) 처리하는 시스템으로서,
원본 데이터를 획득하는 원본 데이터 획득부, 및
상기 원본 데이터로부터 변조(obfuscation)되는 변조 데이터로서, 학습 모델(learning model)에 입력되면, 상기 학습 모델에 상기 원본 데이터가 입력됨에 따라 출력되는 결과와 서로 동일하거나 유사한 결과가 출력되는 변조 데이터를 비식별 처리된 데이터로서 생성하는 비식별 처리 데이터 생성부를 포함하고,
상기 비식별 처리 데이터 생성부는, 목적 함수를 이용하여 상기 원본 데이터를 상기 변조 데이터로 변조(obfuscation)하고,
상기 비식별 처리 데이터 생성부는, 상기 원본 데이터를 변조(obfuscation)하여 후보 변조 데이터를 생성하고, 적어도 하나의 학습 모델에서 상기 후보 변조 데이터가 입력됨에 따라 출력되는 결과 및 상기 원본 데이터가 입력됨에 따라 출력되는 결과 사이의 차이에 기초하여 에러값을 산출하고, 상기 에러값이 소정 수준 이하가 되도록 상기 목적 함수를 보정하는
시스템.