KR101320956B1 - 연관규칙 마이닝에서의 프라이버시 보호 장치 및 방법 - Google Patents

연관규칙 마이닝에서의 프라이버시 보호 장치 및 방법 Download PDF

Info

Publication number
KR101320956B1
KR101320956B1 KR1020090125220A KR20090125220A KR101320956B1 KR 101320956 B1 KR101320956 B1 KR 101320956B1 KR 1020090125220 A KR1020090125220 A KR 1020090125220A KR 20090125220 A KR20090125220 A KR 20090125220A KR 101320956 B1 KR101320956 B1 KR 101320956B1
Authority
KR
South Korea
Prior art keywords
data set
transaction
transactions
predetermined
virtual data
Prior art date
Application number
KR1020090125220A
Other languages
English (en)
Other versions
KR20110068328A (ko
Inventor
조남수
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020090125220A priority Critical patent/KR101320956B1/ko
Priority to US12/968,420 priority patent/US8745696B2/en
Publication of KR20110068328A publication Critical patent/KR20110068328A/ko
Application granted granted Critical
Publication of KR101320956B1 publication Critical patent/KR101320956B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioethics (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Virology (AREA)
  • Storage Device Security (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

데이터 마이닝 기술 중 연관규칙 마이닝에 있어서의 프라이버시 보호를 위한 장치 및 방법을 제공한다. 본 발명의 실시 예에 따른 연관규칙 마이닝에서의 프라이버시 보호장치는, 각각 소정 길이를 가지는 소정 개수의 위장 트랜잭션들을 생성하고, 원 데이터 집합에 포함되는 복수의 트랜잭션들 사이에 위장 트랜잭션들을 삽입하여 제1 가상 데이터 집합을 생성하는 위장 트랜잭션 삽입부와, 제1 가상 데이터 집합의 트랜잭션의 데이터를 소정 확률로 변환한 제2 가상 데이터 집합을 생성하는 왜곡 트랜잭션 생성부를 포함하는 것을 특징으로 한다.

Description

연관규칙 마이닝에서의 프라이버시 보호 장치 및 방법{APPARATUS AND METHOD FOR PRIVACY PROTECTION IN ASSOCIATION RULE MINING}
본 발명은, 데이터 마이닝 기술 중 연관규칙 마이닝 기술(ARM, Association Rule Mining)에 있어서 프라이버시 보호를 위한 기술에 관한 것이다. 더욱 자세하게는, 데이터 집합에 포함된 복수의 트랜잭션들 사이에 위장 트랜잭션을 삽입하여 새로운 데이터 집합을 생성하고, 새로운 데이터 집합에 포함된 트랜잭션들을 일정 확률로 변화시기는 기술에 관한 것이다.
본 발명은 지식경제부의 유비쿼터스 원천기술개발 사업의 일환으로 수행한 연구로부터 도출된 것이다. [과제명: 차세대 시큐리티 기술 개발]
데이터 마이닝 기술은 데이터간의 상호 관계를 분석하는 기술로, 특히 전자 상거래 등의 분야에서 데이터 베이스화 된 항목들에 대한 데이터 마이닝 기술에 대한 연구가 활발하게 이루어지고 있다. 연관 규칙 마이닝(Association Rule Mining)은 이러한 데이터 마이닝 기술 중 데이터 집합을 이루는 단위인 트랜잭션(Transaction)들 사이의 연관성을 효과적으로 발견하는 것을 목적으로 하는 기술이다.
최근 프라이버시에 대한 관심이 증가하면서 연관 규칙 마이닝에 데이터 집합을 구성하는 트랜잭션의 프라이버시를 보호하기 위한 기술을 추가시킨 프라이버시 보존형 연관 규칙 마이닝 기술에 대한 연구가 활발히 이루어지고 있다. 또한, 프라이버시 보호 성능에 대한 정량화 및 프라이버시 보호를 위해 사용되는 추가적인 메모리 사용 문제를 해결하는 기술 또한 중요한 연구 주제이다.
본 발명은 상기 언급한 연관 규칙 마이닝에서의 프라이버시 보호에 있어서, 보호되는 프라이버시의 양을 늘리는 동시에, 프라이버시 보호를 위한 추가적인 메모리 사용을 최소화하는 데 그 목적이 있다.
상기 목적을 달성하기 위하여, 본 발명의 실시 예에 따른 연관 규칙 마이닝에서의 프라이버시 보호 장치는, 각각 소정 길이를 가지는 소정 개수의 위장 트랜잭션들을 생성하고, 원 데이터 집합에 포함되는 복수의 트랜잭션들 사이에 위장 트랜잭션들을 삽입하여 제1 가상 데이터 집합을 생성하는 위장 트랜잭션 삽입부와, 제1 가상 데이터 집합의 트랜잭션의 데이터를 소정 확률로 변환한 제2 가상 데이터 집합을 생성하는 왜곡 트랜잭션 생성부를 포함하는 것을 특징으로 한다.
또한, 본 발명의 실시 예에 따른 연관 규칙 마이닝에서의 프라이버시 보호 방법은, 위장 트랜잭션 삽입부가 외부로부터 원 데이터 집합을 수신하고 원 데이터 집합에 포함된 복수의 트랜잭션들의 평균 길이를 연산하는 단계; 위장 트랜잭션 삽입부가 각각 소정 길이를 갖는 소정 개수의 위장 트랜잭션들을 생성하여 복수의 트랜잭션들 사이에 삽입하여 제1 가상 데이터 집합을 생성하는 단계; 및 왜곡 트랜잭션 생성부가 제1 가상 데이터 집합의 트랜잭션의 데이터를 소정 확률로 변환한 제2 가상 데이터 집합을 생성하는 단계를 포함하는 것을 특징으로 한다.
본 발명의 실시 예에 따른 연관 규칙 마이닝에서의 프라이버시 보호 장치 및 방법에 의하면, 원래의 데이터 집합을 2개의 알고리즘을 통해서 가상 데이터 집합으로 변환하게 되는 효과가 있다. 이에 의해 각 알고리즘만을 사용했을 때보다 동일한 프라이버시 보존율에 대한 메모리 사용 비율을 감소시킬 수 있는 효과가 있다. 즉, 프라이버시 보존율을 증가하는 동시에, 프라이버시의 보호에 따른 메모리의 추가적인 사용 문제를 효율적으로 해결할 수 있는 효과가 있다.
이하, 도 1을 참조하여 본 발명의 실시 예에 따른 연관규칙 마이닝에서의 프라이버시 보호 장치에 대해서 설명하기로 한다.
도 1은 본 발명의 실시 예에 따른 연관규칙 마이닝에서의 프라이버시 보호 장치의 블록도이다.
도 1를 참조하면, 연관규칙 마이닝에서의 프라이버시 보호 장치(100)는 위장 트랜잭션 삽입부(101)와 왜곡 트랜잭션 생성부(102)를 포함한다. 원래 데이터 집합(110) T는 연관규칙 마이닝에서의 프라이버시 보호 장치(100)로 입력되어 최종적으로 제2 가상 데이터 집합(120) T''으로 변환되어 출력된다.
위장 트랜잭션 삽입부(101)는 소정 길이를 가지는 소정 개수의 위장 트랜잭션들을 생성하여 원 데이터 집합 T에 포함되는 복수의 트랜잭션들 사이에 위장 트랜잭션들을 삽입하여 제1 가상 데이터 집합을 생성한다. 즉, 원 데이터 집합 T에 포함되는 복수의 트랜잭션들 사이에 위장 트랜잭션들을 삽입하여 원 데이터 집합의 프라이버시를 보호하는 기능을 수행하는 것이다.
원 데이터 집합 T가 T = {t1, t2 ~ tN}라고 가정하면, ti(단, i는 1부터 N-1 사이의 정수) 와 t(i+1) 사이에 소정 길이를 갖는 소정 개수의 위장 트랜잭션들을 삽입하게 된다. 본 발명의 실시 예에서 소정 길이는 변수로서 정의된다. 또한, 상기 변수는 균일한 분포를 가지는 랜덤 변수로 정의되고 있다. 즉, 소정 개수 생성되는 위장 트랜잭션들은, 길이 변수에 있어서 소정 범위를 가지고, 길이 변수는 동일한 확률로 분포되어 소정 개수의 위장 트랜잭션들 각각의 길이로 설정되는 것이다.
예를 들어, 소정 길이에 대한 변수의 평균이 a이며, 위장 트랜잭션들의 개수가 b라고 가정한다. 또한 변수의 범위는 1부터 2a-1까지 분포된다고 가정한다. 상기 언급한 바와 같이 길이 변수는 동일한 확률로 분포되어 소정 개수의 위장 트랜잭션들 각각의 길이로 설정된다. 즉, 상기의 예에서 위장 트랜잭션들의 길이는 1/b의 동일한 확률로, 2a/b의 길이 차를 가지며 동일하게 각 위장 트랜잭션들의 길이로 설정되는 것이다. 설정된 위장 트랜잭션은, 원 데이터 집합의 각 실제 트랜잭션 사이에 삽입된다.
본 발명의 실시 예에서 소정 길이의 평균은, 원 데이터 집합에 포함된 복수의 트랜잭션들의 길이의 평균과 일치하도록 정의된다. 즉, 상기의 예에서 a = l(원 데이터 집합에 포함된 복수의 트랜잭션들의 길이의 평균)로 설정되는 것이다. 따라서, 소정 개수의 위장 트랜잭션들은 평균값 l을 가지고 각각의 길이가 li로 설정될 것이다. 또한 상기의 예에서와 마찬가지로, 소정 길이의 범위는 1부터 2l-1까지 분포될 것이다. 소정 길이의 각각의 차이는 2l/b가 될 것임은 당연할 것이다.
본 발명의 실시 예에서 소정 개수는 상기 언급한 소정 길이와 마찬가지로, 변수로서 정의된다. 또한. 소정 개수 생성되는 위장 트랜잭션들은, 개수 변수에 있어서 소정 범위를 가지고, 개수 변수는 동일한 확률로 분포되어 소정 개수의 위장 트랜잭션들 각각의 길이로 설정되는 것이다.
소정 개수의 평균 ω는 연관 규칙 마이닝에 있어서 프라이버시 보존율에 관련되어 미리 설정된 값일 수 있다. 따라서, 위장 트랜잭션 삽입부(101)에 미리 상기 소정 개수의 평균 ω에 대해서 저장되어 있을 수 있으며, 따라서, 소정 개수의 위장 트랜잭션들은 평균값 ω를 가지고 각각의 개수가 ωi로 설정되어 분포된 것이다.
위장 트랜잭션 삽입부(101)는 소정 개수 ωi와 소정 길이 li를 가지는 위장 트랜잭션을 원 데이터 집합 T(110)에 포함되는 복수의 트랜잭션 t1, t2~tN 사이에 삽입하게 된다. 위장 트랜잭션 삽입부(101)는 소정 개수 ωi와 소정 길이 li를 가지는 위장 트랜잭션을 원 데이터 집합 T(110)에 포함되는 복수의 트랜잭션 ti, t(i+1) 사이에 삽입하게 되는 동작을 i = 1부터 N-1까지 반복하게 되며, i = N이 되는 순간 삽입을 멈추게 된다. 상기 과정의 반복을 통해서, 위장 트랜잭션이 원 데이터 집합 T(110)에 포함되는 복수의 트랜잭션 사이에 삽입된 제1 가상 데이터 집합 T'가 생성되는 것이다.
본 발명의 실시 예에서의 왜곡 트랜잭션 생성부(102)는 위장 트랜잭션 삽입부(101)로부터 수신한 제1 가상 데이터 집합에 포함된 트랜잭션들 중 하나 이상을 소정 확률로 변환한 제2 가상 데이터 집합을 생성하는 기능을 수행한다. 제1 가상 데이터 집합 T' = {t'1, t'2 … t'n}에 포함된 n = N+(N-1)ω 개의 트랜잭션들 중 하나 이상을 일정 확률로 변환함으로써, 원 데이터 집합 T(110)에 포함된 트랜잭션들의 연관 규칙 마이닝에 있어서 프라이버시의 보호를 더욱 효율적으로 달성할 수 있는 것이다.
본 발명의 실시 예에서 소정 확률은, 소정 확률로 제1 가상 데이터 집합 T'에 포함된 트랜잭션들 중 하나 이상을 소정 확률로 불리안 컴플리먼트(Boolean Compliment)를 수행하는 것이다. 즉, 제1 가상 데이터 집합 T'에 포함된 트랜잭션들 중 하나 이상에 대해서, 트랜잭션에 수록된 정보는 1 또는 0 중 하나이기 때문에, 소정 확률로 상기 1 또는 0을 반전시키는 것을 의미한다.
소정 확률로 제1 가상 데이터 집합 T'에 포함된 트랜잭션들 중 하나 이상을 변환시키는 데에는 변환변수가 사용된다. 변환변수는 소정 확률로 0 또는 1의 값을 가지는 변수이다. 본 발명의 실시 예에서 변환변수와 제1 가상 데이터 집합 T'에 포함된 트랜잭션들을 연산하여, 제1 가상 데이터 집합 T'에 포함된 트랜잭션들 중 하나 이상을 변환할 수 있도록 한다. 따라서, 왜곡 트랜잭션 생성부(102)에서 생성하는 변환변수는 제1 가상 데이터 집합 T'에 포함된 트랜잭션들의 개수와 동일한 개수 (n비트)가 생성되어야 할 것이다.
본 발명의 실시 예에서 변환변수는 베르누이(Bernoulli) 함수에 근거하여 생성된다. 상기 베르누이 함수의 피함수값은 상기 언급한 소정 확률이 된다. 베르누이 함수의 함수값은 따라서 소정 확률을 피함수값으로 가지는 베르누이 변수가 될 것이며, 상기 베르누이 변수의 불리안 컴플리먼트값이 본 발명에서의 변환변수로 사용된다. 베르누이 함수의 결과, 변환변수는 소정 확률로 0 또는 1의 값을 가지는 변수가 생성될 것이다.
변수가 생성되면, 왜곡 트랜잭션 생성부(102)에서는 제1 가상 데이터 집합 T'에 포함된 트랜잭션들과 변환변수를 연산하여 제2 가상 데이터 집합 T''를 생성하게 된다. 본 발명의 실시 예에서 변환변수가 제1 가상 데이터 집합 T'에 포함된 트랜잭션들과의 연산은 논리적 배타합(Exclusive OR, 수학 기호
Figure 112009077670291-pat00001
)가 사용된다. 즉, 제2 가상 데이터 집합 T''에 포함된 트랜잭션들의 값은 제2 가상 데이터 집합 T''에 포함된 트랜잭션들을 t''i 로 정의하고, 베르누이 함수값의 불리안 컴플리먼트에 의해 생성된 변환변수를 ei라 하면, 제2 가상 데이터 집합 T''는 다음과 같이 정의될 것이다.
[수학식 1]
t''i = t'i
Figure 112009077670291-pat00002
ei
즉, 원 데이터 집합에 포함된 복수의 트랜잭션들에 소정 길이를 갖는 소정 개수의 위장 트랜잭션들을 삽입하여 제1 가상 데이터 집합을 생성하고, 변환 변수에 대응하는 제1 가상 데이터 집합의 트랜잭션을 피함수 값으로 갖는 배타적 논리합 함수의 결과를 제2 가상 데이터 집합에 포함된 복수의 트랜잭션들로 정의하여 제2 가상 데이터 집합을 생성함으로써, 연관 규칙 마이닝에 있어서의 프라이버시 보호 기능을 효율적으로 실시할 수 있는 것이다.
본 발명의 실시 예에 따른 연관 규칙 마이닝에서의 프라이버시 보호 장치에 의한 효과를 이하에서 설명하기로 한다.
연관 규칙 마이닝에서의 프라이버시 보호는 왜곡 또는 변환된 원 데이터가 복원될 수 있는 확률에 근거한다. 즉, 왜곡된 데이터로부터 원 데이터를 필터링 할 수 없어 프라이버시가 보존되는 확률을 의미할 수 있을 것이다. 따라서, 연관규칙 마이닝에서의 프라이버시 보존율은, 1의 확률에서 원 데이터 집합의 트랜잭션을 구성할 수 있는 확률을 뺀 값을 의미한다.
먼저 위장 트랜잭션 삽입부(101)에 의해서만 변환된 가상 데이터 집합, 즉 제1 가상 데이터 집합에서의 프라이버시 보존율을 계산해본다. 제1 가상 데이터 집합에서는, N+(N-1)ω개의 트랜잭션 중 N개의 원 데이터 집합 T에 포함된 복수의 트랜잭션들을 찾아내야 하므로, 제1 가상 데이터 집합에 포함된 트랜잭션들 중 원 데이터 집합 T에 포함된 복수의 트랜잭션을 찾을 수 있는 확률 PrFS은 다음과 같이 정의될 수 있다.
[수학식 2]
PrFS = N/(N+(N-1)ω)≒N/(N+Nω)=1/(1+ω)
PpFS = 1 - 1/(1+ω)
반면, 왜곡 트랜잭션 생성부(102)에 의해서만 변환된 왜곡 데이터 집합(즉, 원 데이터 집합에 포함된 N개의 트랜잭션들 중 하나 이상을 소정 확률로 변환시킨 가상 데이터 집합)에서의 프라이버시 보존율은 다음과 같다.
먼저, 원 데이터 집합에 포함된 트랜잭션을 Xi, 왜곡 데이터 집합의 트랜잭션을 Yi라 한다. 그리고, 상기 언급한 변환 변수가 1이 될 확률을 p라 한다. 그러면 변환 변수가 0이 될 확률은 (1-p)가 될 것이다. 변환 변수가 1인 경우, 상기 변환변수에 대응하는 트랜잭션은 원상태로 보존하고, 변환변수가 0인 경우, 변환 변수에 대응하는 트랜잭션을 상기 트랜잭션의 불리안 컴플리먼트로 변환한다. 즉, 왜곡 트랜잭션 생성부(102)는, 베르누이 함수값이 0인 (1-p)의 확률에서는 상기 언급한 변환변수 ei가 1이 되어 입력되고, 베르누이 함수값이 1인 p의 확률에서는 변환변수 ei가 0이 되어 수학식 1의 배타적 논리합의 피함수 값으로 입력되는 것이다.
예를 들면, 원 데이터 집합에 포함된 트랜잭션 Xi가 1이고 베르누이 함수값이 1인 경우에는, 변환변수가 0이 되므로, 왜곡 데이터 집합의 트랜잭션 Yi는 1이 될 것이다. 또한 Xi 가 0이고 베르누이 함수값이 0인 경우에는 변환변수가 1이 되어 입력되므로, Yi는 1이 되어 Xi가 변환된다.
따라서, 왜곡 트랜잭션 생성부(102)만을 사용했을 때의 프라이버시 보존율은 왜곡 데이터 집합에 포함된 트랜잭션들에서 원 데이터에 포함된 트랜잭션을 재구성 할 수 있는 확률을 의미할 것이다. 따라서, 왜곡 트랜잭션 생성부(102)만을 사용했을 때의 프라이버시 보존율은 다음과 같은 과정을 통해 구해진다.
먼저, 원 데이터 집합의 트랜잭션 값이 1인 경우를 재구성할 수 있는 확률은, Xi가 1인 경우이다. 조건부 확률을 통해 구성하면, 그 확률은 다음과 같이 도출할 수 있다.
[수학식 3]
R1 = Pr{Yi=1|Xi=1}Pr{Xi=1|Yi=1} + Pr{Yi=0|Xi=1}Pr{Xi=1|Yi=0}
한편, 원 데이터 집합의 트랜잭션 값이 0인 경우를 재구성할 수 있는 확률은 Xi가 0인 경우로서 다음과 같이 계산된다.
[수학식 4]
R0 = Pr{Yi=1|Xi=0}Pr{Xi=0|Yi=1} + Pr{Yi=0|Xi=0}Pr{Xi=0|Yi=0}
R1 및 R0의 값에 근거하여, 1 또는 0들로 구성되는 원 데이터 집합에 포함된 트랜잭션들을 복원할 수 있는 확률 PrPS는 aR1+(1-a)R0가 될 것이며, a는 프라이버시 파라미터로서, 트랜잭션내의 정보가 1일 확률과 0일 확률의 비에 근거하여 정해진다.
따라서 결과적으로 왜곡 트랜잭션 생성부(102)만을 사용했을 때의 프라이버시 보존율 PpPS는 1- (aR1+(1-a)R0) 이다.
반면, 본 발명의 실시 예에서 제2 가상 데이터 집합에 포함된 트랜잭션에 대한 프라이버시 보존율 PpHS는 상기 계산한 두 방법의 확률에 근거하여 계산할 수 있다. 먼저, 제2 가상 데이터 집합 T'' 에서 원 데이터 집합의 트랜잭션을 재구성할 수 있는 확률은 위장 트랜잭션 삽입부(101)와 왜곡 트랜잭션 생성부(102)만을 통과했을 때 원 데이터 집합을 재구성할 수 있는 확률의 곱과 같다. 즉, PrHS는 PrFS*PrPS, 즉, PrPS/(1+ω)가 되는 것이다. 따라서 본 발명의 실시 예에서 제2 가상 데이터 집합에 포함된 트랜잭션에 대한 프라이버시 보존율 PpHS 는 1- PrPS/(1+ω)로 정의된다.
상기 언급한 바와 같이, 위장 트랜잭션 삽입부(101)와 왜곡 트랜잭션 생성부(102)만을 사용했을 때의 프라이버시 보존율과 비교하여, 본 발명의 실시 예에 따른 연관규칙 마이닝에서의 프라이버시 보호 장치를 사용시의 프라이버시 보존율을 비교하면 다음과 같다.
먼저, 프라이버시 보존율에서의 효과가 있다. 왜곡 트랜잭션 생성부(102)만을 통과한 원 데이터 집합에 대한 왜곡 데이터 집합의 프라이버시 보존율은 최대 가능량이 약 89%에 그친다. 반면, 본 발명에서는 왜곡 트랜잭션 생성부(102)에 의해 제2 가상 데이터 집합을 생성하기 전에, 위장 트랜잭션 삽입부(101)에서 제1 가상 데이터 집합을 생성한다. 그리고, 위장 트랜잭션 삽입부(101)를 사용하여 위장 트랜잭션을 원 데이터 집합에 포함된 트랜잭션들 사이에 삽입하는 경우에는 프라이버시 보존율이 삽입하는 위장 트랜잭션들의 개수 ω에 비례하여 높아진다. 따라서, 왜곡 트랜잭션 생성부(102)만을 사용했을 때 보다 프라이버시 보존율에서 큰 효과를 얻을 수 있는 것이다. 위장 트랜잭션 삽입부(101)만을 통과한 제1 가상 데이터 집합의 프라이버시 보존율과의 비교도 마찬가지이다. 위장 트랜잭션 삽입부(101)만을 통과한 제1 가상 데이터 집합과 같은 개수의 위장 트랜잭션을 삽입시의 제2 가상 데이터 집합의 프라이버시 보존율이 제1 가상 데이터 집합의 프라이버시 보존율 보다 높다.
예를 들어, 본 발명의 실시 예에 의한 원 데이터 재구성 확률 PrHS는 PrPS/(1+ω)이고 PpHS는 1-PrPS/(1+ω)가 된다. 한편 PrPS 또는 PrFS(1/(1+ω))는 항상 1보다 작다. 따라서 PrHS는, PrPS 또는 PrFS 중 작은 쪽보다도 무조건 작게 되고, PpHS는 1- PrHS이기 때문에, PpHS는 PpFS 또는 PpPS 중 큰 쪽보다도 무조건 크게 된다.
또한, 프라이버시 보존율 대비 메모리 사용량에서의 효과가 있다. 위장 트랜잭션 생성부(101)만을 통과한 제1 가상 데이터 집합의 프라이버시 보존율은 원 데이터 집합에 포함된 복수의 트랜잭션들 사이에 삽입되는 위장 트랜잭션들의 개수 ω에 따라 상승하지만, 예를 들어 프라이버시 보존율을 90%로 하기 위해서는, ω는 적어도 11이 되어야 한다. 즉, 제1 가상 데이터 집합만의 프라이버시 보존율이 90%가 되려면, 메모리는 원 데이터 집합보다 11배 더 차지하게 된다. 따라서, 위장 트랜잭션 삽입부(101)만을 사용했을 때는 과다한 메모리를 사용하게 된다는 문제점이 있다. 또한, PpFS 는 1-(1/(1+ω))로 정의되므로, ω의 증가에 대한 PpFS의 증가율은 점점 줄어들게 되어, 메모리 사용량에 대한 효율적인 프라이버시 보호가 어려운 단점이 있다. 예를 들어 ω가 10일 때보다 90일 때의 제1 가상 데이터 집합만의 프라이버시 보존율의 상승량은 0.04밖에 되지 않는다.
반면, 왜곡 트랜잭션 생성부(102)를 사용하게 되면, 메모리의 추가 사용이 없다. 왜곡 트랜잭션 생성부(102)는 소정 확률로 원 데이터 집합에 포함된 트랜잭션을 변환할 뿐이므로, 추가적인 메모리 소비가 없는 것이다. 따라서, 본 발명의 실시 예에 따라 위장 트랜잭션 삽입부(101) 및 왜곡 트랜잭션 생성부(102)를 통과한 제2 가상 데이터 집합의 프라이버시 보존율은, 같은 보존율을 가지는 위장 트랜잭션 삽입부(101)만을 통과한 제1 가상 데이터 집합의 프라이버시 보존율보다 높은 프라이버시 보존율을 얻을 수 있는 효과가 있다.
예를 들어, 본 발명의 실시 예에 따른 제2 가상 데이터 집합의 프라이버시 보존율 PpHS과 제1 가상 데이터 집합만의 프라이버시 보존율 PpFS의 보존율이 0.95로 같다고 가정한다. 상기 언급한 PpFS 및 PpHS의 정의에 따라서 계산해보면, 제2 가상 데이터 집합에 삽입되는 위장 트랜잭션들의 소정 개수의 평균은 5가 됨에 반해, 제1 가상 데이터 집합만의 프라이버시 보존율을 얻기 위해 삽입되어야 할 위장 트랜잭션들의 소정 개수의 평균은 19가 된다. 따라서, 1/4만큼의 추가적인 메모리 소비 만으로 같은 프라이버시 보존율을 얻을 수 있는 효과가 있는 것이다.
위장 트랜잭션 삽입부(101)만을 통과한 제1 가상 데이터 집합의 생성에 필요한 위장 트랜잭션들의 평균 개수, 왜곡 트랜잭션 생성부(102)만을 통과한 왜곡 데이터 집합의 생성에 필요한 위장 트랜잭션들의 평균 개수, 본 발명의 실시 예에 따른 제2 가상 데이터 집합 생성시에 위장 트랜잭션들의 평균 개수에 대한 비교가 이하의 표에 개시되어 있다.
Figure 112009077670291-pat00003
[표 1]
표 1에서, 상기 언급한 왜곡 트랜잭션 생성부(102)에서 트랜잭션내의 정보가 1일 확률과 0일 확률의 비에 근거하여 정해지는 프라이버시 파라미터 a는 0.9로 되어있다. 그리고 Pp는 각각의 방법을 통한 가상 데이터 집합 또는 왜곡 데이터 집합의 프라이버시 보존율이다. FS는 위장 트랜잭션 삽입부(101)만을 통과할 때, PS는 왜곡 트랜잭션 생성부(102)만을 통과할 때, HS는 본 발명의 실시 예에 따라 위장 트랜잭션 삽입부(101)와 왜곡 트랜잭션 생성부(102)를 통과할 때를 의미한다. p는 상기 언급한 변환 변수 생성시의 소정 확률을 의미한다.
표 1을 참조하면, PS의 경우에는 위장 트랜잭션이 필요하지 않으므로, 필요한 위장 트랜잭션들의 평균 개수가 0으로 나타나 있다. 반면, FS와 HS를 비교하면, 뚜렷하게 같은 프라이버시 보존율을 달성하기 위해 필요한 위장 트랜잭션들의 평균 개수의 차이가 개시되어 있다.
표 1의 결과를 실제 필요한 메모리량(단위는 메가바이트, MB)로 나타내면 이하와 같다. 다른 조건은 모두 표 1과 같다.
Figure 112009077670291-pat00004
[표 2]
상기 표 1, 표 2 및 상기 언급한 바와 같이, 본 발명의 실시 예에 따른 연관 규칙 마이닝에서의 프라이버시 보호 장치에 의하면, 적은 메모리의 추가로 높은 프라이버시 보존율을 얻을 수 있는 효과가 있다. 이에 따라서, 데이터 마이닝 기술에 있어서 해킹 등의 데이터 공격의 위험을 줄일 수 있다.
이하 도 2를 참조하여 본 발명의 실시 예에 따른 연관 규칙 마이닝에서의 프라이버시 보호 방법에 대해서 설명하기로 한다. 상기 언급한 본 발명의 실시 예에 따른 연관 규칙 마이닝에서의 프라이버시 보호 장치에 대한 설명과 중복되는 부분의 설명은 생략하기로 한다.
도 2는 본 발명의 실시 예에 따른 연관 규칙 마이닝에서의 프라이버시 보호 방법에 대한 플로우 차트이다.
도 2를 참조하면, 본 발명의 실시 예에 따른 연관 규칙 마이닝에서의 프라이버시 보호 방법은, 위장 트랜잭션 삽입부(101)가 외부로부터 원 데이터 집합 T를 입력 받고(S1), 입력 받은 N개의 트랜잭션들을 가지는 원 데이터 집합 T에 포함된 각 트랜잭션들의 평균 길이 l을 연산하는 단계(S2)가 수행된다. 그리고 i 를 1로 설정한 후(S3), 위장 트랜잭션 삽입부(101)가 각각 소정 길이(li)를 갖는 소정 개수(ωi)의 위장 트랜잭션을 생성하여(S4) 원 데이터 집합 T에 포함된 복수의 트랜잭션들 사이에(즉 i, i+1 번째 트랜잭션 사이) ωi개의 위장 트랜잭션을 삽입하는 단계(S5)를 수행한다. 상기 S4 및 S5단계를 반복적으로 수행하기 위하여, i에 1씩 더하는 단계(S6)를 수행하고, i가 N이 되면(S7) 원 데이터 집합 T에 포함된 복수의 트랜잭션들 사이에 위장 트랜잭션들이 모두 삽입된 것이므로, 위장 트랜잭션들이 삽입된 제1 가상 트랜잭션의 생성을 완료하고(S8), 상기 제1 가상 데이터 집합을 왜곡 트랜잭션 생성부(102)로 송신하게 된다.
왜곡 트랜잭션 생성부(102)는 수신한 제1 가상 데이터 집합에 포함된 트랜잭션들을 소정확률로 변환한 제2 가상 데이터 집합을 생성하게 된다. 상기 제2 가상 데이터 집합을 생성하는 구체적인 단계는 다음과 같다. 먼저, n비트의 변환변수 ei를 생성한다(S9)(i는 1부터 제1 가상 데이터 집합의 개수 n = N+(N-1)ω까지 반복하여 ei를 생성). 변환변수 ei는 본 발명의 실시 예에서 상기 언급한 소정 확률을 함수값으로 갖는 베르누이 함수의 불리안 컴플리먼트를 의미한다.
변환변수 ei가 생성되면, 왜곡 트랜잭션 생성부(102)는 제1 가상 데이터 집합의 각 트랜잭션 t'i와 변환변수 ei의 배타적 논리합의 결과를 제2 가상 데이터 집합의 각 트랜잭션 t''i로 설정하여 n개의 트랜잭션들을 생성하는 단계(S10)를 수행한다. 왜곡 트랜잭션 생성부(102)는 생성된 n개의 트랜잭션들을 결합하여 제2 가상 데이터 집합 T''를 생성한다(S11).
도 3은 본 발명의 실시 예에 따른 원 데이터 집합, 제1 가상 데이터 집합, 및 제2 가상 데이터 집합의 예를 도시한 것이다.
도 3을 참조하면, 원 데이터 집합 T(410)에는 복수개의 트랜잭션(401)들이 N개 존재하고 있다. 위장 트랜잭션 삽입부(101)가 소정 길이(li)를 갖는 소정 개수(ωi)의 위장 트랜잭션들을 삽입하게 되면, 원 데이터 집합 T(410)는 위장 트랜잭션들이 삽입된 n개(N+(N-1)ω개)의 트랜잭션들을 갖는 제1 가상 데이터 집합 T'(410)로 변환된다. 즉, 위장 트랜잭션 삽입부(101)에 의해 생성되는 제1 가상 데이터 집합 T'에는 원 데이터 집합에 포함된 트랜잭션들(401)과, 위장 트랜잭션 삽입부(101)에 의해 생성되어 삽입되는 위장 트랜잭션들(402)이 존재하는 것이다.
위장 트랜잭션 삽입부(101)에 의해 생성된 제1 가상 데이터 집합 T'은, 왜곡 트랜잭션 생성부(102)에 의해 변환된다. 즉, 제1 가상 데이터 집합 T'에 포함된 트랜잭션들 중 일부가 상기 언급한 바와 같이 변환변수 ei와의 논리적 배타합 함수에 의해 변환된다. 트랜잭션의 변화는 본 발명의 실시 예에서 트랜잭션 정보의 불리안 컴플리먼트로 대응하는 트랜잭션 정보가 변화하는 것을 의미한다. 따라서, 왜곡 트랜잭션 생성부(102)에 의해 생성된 제2 가상 데이터 집합 T''에는 왜곡 트랜잭션 생성부(102)에 의해 변환된 트랜잭션(403, 예를 들어 t1이 변화된
Figure 112009077670291-pat00005
) 또는 변환되지 않은 트랜잭션(402)이 존재할 수 있는 것이다.
상기 언급한 본 발명의 실시 예에 따른 연관규칙 마이닝에서의 프라이버시 보호 장치 및 방법에 대한 설명은 오로지 설명적인 용도로만 사용되어야 할 것이며, 본 발명의 특허청구범위를 제한하는 것이 아니다. 또한, 본 발명의 실시 예 이외에도, 본 발명과 동일한 기능을 하는 균등한 발명 역시 본 발명의 권리 범위에 포함될 것이다.
도 1은 본 발명의 실시 예에 따른 연관규칙 마이닝에서의 프라이버시 보호 장치에 대한 장치도이다.
도 2a 및 2b는 본 발명의 실시 예에 따른 연관규칙 마이닝에서의 프라이버시 보호 방법에 대한 플로우차트이다.
도 3은 본 발명의 실시 예에 따른 원 데이터 집합, 제1 가상 데이터 집합, 및 제2 가상 데이터 집합의 예를 도시한 것이다.

Claims (14)

  1. 각각 소정 길이를 가지는 소정 개수의 위장 트랜잭션들을 생성하고, 원 데이터 집합에 포함되는 복수의 트랜잭션들 사이에 상기 위장 트랜잭션들을 삽입하여 제1 가상 데이터 집합을 생성하는 위장 트랜잭션 삽입부와,
    상기 제1 가상 데이터 집합의 트랜잭션의 데이터를 소정 확률로 변환한 제2 가상 데이터 집합을 생성하는 왜곡 트랜잭션 생성부를 포함하는 것을 특징으로 하는 연관규칙 마이닝에서의 프라이버시 보호 장치.
  2. 청구항 1에 있어서,
    상기 소정 길이는,
    소정 범위의 길이 변수가 동일한 확률로 상기 소정 개수 분포된 균일 분포 랜덤 변수인 것을 특징으로 하는 연관규칙 마이닝에서의 프라이버시 보호 장치.
  3. 청구항 1에 있어서,
    상기 소정 길이는,
    상기 소정 길이의 평균이 상기 복수의 트랜잭션들의 길이의 평균과 일치하는 것을 특징으로 하는 연관규칙 마이닝에서의 프라이버시 보호 장치.
  4. 청구항 1에 있어서,
    상기 소정 개수는,
    상기 소정 개수의 개수 변수가 동일한 확률로 소정 값의 평균값을 가지며 소정 범위에 분포된 균일 분포 랜덤 변수인 것을 특징으로 하는 연관규칙 마이닝에서의 프라이버시 보호 장치.
  5. 청구항 1에 있어서,
    상기 왜곡 트랜잭션 생성부는,
    상기 소정 확률로 0 또는 1의 값을 가지는 상기 제1 가상 데이터 집합의 트랜잭션 개수와 동일한 개수의 변환변수를 생성하는 기능을 더 포함하는 것을 특징으로 하는 연관규칙 마이닝에서의 프라이버시 보호 장치.
  6. 청구항 5에 있어서,
    상기 변환변수는,
    상기 소정 확률을 피함수 값으로 가지는 베르누이 함수 값인 것을 특징으로 하는 연관규칙 마이닝에서의 프라이버시 보호 장치.
  7. 청구항 5에 있어서,
    상기 왜곡 트랜잭션 생성부는,
    상기 변환변수와 상기 변환변수에 대응하는 상기 제1 가상 데이터 집합의 트랜잭션을 피함수 값으로 갖는 배타적 논리합 함수의 결과를 상기 제2 가상 데이터 집합의 트랜잭션으로 하는 것을 특징으로 하는 연관규칙 마이닝에서의 프라이버시 보호 장치.
  8. 위장 트랜잭션 삽입부가 외부로부터 원 데이터 집합을 수신하고 상기 원 데이터 집합에 포함된 복수의 트랜잭션들의 평균 길이를 연산하는 단계;
    상기 위장 트랜잭션 삽입부가 각각 소정 길이를 갖는 소정 개수의 위장 트랜잭션들을 생성하여 상기 복수의 트랜잭션들 사이에 삽입하여 제1 가상 데이터 집합을 생성하는 단계; 및
    왜곡 트랜잭션 생성부가 상기 제1 가상 데이터 집합의 트랜잭션의 데이터를 소정 확률로 변환한 제2 가상 데이터 집합을 생성하는 단계를 포함하는 것을 특징으로 하는 연관규칙 마이닝에서의 프라이버시 보호 방법.
  9. 청구항 8에 있어서,
    상기 소정 길이는,
    소정 범위의 길이 변수가 동일한 확률로 상기 소정 개수 분포된 균일 분포 랜덤 변수인 것을 특징으로 하는 연관규칙 마이닝에서의 프라이버시 보호 방법.
  10. 청구항 8에 있어서,
    상기 소정 길이는,
    상기 소정 길이의 평균이 상기 복수의 트랜잭션들의 길이의 평균과 일치하는 것을 특징으로 하는 연관규칙 마이닝에서의 프라이버시 보호 방법.
  11. 청구항 8에 있어서,
    상기 소정 개수는,
    상기 소정 개수의 개수 변수가 동일한 확률로 소정 값의 평균값을 가지며 소정 범위에 분포된 균일 분포 랜덤 변수인 것을 특징으로 하는 연관규칙 마이닝에서의 프라이버시 보호 방법.
  12. 청구항 8에 있어서,
    상기 제2 가상 데이터 집합을 생성하는 단계는,
    상기 소정 확률로 0 또는 1의 값을 가지는 상기 제1 가상 데이터 집합의 트랜잭션 개수와 동일한 개수의 변환변수를 생성하는 단계를 포함하는 것을 특징으로 하는 연관규칙 마이닝에서의 프라이버시 보호 방법.
  13. 청구항 12에 있어서,
    상기 변환변수는,
    상기 소정 확률을 피함수 값으로 가지는 베르누이 함수 값인 것을 특징으로 하는 연관규칙 마이닝에서의 개인정보 보호 방법.
  14. 청구항 12에 있어서,
    상기 제2 가상 데이터 집합을 생성하는 단계는,
    상기 변환변수와 상기 변환변수에 대응하는 상기 제1 가상 데이터 집합의 트랜잭션을 피함수 값으로 갖는 배타적 논리합 함수의 결과를 상기 제2 가상 데이터 집합의 트랜잭션으로 하는 단계를 포함하는 것을 특징으로 하는 연관규칙 마이닝에서의 개인정보 보호 방법.
KR1020090125220A 2009-12-16 2009-12-16 연관규칙 마이닝에서의 프라이버시 보호 장치 및 방법 KR101320956B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020090125220A KR101320956B1 (ko) 2009-12-16 2009-12-16 연관규칙 마이닝에서의 프라이버시 보호 장치 및 방법
US12/968,420 US8745696B2 (en) 2009-12-16 2010-12-15 Apparatus and method for privacy protection in association rule mining

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020090125220A KR101320956B1 (ko) 2009-12-16 2009-12-16 연관규칙 마이닝에서의 프라이버시 보호 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20110068328A KR20110068328A (ko) 2011-06-22
KR101320956B1 true KR101320956B1 (ko) 2013-10-23

Family

ID=44144453

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020090125220A KR101320956B1 (ko) 2009-12-16 2009-12-16 연관규칙 마이닝에서의 프라이버시 보호 장치 및 방법

Country Status (2)

Country Link
US (1) US8745696B2 (ko)
KR (1) KR101320956B1 (ko)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104077530A (zh) 2013-03-27 2014-10-01 国际商业机器公司 用于评估数据访问语句的安全性的方法和装置
US9672469B2 (en) * 2013-09-18 2017-06-06 Acxiom Corporation Apparatus and method to increase accuracy in individual attributes derived from anonymous aggregate data
CN104050267B (zh) * 2014-06-23 2017-10-03 中国科学院软件研究所 基于关联规则满足用户隐私保护的个性化推荐方法及***
CN106649479B (zh) * 2016-09-29 2020-05-12 国网山东省电力公司电力科学研究院 一种基于概率图的变压器状态关联规则挖掘方法
CN106598882B (zh) * 2016-12-09 2019-09-20 武汉斗鱼网络科技有限公司 一种安全的内存数据保护方法及装置
US11107068B2 (en) * 2017-08-31 2021-08-31 Bank Of America Corporation Inline authorization structuring for activity data transmission
CN108920714B (zh) * 2018-07-26 2021-10-01 上海交通大学 一种分布式环境下隐私保护的关联规则挖掘方法和***

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050021488A1 (en) 2003-07-21 2005-01-27 Rakesh Agrawal Mining association rules over privacy preserving data
US20060015474A1 (en) 2004-07-16 2006-01-19 International Business Machines Corporation System and method for distributed privacy preserving data mining

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6931403B1 (en) 2000-01-19 2005-08-16 International Business Machines Corporation System and architecture for privacy-preserving data mining
US8627483B2 (en) * 2008-12-18 2014-01-07 Accenture Global Services Limited Data anonymization based on guessing anonymity

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050021488A1 (en) 2003-07-21 2005-01-27 Rakesh Agrawal Mining association rules over privacy preserving data
US20060015474A1 (en) 2004-07-16 2006-01-19 International Business Machines Corporation System and method for distributed privacy preserving data mining

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
연관규칙 마이닝에서 랜덤화를 이용한 프라이버시 보호 기법에 관한 연구, 정보처리학회논문지 v.14C no.5, 2007년, pp.439-452, 강주성 외 3명 *

Also Published As

Publication number Publication date
US8745696B2 (en) 2014-06-03
KR20110068328A (ko) 2011-06-22
US20110145929A1 (en) 2011-06-16

Similar Documents

Publication Publication Date Title
KR101320956B1 (ko) 연관규칙 마이닝에서의 프라이버시 보호 장치 및 방법
Cao et al. A perturbation method to the tent map based on Lyapunov exponent and its application
Jun et al. A new image encryption algorithm based on single S-box and dynamic encryption step
US20230361984A1 (en) Method and system for confidential string-matching and deep packet inspection
CN104657494B (zh) 一种网站数据库访问方法
Asif et al. A novel image encryption technique based on mobius transformation
CN109683851A (zh) 随机数的生成方法、随机数生成装置、计算机存储介质
CN110611568B (zh) 基于多种加解密算法的动态加解密方法、装置、及设备
Kim et al. Analysis of the non-perfect table fuzzy rainbow tradeoff
CN111712816B (zh) 使用密码蒙蔽以用于高效地使用蒙哥马利乘法
Stoyanov Chaotic cryptographic scheme and its randomness evaluation
US20070058800A1 (en) Transition between masked representations of a value during cryptographic calculations
US8538017B2 (en) Encryption device
JP5202350B2 (ja) 暗号処理装置及び暗号処理方法及び暗号処理プログラム
CN107463849A (zh) 基于单服务器的隐私信息恢复方法
US9288041B2 (en) Apparatus and method for performing compression operation in hash algorithm
CN116668005A (zh) 一种加密方法、装置、设备及介质
Gorbenko et al. Methods of building general parameters and keys for NTRU Prime Ukraine of 5 th–7 th levels of stability. Product form
CN112434322B (zh) 数据加密方法、装置、计算机设备及计算机可读存储介质
Hanis A New Sine-Ikeda Modulated Chaotic Key for Cybersecurity.
Liu et al. A parallel encryption algorithm for dual-core processor based on chaotic map
CN111460514A (zh) 数据匹配方法、装置和电子设备
CN111585579A (zh) 基于布尔函数的分组密码s盒快速实现方法及装置
KR101649996B1 (ko) 임계클럭조절형 랜덤 암호 발생기
Lustro Ameliorating Password Security Authentication Using BCRYPT Algorithm with Dynamic Salt Generation

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20161111

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20180823

Year of fee payment: 6