TW201426578A - 匿名資料集的產生方法及裝置與風險評估方法及裝置 - Google Patents

匿名資料集的產生方法及裝置與風險評估方法及裝置 Download PDF

Info

Publication number
TW201426578A
TW201426578A TW101150619A TW101150619A TW201426578A TW 201426578 A TW201426578 A TW 201426578A TW 101150619 A TW101150619 A TW 101150619A TW 101150619 A TW101150619 A TW 101150619A TW 201426578 A TW201426578 A TW 201426578A
Authority
TW
Taiwan
Prior art keywords
data
cluster
anonymous
original
attribute
Prior art date
Application number
TW101150619A
Other languages
English (en)
Inventor
Ya-Ling Chen
ding-jun Yin
Kuo-Yang Hung
Original Assignee
Ind Tech Res Inst
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ind Tech Res Inst filed Critical Ind Tech Res Inst
Priority to US13/728,684 priority Critical patent/US9129117B2/en
Priority to TW101150619A priority patent/TW201426578A/zh
Publication of TW201426578A publication Critical patent/TW201426578A/zh
Priority to US14/573,908 priority patent/US9600673B2/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/57Certifying or maintaining trusted computer platforms, e.g. secure boots or power-downs, version controls, system software checks, secure updates or assessing vulnerabilities
    • G06F21/577Assessing vulnerabilities and evaluating computer system security
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6254Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/03Indexing scheme relating to G06F21/50, monitoring users, programs or devices to maintain the integrity of platforms
    • G06F2221/034Test or assess a computer or a system

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Storage Device Security (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一種匿名資料集產生方法包含以下步驟。取得關鍵屬性集合及準識別符集合,且關鍵屬性或準識別符之一設定為錨屬性。依據準識別符集合、關鍵屬性集合產生屬性序列與等價類資料表。依據等價類資料表產生資料從集與叢集資料表。對叢集資料表進行資料泛化,以產生並輸出對應原始資料集的匿名資料集。一種用於匿名資料集的風險評估方法。風險評估方法採用計算資料權重的方式,取出具有特色之資料並據以對匿名資料集進行弱點攻擊,以提高匿名資料集的風險評估效率。

Description

匿名資料集的產生方法及裝置與風險評估方法及裝置
本揭露係關於一種匿名資料集(anonymous dataset)的產生方法及裝置與風險評估方法及裝置。
隨著資料數位化的發展,各界開始關注數位資料的隱私保護問題。尤其是攸關習慣、喜好或職業等個人生活型態,以及病史或用藥資訊等個人醫學保健資訊這種包含敏感性且易被重新識別的個人資料,一但被重新識別或外洩,將會嚴重影響到個人權益。
過去為了解決數位資料隱私保護問題,嘗試透過將資料隨機修改、加入假資料、資料躁動(Perturbation)或是直接隱藏資料(Suppression)的方式來產生匿名資料。但是這些傳統的方法會因隨機修改或加入假資料造成數位資料的真實度和可信度降低;或因為非依照真實資料修改和刪除部分數位資料,而導致數位資料失真過大。因此傳統的做法無法兼顧資料的可用性與資料隱私。
而產生匿名資料後,數位資料的管理員可能想進行匿名資料被重新識別的風險評估。傳統的風險評估方式係以所有的原始資料進行重新識別。然而這種風險評估方式會因為原始資料中的資料重複而進行冗長且多餘的評估運算,非常沒效率。
為了解決上述問題,本揭露提出一種匿名資料集(anonymous dataset)的產生方法及裝置與風險評估方法及裝置。其中匿名資料集的產生裝置可用以執行匿名資料集的產生方法;匿名資料集的 風險評估裝置可用以執行匿名資料集的風險評估方法。
匿名資料集的產生方法包括以下步驟。取得一關鍵屬性(critical attribute)集合以及一準識別符(Quasi-identifiers,QID)集合。其中關鍵屬性集合包括至少一關鍵屬性,準識別符集合包括多個準識別符,且關鍵屬性之一設定為一錨屬性(anchor attribute)。依據準識別符集合、關鍵屬性集合以及一原始資料集(original dataset),產生一等價類資料表(equivalence table)。其中等價類資料表包括多個等價類,每一個等價類包括至少一等價資料,每一個等價資料包括個別對應這些準識別符的多個原始值。依據等價類資料表依序產生一叢集資料表(Cluster Table,CT)的多個資料叢集,其中每一個資料叢集包括至少一個等價類。對叢集資料表進行資料泛化(Generalization),以產生並輸出對應原始資料集的一匿名資料集,其中錨屬性對應的原始值在匿名資料集中都保持原值。
匿名資料集的產生裝置包括一記憶體以及一處理器。記憶體用以儲存資料或暫存資料。處理器耦接於記憶體,且處理器包括一等價類產生模組、一叢集產生模組以及一資料泛化模組。等價類產生模組用以執行以下步驟。取得關鍵屬性集合以及準識別符集合,其中關鍵屬性集合包括至少一個關鍵屬性,準識別符集合包括多個準識別符。將關鍵屬性之一設定為錨屬性。依據準識別符集合、關鍵屬性集合以及原始資料集,產生等價類資料表。其中等價類資料表包括多個等價類,每一個等價類包括至少一個等價資料,每一個等價資料包括個別對應這些準識別符的多個原始 值。
而叢集產生模組用以依據等價類資料表依序產生叢集資料表的多個資料叢集,其中每一個資料叢集包括至少一個等價類。資料泛化模組則用以對叢集資料表進行資料泛化,以產生並輸出對應原始資料集的匿名資料集,其中錨屬性對應的原始值在匿名資料集中都保持原值。
匿名資料集的風險評估方法可用以評估依據原始資料集產生的匿名資料集,且匿名資料集的風險評估方法包括以下步驟。取得原始資料集的多個原始值個別對應的多個出現次數。依據一取樣參數、一匿名參數以及出現次數,產生一分割集合以及一權重表。依據分割集合將原始資料集分割成多個資料塊,並依據權重表以及這些資料塊產生一滲透資料集(penetration dataset),其中滲透資料集包括多個樣本資料。比較每一個樣本資料與匿名資料集的多個匿名資料,並得到與這些樣本資料個別對應的多個配對個數。依據這些配對個數,計算並輸出一風險評估結果。
匿名資料集的風險評估裝置可用以評估依據原始資料集產生的匿名資料集,且匿名資料集的風險評估裝置包括一記憶體以及一處理器。記憶體用以儲存資料或暫存資料。處理器耦接於記憶體,且處理器包括一權重產生模組、一樣本產生模組以及一風險評估模組。
權重產生模組用以取得原始資料集的多個原始值個別對應的多個出現次數,並依據取樣參數、匿名參數以及這些出現次數,產生分割集合以及權重表。樣本產生模組用以依據分割集合將原 始資料集分割成多個資料塊,並依據權重表以及這些資料塊產生滲透資料集,其中滲透資料集包括多個樣本資料。而風險評估模組用以比較每一個樣本資料與匿名資料集的多個匿名資料,得到與這些樣本資料個別對應的多個配對個數,並依據這些配對個數,計算並輸出風險評估結果。
綜上所述,匿名資料集的產生方法及裝置可以依據代表使用者目的關鍵屬性產生等價類資料表,且減少泛化過程中資料被修改的幅度。因此可以維持匿名資料集的資料真實性,也能以較高的執行效率產生低失真的匿名資料集。
而匿名資料集的風險評估方法及裝置從原始資料集的每個資料塊中取出代表性的樣本資料,再比對樣本資料以及匿名資料以進行風險評估。由於樣本資料的個數遠小於原始資料集中原始資料的總數,因此能夠大幅減低風險評估時所需的運算量以及處理時間。
以下在實施方式中詳細敘述本揭露之詳細特徵以及優點,其內容足以使任何熟習相關技藝者了解本揭露之技術內容並據以實施,且根據本說明書所揭露之內容、申請專利範圍及圖式,任何熟習相關技藝者可輕易地理解本揭露相關之目的。
本揭露提出一種匿名資料集(anonymous dataset)的產生方法及裝置與風險評估方法及裝置。其中一匿名資料集的產生裝置可用以執行匿名資料集的產生方法;一匿名資料集的風險評估裝置可用以執行匿名資料集的風險評估方法。
首先,請參照「第1A圖」,其係為一實施範例之匿名資料集的產生裝置之方塊示意圖。匿名資料集的產生裝置30包括一處理器31(processor)以及一記憶體38。其中記憶體38用以儲存資料或暫存資料,而處理器31包括一等價類產生模組32、一叢集產生模組34以及一資料泛化模組36。處理器31可執行匿名資料集的產生方法的各步驟以依據一原始資料集(original dataset)產生一匿名資料集。原始資料集、匿名資料集以及產生匿名資料集時所需的一等價類資料表(equivalence table)以及一叢集資料表(cluster table)都可以是儲存或暫存於記憶體38或是儲存或暫存計算機的一資料庫(database)50的一個資料表。
請參照「第2圖」,其係為一實施範例之匿名資料集的產生方法之流程示意圖。匿名資料集的產生方法可將原始資料集進行去識別化(de-identification),並產生符合一k匿名(k-anonymity)隱私保護限制的匿名資料集,其中K為正整數。匿名資料集的產生方法概述如「第2圖」。
等價類產生模組32可先取得一關鍵屬性(critical attribute)集合以及一準識別符(Quasi-identifiers,QID)集合(步驟S110),其中關鍵屬性集合可包括至少一關鍵屬性,準識別符集合包括多個準識別符。其中關鍵屬性集合可以是準識別符集合的子集合。關鍵屬性之一或是準識別符之一會被設定為一錨屬性(anchor attribute)。接著等價類產生模組32依據準識別符集合、關鍵屬性集合以及原始資料集,產生等價類資料表(步驟S120)。
其中等價類資料表中包括多個等價類,每一個等價類包括至 少一等價資料,且每一個等價資料包括個別對應準識別符的多個原始值。關鍵屬性可由欲利用原始資料集的一使用者依據使用目的自行設定,表示這些與關鍵屬性相關的資料希望能夠盡可能保持原值,以確保後續使用時的正確性。準識別符則可由原始資料集的一管理員設定,表示這些與準識別符相關的資料是敏感資料。
叢集產生模組34依據等價類資料表依序產生叢集資料表的多個資料叢集(步驟S130),其中每一個資料叢集包括至少一個等價類。接著資料泛化模組36對叢集資料表進行資料泛化(Generalization),以產生並輸出對應原始資料集的匿名資料集(步驟S140),其中錨屬性對應的原始值在匿名資料集中保持原值。
關鍵屬性中最重要的一個會被設為錨屬性,且在去識別化的過程中,錨屬性相關的資料不會被改變。因此在產生的匿名資料集中,對應錨屬性的值仍然會維持原始值,以避免匿名資料集因去識別化過度失真。
以下詳述「第2圖」各步驟的詳細實施方式。
請先參照「第1B圖」,其係為一實施範例之匿名資料集的產生裝置之方塊示意圖。於「第1B圖」的實施範例中,等價類產生模組32可包括一等價類組成單元321、一屬性序列單元322、一建構單元323、一編碼單元324以及一排序單元325,以執行步驟S110以及步驟S120。
請參照「第3圖」,其係為一實施範例之步驟S110之流程示意圖。
等價類產生模組32的等價類組成單元321可從一配置檔案(configuration file)或是一使用者介面(user interface,UI)讀取準識別符集合以及關鍵屬性集合(步驟S111),且關鍵屬性集合可為準識別符集合之子集合。根據一實施範例,匿名資料集的產生裝置30可提供一圖形使用者介面(graphical user interface,GUI),以供使用者透過GUI設定關鍵屬性集合或供管理員透過GUI設定準識別符集合;GUI並可自動將設定完的定關鍵屬性集合或準識別符集合儲存於配置檔案。
讀取之後,等價類組成單元321可判斷是否所有關鍵屬性都屬於準識別符集合(步驟S112)。換句話說,可判斷準識別符集合是否包括關鍵屬性集合,或是判斷準識別符集合中是否有與關鍵屬性相同的準識別符。
當有任一關鍵屬性不屬於準識別符集合時,等價類組成單元321可將所有不屬於準識別符集合的關鍵屬性從關鍵屬性集合中刪除(步驟S113)。如此一來,所有使用者設定的關鍵屬性都會屬於準識別符集合;而準識別符集合中有作為關鍵屬性的準識別符以及其他的準識別符。
根據一實施範例,原始資料集中的資料屬性可分為三種:直接識別符(direct identifier)、敏感性屬性以及準識別符。其中利用單一個原始值就能直接識別出特定人物的原始屬性被稱為直接識別符,直接識別符例如是身分證號碼、員工號碼或是人名。敏感性屬性的定義則與使用目的相關,一般係指較關於個人隱私的資料屬性。準識別符集合係由管理員依照不同使用目的設定。不同 的使用目的的敏感性資料屬性不同,如進行區域收入分析時,個人病史是敏感資訊。而不是直接識別符也不是敏感性屬性的資料屬性就稱為準識別符。
管理員可以將直接識別符與敏感性屬性以外的資料屬性設為準識別符。換句話說,準識別符一定是經管理員認可為非敏感且不易洩漏個人隱私的資料屬性。藉由步驟S113,可以防止使用者不小心或故意將敏感的資料屬性設成關鍵屬性,而造成敏感資料外洩的情形。
接著請參照「第4圖」,其係為一實施範例之步驟S120之流程示意圖。
等價類組成單元321可依據準識別符集合從原始資料集中擷取等價類資料表,其中每一個等價類包括一對應數量的等價資料(步驟S121)。原始資料集包括多個原始資料,其中每一個原始資料都包括與原始屬性個別對應的多個原始值,且前述的準識別符是部份的原始屬性。等價類組成單元321可找出所有的原始資料中對應準識別符集合的原始值。
但等價類組成單元321可先判斷是否有任一原始屬性是一直接識別符。等價類組成單元321可判斷哪些原始屬性是直接識別符,並不將直接識別符及對應的原始屬性加入等價類資料表。根據一實施範例,若有任一準識別符或關鍵屬性是直接識別符,則可從準識別符集合以及關鍵屬性集合中刪除此直接識別符。
假設原始資料集中儲存一美國成年人員資料,原始資料集舉例如下「表一」。
「表一」之原始資料集中有4個原始屬性,分別是「勞動階級」、「性別」、「資料編號」以及「年齡」,其中資料編號是直接識別符或是敏感性屬性等不屬於準識別符的資料屬性。假設關鍵屬性是「性別」,準識別符是「勞動階級」、「性別」以及「年齡」則等價類組成單元321可先得到原始資料集中對應於「勞動階級」、「性別」以及「年齡」的原始值。
依據每個得到的原始資料的原始值之排列情形,等價類組成單元321可組合出多種等價類。對應準識別符的所有原始值都相同者會被歸於同一個等價類。「資料編號」為150683與150234的兩個原始資料中,就準識別符而言原始值都是「私人」、「男」以及「43」,因此會被歸於同一個等價類。而此一等價類中則至少包 括這兩個等價資料。
等價類組成單元321依據原始值組合出所有的等價類後,將所有的等價類儲存成等價類資料表。接著可計算每一個等價類所對應的原始資料的數量作為對應數量,並將對應數量也存入等價類資料表。
而屬性序列單元322可依據準識別符集合以及關鍵屬性集合產生一屬性序列(attribute sequence)(步驟S122)。屬性序列單元322可以利用一屬性序列規則(Attribute sequence rule)將所有的準識別符排序以產生屬性序列,其中屬性序列規則可包括下述的一第一規則、一第二規則、一第三規則以及一第四規則。且經排序後,最優先的關鍵屬性或準識別符會被設定為錨屬性。
根據一實施範例,關鍵屬性集合可以是空集合;也就是說,使用者可以不指定關鍵屬性。如果沒有指定關鍵屬性,屬性序列單元322可依據屬性序列規則將所有的準識別符排序,並將屬性序列中排第一的準識別符設為錨屬性。
第一規則中規定關鍵屬性優先於關鍵屬性以外的準識別符。第二規則中規定屬於一類別類型(categorical type)屬性的準識別符優先於屬於一數字類型屬性的準識別符。準識別符對應的原始值是數值時,其屬於數字類型屬性;而當準識別符對應的原始值是字元或字串(string)時,其屬於類別類型屬性。
第三規則中規定對應的一分類樹(Taxonomy tree)的高度較低的準識別符優先於對應的分類樹的高度較高的準識別符。每一個類別類型屬性的準識別符對應一個獨自的分類樹;一般而言, 原始值越複雜分類樹的高度就越高。第四規則中規定對應的一原始值變異數較低的準識別符優先於對應的原始值變異數較高的準識別符。其中原始值變異數係指一個準識別符對應的原始值的種類的個數;例如「性別」對應的原始值有「男」以及「女」兩種,因此原始值變異數為2。
舉例而言,「性別」是關鍵屬性,因此在屬性序列中優先於「勞動階級」以及「年齡」。且由於「勞動階級」是類別類型屬性,「年齡」是數字類型屬性,因此在屬性序列中「勞動階級」優先於「年齡」。則經排列之後,輸出的屬性序列會是「性別,勞動階級,年齡」,而錨屬性會是「性別」。
建構單元323可針對每一個準識別符的每一個原始值,產生與這些原始值對應的多個值代碼(步驟S123)。請配合參照「第5圖」,其係為一實施範例之步驟S123之流程示意圖。
建構單元323先判斷準識別符屬於數字類型屬性或類別類型屬性(步驟S1231)。對於屬於數字類型屬性的準識別符,可將對應的原始值直接作為對應的值代碼(步驟S1232)。例如「年齡」對應的各原始值的數值可直接作為值代碼,因此原始值「43」對應的值代碼就是「43」。
對於屬於類別類型屬性的準識別符,建構單元323可依據對應的原始值產生分類樹,並利用分類樹將對應的原始值編碼得到對應的值代碼(步驟S1233)。請參照「第6A圖」以及「第6B圖」,其分別為準識別符「性別」以及「勞動階級」所對應的分類樹。分類樹的葉節點(leaf node)就是此準識別符所有可能對應的原始 值;例如「性別」對應的原始值有「男」以及「女」,「勞動階級」對應的原始值有「私人」、「非企業型自雇員」、「企業型自雇員」、「聯邦政府(federal-gov)」、「地方政府」、「州政府」、「無償(without-pay)」以及「未工作過(never-worked)」。
建構單元323可依序對所有的葉節點產生值代碼,例如可以產生從「00」開始的兩位元十進位碼。且每一個分類樹中的值代碼都會被重置。如「第6A圖」以及「第6B圖」所示,原始值「女」以及「男」對應的值代碼分別是「00」以及「01」;原始值「私人」、「非企業型自雇員」、「企業型自雇員」、「聯邦政府」、「地方政府」、「州政府」、「無償」以及「未工作過」則會是「00」到「07」。根據一實施範例,分類樹的結構可以是事先以人工的方式建立,並存入配置檔案中。而建構單元323可從配置檔案讀取所需的分類樹並予以編號。
對準識別符的每個原始值產生值代碼後,編碼單元324可依照屬性序列以及值代碼將等價類編碼,以產生多個等價類代碼(步驟S124)。編碼單元324可逐一讀取等價類,並依照屬性序列將此等價類對應的原始值的值代碼排序成為等價類代碼。例如等價類「男,私人,43」的等價類代碼會是由「01」、「00」以及「43」組成的十進位碼「010043」。
產生所有的等價類代碼後,排序單元325再依據等價類代碼,將等價類資料表的等價類排序,並輸出排序完成的等價類資料表(步驟S125)。排序單元325可將等價類代碼由小到大排序,使得原始值相近的等價類會彼此相鄰,而可增加等價類資料表的可讀 性以及後續依據等價類資料表產生匿名資料集的速率。
產生的等價類資料表舉例如下「表二」。
如此一來,等價類產生模組32可依據使用者自定的關鍵屬性集合自動產生等價類資料表。而叢集產生模組34可接著依據等價類資料表產生叢集資料表,其中叢集資料表包括多個資料叢集,每一個資料叢集包括一叢集代碼以及至少一個等價類。
為了確保產生的匿名資料集符合k匿名隱私保護限制,在產生過程中匿名資料集的產生裝置30可利用一匿名參數k來進行驗證。匿名資料集包括多個匿名資料,且每一個匿名資料可包括與準識別符個別對應的多個第三屬性值。k匿名係指在匿名資料集中一定會有k個或k個以上的匿名資料對應到完全相同的第三屬性值;k值越高表示去識別化的程度越高。而匿名參數也可以由使用者或管理員透過GUI設定,也可由配置檔案中讀取。
請參照「第7圖」,其係為一實施範例之步驟S130之流程示意圖。叢集產生模組34可先依據對應數量依序將等價類加入資料叢集(步驟S131),再判斷是否有任一資料叢集中的等價資料的總數小於匿名參數(步驟S132)。
當任一資料叢集中的等價資料的總數小於匿名參數時,叢集產生模組34可將此總數小於匿名參數的資料叢集作為第一叢集(步驟S133),並將第一叢集的前一資料叢集作為第二叢集(步驟S134)。假設資料叢集中的資料叢集是依據叢集代碼由小到大排列,則第一叢集以及第二叢集是在叢集資料表中連續的兩個資料叢集,且第一叢集的叢集代碼小於第二叢集的叢集代碼。
叢集產生模組34可判斷第一叢集與第二叢集中對應錨屬性的原始值是否相同(步驟S135)。當第一叢集與第二叢集中對應錨屬性的原始值相同時,合併第一叢集與第二叢集(步驟S136),以使合併後的資料叢集中的等價類的數量大於匿名參數。
進一步地說,為了達成k匿名隱私保護限制,叢集產生模組34於步驟S131中亦會盡量使產生的每一個叢集資訊中都包括k個或k個以上的等價資料。
請參照「第8圖」,其係為一實施範例之步驟S131之流程示意圖。叢集產生模組34可依序讀取所有的等價類(步驟S201),以依序將所有的等價資訊加入叢集資料表。
叢集產生模組34可先判斷讀取的等價類是否為等價類資料表中的第一個等價類(步驟S202),若是,執行以下步驟S203到步驟S206。叢集產生模組34可以新增一暫存叢集,並設定暫存叢集 對應於這些資料叢集之一(步驟S203)。
更詳細地說,若是等價類資料表中的第一個等價類,表示目前還沒有產生任何的資料叢集。因此當此一暫存叢集中的等價資料的數量已大於或等於匿名參數時,可將此暫存資料儲存為第一個資料叢集。假設第一個資料叢集的叢集代碼等於1,則於步驟S203中可設定暫存叢集對應於叢集代碼是1的資料叢集。依據這個原則,叢集產生模組34可以逐一產生出多個資料叢集。
叢集產生模組34並可將第一個讀取的等價類中對應錨屬性的原始值紀錄為目前錨值(步驟S204)。以「表二」為例,錨屬性「性別」對應的原始值「女」會被紀錄為目前錨值。接著叢集產生模組34可依據讀取的等價類的對應數量累計一累計數量(步驟S205),並依據匿名參數以及累計數量,將讀取的等價類加入暫存叢集(步驟S206)。
假設累計數量的初始值是0,而於步驟S205中可將目前的累計數量加上讀取的等價類的對應數量作為更新後的累計數量。以「表二」中第一個等價類(等價類代碼是「000140」的等價類)為例,對應數量是1,累計數量是0+1=1。
當讀取的等價類不是等價類資料表中的第一個等價類時,叢集產生模組34可進一步判斷讀取的等價類中對應錨屬性的原始值是否與紀錄的目前錨值相同(步驟S207)。若讀取的等價類中對應錨屬性的原始值與目前錨值相同,也可執行步驟S205以及步驟S206以將讀取的等價類加入暫存叢集。
例如當讀取的等價類是「表二」中第二個等價類(等價類代 碼是「000233」的等價類)中對應錨屬性「性別」的原始值是「女」,與目前錨值「女」相同,故可對此等價類執行步驟S205以及步驟S206。根據一實施範例,目前錨值可紀錄對應的值代碼。而叢集產生模組34可以直接比較紀錄的值代碼與錨屬性對應的值代碼,也就是比較紀錄的值代碼與讀取的等價類代碼的前兩碼。
並請配合參照「第9圖」,其係為一實施範例之步驟S206之流程示意圖。叢集產生模組34可判斷累計數量是否小於匿名參數(步驟S301)。當累計數量小於匿名參數時,可將讀取的等價類所有的等價資料都加入暫存叢集(步驟S302),再去讀取下一個等價類。假設匿名參數是3,而依據目前讀取的等價類(第一個等價類)累計得到的累計數量是1;表示即使將目前讀取的等價類的所有等價資料都加入暫存叢集中也還未滿足k匿名,而可全部加入。
合併過大的等價類會導致匿名資料及的資料過度失真。為了防止未滿足k的暫存叢集加入等價類後使得累計數量遠大於k的情況,若累計數量不小於匿名參數,則可進一步判斷累計數量是否小於匿名參數的兩倍(步驟S303)。
當累計數量等於匿名參數,或累計數量大於匿名參數且累計數量小於匿名參數的兩倍時,表示即使將目前讀取的等價類的所有等價資料都加入暫存叢集中,也還不會使得累計數量遠大於匿名參數。因此叢集產生模組34可以將讀取的等價類所有的等價資料加入暫存叢集(步驟S304),並將暫存叢集儲存成對應的資料叢集(步驟S305)。
將暫存叢集封存成對應的資料叢集後,可初始化暫存叢集以 及累計數量,並設定初始化後的暫存叢集對應於儲存的資料叢集的次一個資料叢集(步驟S306)。假設原本暫存叢集對應於叢集代碼1的資料叢集,可設定初始化後的暫存叢集對應於叢集代碼2的資料叢集。且暫存叢集被初始化後會被清空,累計數量則會被設為初始值0。
以「表二」中第二個等價類(等價類代碼是「000233」的等價類)為例,對應數量是2,累計數量是1+2=3=k。由於累計數量等於匿名參數,因此可將此等價類中所有的等價資料都加入暫存叢集,並將包含第一個和第二個等價類之等價資訊的暫存叢集儲存成叢集代碼為1的資料叢集。接著叢集產生模組34初始化暫存叢集以及累計數量,並設定初始化後的暫存叢集對應叢集代碼2,再去讀取下一個等價類。
當累計數量大於或等於匿名參數的兩倍時,叢集產生模組34可執行以下步驟S307到步驟S313以將目前讀取的等價類的所有等價資料適當地加入叢集資料表。
叢集產生模組34可先將目前讀取的等價類所有的等價資料分割成一第一群組以及一第二群組(步驟S307)。其中第一群組包括至少一個等價資料,第二群組包括讀取的等價類中剩餘的等價資料;且第二群組中的等價資料的數量一定會等於或大於匿名參數。
根據一實施範例,第一群組中的等價資料的個數是匿名參數減去累加前的累計數量。以「表二」中第五個等價類(等價類代碼是「010043」的等價類)為例,累加前的累計數量是2,暫存叢集對應的叢集代碼是3,讀取的等價類的對應數量是5,則累加後 的累計數量是7。此時可由讀取的等價類中取出前3-2=1個等價資料作為第一群組,並將剩餘的5-1=4個等價資料作為第二群組。
叢集產生模組34可將第一群組的等價資料加入暫存叢集(步驟S308),並將暫存叢集儲存成對應的資料叢集(步驟S309)。接著可初始化暫存叢集以及累計數量,並設定初始化後的暫存叢集對應於儲存的資料叢集的次一個資料叢集(步驟S310)。
接下來,叢集產生模組34再將第二群組的等價資料加入初始化後的暫存叢集(步驟S311)。由於第二群組中的等價資料的數量一定會等於或大於匿名參數,因此將第二群組的等價資料加入初始化後的暫存叢集後可直接將具有第二群組的暫存叢集儲存成對應的資料叢集(步驟S312)。類似地,儲存資料叢集後,叢集產生模組34可初始化暫存叢集以及累計數量,並設定初始化後的暫存叢集對應於儲存有第二群組的資料叢集的次一個資料叢集(步驟S313)。
承上述例,將暫存叢集儲存成叢集代碼是3的資料叢集後會將暫存叢集以及累計數量初始化,並設定初始化後的暫存叢集對應叢集代碼4。接著可將第二群組的5個等價資料加入對應叢集代碼4的暫存叢集,直接將此暫存叢集儲存成叢集代碼是4的資料叢集,再度將暫存叢集以及累計數量初始化,並設定初始化後的暫存叢集對應叢集代碼5。
換句話說,若有等價類加入目前的暫存叢集後會使得累計數量遠大於匿名參數,叢集產生模組34可以將此等價類分割並存成多個對應的資料叢集。
根據一實施範例,若第二群組中的等價資料的數量仍大於匿名參數的兩倍,則會維持第二群組中的等價資料數量,不再額外進行等價類的切割。
此外,叢集資料表中另可紀錄每個等價類加入暫存叢集時的累計數量;也就是紀錄等價類加入暫存叢集後,此暫存叢集當時包含的等價資料的總量。例如當「表二」中第一個等價類加入暫存叢集時的總量是0+1=1,當「表二」中第二個等價類加入暫存叢集時的總量是1+2=3。
藉由上述步驟S301到步驟S313,叢集產生模組34可依據讀取的等價類產生對應的資料叢集,且產生的資料叢集能符合k匿名的限制。
請回到「第8圖」。若讀取的等價類不是第一個讀取的等價類,且讀取的等價類中對應錨屬性的原始值與目前錨值不同,可執行以下步驟S208到步驟S213。例如當讀取的等價類是「表二」中第四個等價類(等價類代碼是「010043」的等價類)中對應錨屬性「性別」的原始值是「男」,與目前錨值「女」不同,故可對此等價類執行步驟S208到步驟S213。
若目前讀取的等價類中對應錨屬性的原始值與目前錨值不同,表示目前讀取的等價類與前一個等價類的內容相差甚大,故不將這兩個等價類加入同一個資料叢集。叢集產生模組34可先將暫存叢集儲存成對應的資料叢集(步驟S208),初始化暫存叢集以及累計數量,並設定初始化後的暫存叢集對應於儲存的資料叢集的次一個資料叢集(步驟S209)。且叢集產生模組34可依據匿名 參數以及對應數量,將讀取的等價類加入初始化後的暫存叢集(步驟S210)。
叢集產生模組34將目前讀取的等價類與前一個等價類分開加入不同的資料叢集,以避免錨屬性的原始值在後續進行泛化時被更改。而叢集產生模組34可利用前述步驟S301到步驟S313將讀取的等價類加入初始化後的暫存叢集,故於此不再贅述。
接著叢集產生模組34可依據讀取的等價類的對應數量累計初始化後的累計數量(步驟S211),並將讀取的等價類中對應錨屬性的原始值紀錄為目前錨值(步驟S212)。例如當「表二」中第四個等價類加入初始化後的暫存叢集後,需將累計數量更新為此等價類的對應數量2,並將新的錨屬性之原始值「男」或其值代碼紀錄為新的目前錨值。
每處理完一個等價類,叢集產生模組34都可判斷讀取的等價類是否為等價類資料表中的最後一個等價類(步驟S213),以決定是否要讀取下一個等價類。利用上述步驟S131到步驟S135、步驟S201到步驟S213以及步驟S301到步驟S313,叢集產生模組34能夠依據等價類資料表依序產生叢集資料表。
產生的叢集資料表舉例如下「表三」。
得到叢集資料表之後,資料泛化模組36對叢集資料表進行資料泛化,以產生匿名資料集。請參照「第10圖」,其係為一實施範例之步驟S140之流程示意圖。
資料泛化模組36依序讀取叢集資料表中所有資料叢集的所有等價類(步驟S141),並先判斷讀取的等價類是否為叢集資料表中的第一個等價類(步驟S142)。當讀取的等價類是叢集資料表中的第一個等價類時,可將第一個等價類作為一暫存泛化型態(步驟S143)。暫存泛化型態可包括個別對應準識別符的多個第一屬性值,且這些第一屬性值的初始值可被設為第一個資料叢集的原始值。
若讀取的等價類不是叢集資料表中的第一個等價類,可進一步判斷讀取的等價類與暫存泛化型態對應的叢集代碼是否相同(步驟S144)。若讀取的等價類與暫存泛化型態對應的叢集代碼相同時,表示取的等價類與暫存泛化型態屬於同一個資料叢集。故資料泛化模組36可尋找讀取的等價類與暫存泛化型態之間的一最小泛化型態(步驟S145),並將最小泛化型態儲存為更新的暫存泛 化型態(步驟S146)。
上述最小泛化型態可視為讀取的等價類與暫存泛化型態之間的聯集。最小泛化型態可包括個別對應準識別符的多個第二屬性值,而第二屬性值的內容可以同時包含對應的第一屬性值以及原始值。尋找最小泛化型態的做法容後詳述。
反之,若讀取的等價類與暫存泛化型態對應的叢集代碼不同時,表示讀取的等價類已屬於不同的資料叢集,因此資料泛化模組36可將當前的暫存泛化型態儲存於匿名資料集(步驟S147),並將讀取的等價類作為新的暫存泛化型態(步驟S148)。
每一個匿名資料可包括與準識別符個別對應的多個第三屬性值,資料泛化模組36可將當前的暫存泛化型態的第二屬性值對應儲存為匿名資料的第三屬性。資料泛化模組36並可將暫存泛化型態初始化,將讀取的等價類作為新的暫存泛化型態,再回到步驟S141讀取下一筆等價類。
請參照「第11圖」,其係為一實施範例之步驟S145之流程示意圖。為了尋找讀取的等價類與暫存泛化型態之間的最小泛化型態,資料泛化模組36可依序將所有的準識別符設為一目前識別符(步驟S1451),並逐一檢視讀取的等價類以及暫存泛化型態對應於目前識別浮的原始值以及第一屬性值。
資料泛化模組36可逐一在判斷讀取的等價類與暫存泛化型態中,對應目前識別符的第一屬性值與原始值是否相同(步驟S1452)。當相同時,可將對應目前識別符的第一屬性值作為最小泛化型態的第二屬性值(步驟S1453),並暫存第二屬性值。
舉例而言,上述「表三」中的第四個等價類「男,私人,23,3,2」以及第五個等價類「男,私人,43,3,3」中,對應於準識別符「性別」以及「勞動階級」的第一屬性值與原始值都相同,因此可以將此相同的第一屬性值或原始值直接作為第二屬性。
當對應目前識別符的第一屬性值與原始值不同時,資料泛化模組36則可進一步判斷目前識別符屬於數字類型屬性或類別類型屬性(步驟S1454)。若目前識別符屬於數字類別屬性,可依據對應目前識別符的第一屬性值以及原始值產生一泛化數值範圍,並將泛化數值範圍作為最小泛化型態的第二屬性值(步驟S1455)。
舉例而言,處理上述「表三」中的第四個等價類時,資料泛化模組36會將第四個等價類的原始值設為暫存泛化型態的第一屬性值。而處理第五個等價類時,對應於準識別符「年齡」的第一屬性值「23」與讀取的等價類的原始值「43」不同。則資料泛化模組36可以產生一個能同時包括第一屬性值以及原始值的最小數值範圍作為泛化數值範圍。於此例中,可產生泛化數值範圍「[23-43]」作為第二屬性值並儲存。
假設第一屬性值已經是一個數值範圍且原始值已落於此數值範圍,則資料泛化模組36可將直接將第一屬性值作為泛化數值範圍並設為第二屬性。例如當第一屬性值是「[23-43]」而對應的原始值是「23」時,第二屬性值會與第一屬性值相同。
若目前識別符屬於類別類型屬性,則資料泛化模組36可依據目前識別符對應的分類樹、第一屬性值以及原始值產生一泛化字串,並將泛化字串作為最小泛化型態的第二屬性值(步驟S1456)。 類似地,資料泛化模組36可以產生一個含意上能同時包括第一屬性值以及原始值的字串作為泛化字串。簡單來說,可以依據第一屬性值與原始值在分類樹中對應的節點的相互關係找出泛化字串。
如果在分類樹中第一屬性值對應的節點不是個葉節點,且原始值對應的節點屬於以第一屬性值對應的節點為根節點(root node)的子樹(sub-tree)中,資料泛化模組36可直接將第一屬性值作為泛化字串。舉例而言,處理完上述「表三」中的第七個等價類「男,聯邦政府,51,4,6」之後,暫存泛化型態中對應準識別符「勞動階級」的第一屬性值會是「有償」;而第八個等價類「男,州政府,51,4,6」中對應的原始值是「州政府」。於「第6B圖」所示之分類樹中,「州政府」對應的葉節點已屬於以「有償」對應的節點作為根節點的子樹中。因此「州政府」已屬於「有償」,或是說「有償」已涵蓋「州政府」,故可將「有償」設為第二屬性值。
如果在分類樹中第一屬性值對應的節點是一個葉節點,或是原始值對應的節點不屬於以第一屬性值對應的節點為根節點的子樹中,資料泛化模組36則可將第一屬性值與原始值對應之節點的最低共同父節點(parent node)所對應的值作為泛化字串。換句話說,先找出同時包含第一屬性值與原始值對應之節點的最小子樹,並將此最小子樹的根節點對應的值作為第二屬性值。
舉例而言,資料泛化模組36處理完上述「表三」中的第一個等價類「女,非企業型自雇員,40,1,1」之後,暫存泛化型態對應準識別符「勞動階級」的第一屬性值會是「非企業型自雇員」;而第 二個等價類「女,企業型自雇員,33,1,3」中對應的原始值是「企業型自雇員」。於「第6B圖」所示之分類樹中,「非企業型自雇員」與「企業型自雇員」的父節點都是「自雇員」,因此可將「自雇員」作為第二屬性值。
又舉例而言,資料泛化模組36處理完上述「表三」中的第六個等價類「男,私人,43,4,4」之後,暫存泛化型態對應準識別符「勞動階級」的第一屬性值會是「非企業型自雇員」;而第七個等價類中對應的原始值是「聯邦政府」。則同時包含第一屬性值與原始值對應之節點的最小子樹的根節點所對應的值「有償」會被作為第二屬性值。
此外,在步驟S147將當前的暫存泛化型態儲存於匿名資料集時,資料泛化模組36可以依據各叢集資料的累計數量統計此匿名資料包含的等價資料的總數,且一併儲存於匿名資料集中。
產生的匿名資料集舉例如下「表四」。
綜上所述,匿名資料集的產生裝置以及匿名資料集的產生方法可供使用者依據使用目的自行設定關鍵屬性,並依據關鍵屬性 以及原始資料集產生等價類資料表。接著可依據等價類產生符合k匿名限制的叢集資料表,再將叢集資料表針對對應相同叢集代碼的等價類進行局部泛化處理,以產生匿名資料集。
產生的匿名資料集能符合k匿名的限制,故以達到足夠的去識別化,而能保護原始資料。但由於關鍵屬性對應的原始值會被保留,因此匿名資料集中仍能保有可信度夠高的資料。再者,只對局部資料進行泛化的處理方式,也可避免可信度降低使得資料喪失可用性的狀況。
接下來說明匿名資料集的風險評估裝置以及匿名資料集的風險評估方法。匿名資料集的風險評估裝置以及方法可以評估匿名資料集去識別化的程度,並可找出匿名資料集中去識別化程度較低的危險資料。簡單來說,可以依據原始資料集產生具有代表性的多個樣本資料,並利用樣本資料攻擊匿名資料集,以評估匿名資料被重新識別的風險。
原始資料集舉例如下「表五」。
匿名資料集舉例如下「表六」,其中匿名資料集使用的匿名參數等於3。
請參照「第12圖」,其係為一實施範例之匿名資料集的風險評估裝置之方塊示意圖。匿名資料集的風險評估裝置40包括一處理器41以及一記憶體48。其中記憶體48用以儲存資料或暫存資料,而處理器41包括一權重產生模組42、一樣本產生模組44以及一風險評估模組46。處理器41可執行匿名資料集的風險評估方法的各步驟以評估依據原始資料集產生的匿名資料集。且匿名資料集的產生裝置30與匿名資料集的風險評估裝置40可以實作於相同的處理器或計算機,也可以實作於不同的處理器或計算機。另外,執行匿名資料集的風險評估方法時所需的原始資料集、匿名資料集、一權重表以及一滲透資料集(penetration dataset)可都是儲存或暫存於記憶體48或是儲存或暫存於計算機的資料庫50的一個資料表。
請參照「第13圖」,其係為一實施範例之匿名資料集的風險 評估方法之流程示意圖。
首先,權重產生模組42取得原始資料集的原始值個別對應的多個出現次數(步驟S510)。權重產生模組42可逐一針對每一個準識別符對應的每一個原始值搜尋原始資料集,並將原始值於原始資料集中出現的次數作為對應的出現次數。舉例而言,可統計在原始資料集中,準識別符「性別」對應的原始值是「女」的原始資料的個數,並將統計得到的個數作為原始值「女」所對應的出現次數。
依據一取樣參數、匿名參數以及這些出現次數,權重產生模組42產生一分割集合以及權重表(步驟S520)。其中取樣參數可以由使用者設定,匿名資料的風險評估裝置40可透過GUI獲得取樣參數。取樣參數越大,就會產生越多的樣本資料來攻擊匿名資料集。
請參照「第14圖」,其係為一實施範例之步驟S520之流程示意圖。
權重產生模組42可將準識別符進行排列組合以產生多個候選組合(步驟S521),其中每一個候選組合包括至少一個準識別符。假設一共有N個準識別符,權重產生模組42可以先產生所有只包括一個準識別符的候選組合,也就是將這N個準識別符個別作為一個候選組合。接著依序產生所有包括兩個、三個...到N個準識別符的候選組合。因此候選組合的個數會是
假設準識別符集合為「性別,年齡,郵遞區號」,共會產生「性 別」、「年齡」、「郵遞區號」、「性別,年齡」、「性別,郵遞區號」、「年齡,郵遞區號」以及「性別,年齡,郵遞區號」的6個候選組合。
權重產生模組42並計算與這些候選組合個別對應的多個原始值組合數(步驟S522);其中原始值組合數係指依據候選組合可以將原始資料分割得到的群組數量。
例如候選組合「性別」只能將所有的原始資料分割成兩個群組,分別是對應之原始值是「女」的原始資料,以及對應之原始值是「男」的原始資料。而候選組合「性別,勞動階級」可將所有的原始資料分割成對應之原始值是「女」以及「非企業型自雇員」的原始資料、對應之原始值是「女」以及「企業型自雇員」的原始資料或是對應之原始值是「男」以及「私人」的原始資料等多個群組。原始值組合數就是這些群組的個數。
須注意的是,不存在於原始資料集的原始值的組合不會被算入原始值組合數中。假設一個準識別符可能對應的原始值有3個,但在原始資料集中只出現其中2個,則單獨由此準識別符構成的候選組合所對應的原始值組合數是2。
以「表五」為例,前述6個候選組合對應的原始值組合數分別是:「性別」的是2、「年齡」的是5、「郵遞區號」的是5、「性別,年齡」的是6、「性別,郵遞區號」的是7、「年齡,郵遞區號」的是10,而「性別,年齡,郵遞區號」的是10。
為了讓樣本資料的數量接近且不小於取樣參數,權重產生模組42可從大於或等於取樣參數的至少一個原始值組合數中選擇最小的原始值組合數,並將選擇的原始值組合數所對應的候選組合 作為一分割集合(步驟S523)。假設取樣參數是6。由於候選組合「性別,年齡」的原始值組合數是6正好等於取樣參數,因此可選擇將候選組合「性別,年齡」作為分割集合。
接著可依據分割集合分割原始資料集,並依據取樣參數、匿名參數以及出現次數,產生權重表(步驟S524)。請參照「第15圖」,其係為一實施範例之步驟S524之流程示意圖。
權重產生模組42依據匿名參數計算一權重參數(步驟S5241)。根據一實施範例,權重參數與匿名參數的乘積大於或等於最大的出現次數。權重產生模組42可以將與匿名參數的乘積大於或等於最大的出現次數的最小整數值作為權重參數;也就是說,權重參數等於最大的出現次數除以匿名參數的商數的頂函數(ceiling function)值。以「表五」為例,原始值「女」對應的出現次數6是最大的出現次數,且匿名參數是3,故權重參數是6/3=2。
接著權重產生模組42可依序讀取所有的原始值(步驟S5242),並判斷目前的原始值對應的出現次數是否大於匿名參數(步驟S5243)。
當目前的原始值對應的出現次數大於匿名參數時,目前的原始值對應的權重值等於權重參數與匿名參數的乘積減去目前的原始值對應的出現次數再加上取樣參數(步驟S5244)。而當目前的原始值對應的出現次數小於或等於匿名參數時,目前的原始值對應的權重值等於權重參數與匿名參數的乘積加上目前的原始值對應的出現次數再加上取樣參數(步驟S5245)。
舉例而言,識別符「性別」對應的原始值「男」的出現次數是4,其大於匿名參數3。因此原始值「男」對應的權重值等於2×3-4+6=8。又例如識別符「年齡」對應的原始值「23」的出現次數是2,其小於匿名參數3。因此原始值「23」對應的權重值等於2×3+2+6=14。
藉由上述計算方式,權重產生模組42可計算出所有的原始值對應的權重值,並紀錄於權重表之中。權重表舉例如下「表七」。
產生權重表之後,樣本產生模組44可依據分割集合將原始資料集分割成多個資料塊,並依據權重表以及這些資料塊產生滲透資料集(步驟S530),其中滲透資料集包括前述的多個樣本資料。
請參照「第16圖」,其係為一實施範例之步驟S530之流程示意圖。
樣本產生模組44依據分割集合將原始資料集分割成資料塊(步驟S531),其中每一個資料塊包括至少一個原始資料。資料塊就是前述依據候選組合可將原始資料分割得到的群組,此時會得 到的資料塊的個數就是分割集合對應的原始值組合數。以前述範例而言,會依據分割集合「性別,年齡」將原始資料集分割成對應之原始值為「女,22」、「女,23」、「女,24」、「女,25」、「男,21」以及「男,22」的6個資料塊。
樣本產生模組44可依序讀取所有的資料塊,利用權重表計算目前的資料塊中每一個原始資料的一原始權重(步驟S532);並可依據原始權重從目前的資料塊中選出原始資料之一作為一個樣本資料(步驟S533)。
原始資料的原始權重的計算方式可以是此原始資料所有原始值對應的權重值的總合。而計算得到目前的資料塊中所有原始資料的原始權重後,可選擇最大的原始權重對應的原始資料作為樣本資料。
舉例而言,對應於「女,23」的資料塊包括兩個原始資料「女,23,12123」以及「女,23,12128」。其中原始資料「女,23,12123」的原始權重是原始值「女」、「23」以及「12123」的權重值的總合,等於8+14+14=36。類似地,可計算得到原始資料「女,23,12128」的原始權重是31。由於原始資料「女,23,12123」的原始權重是此資料塊中最高的,因此樣本產生模組44選擇原始資料「女,23,12123」作為樣本資料。
接著樣本產生模組44依據選出的原始資料(也就是樣本資料)更新權重表(步驟S534)。樣本產生模組44可在每次針對一個資料塊選出樣本資料之後,依據剛選出來的樣本資料更新權重表,再依據更新後的權重表計算下一個資料塊的原始權重,並據以從 下一個資料塊中選擇樣本資料。
根據一實施範例,於步驟S534之中可將選出的原始資料的原始值所對應的權重值減1。例如原始資料「女,23,12123」被選為樣本資料,則原始值「女」、「23」以及「12123」的權重值都減1。
利用上述步驟S510到步驟S530,可以從原始資料集中得到具有代表性的多個樣本資料,接著可利用這些樣本資料攻擊欲評估的匿名資料集。風險評估模組46比較每一個樣本資料與匿名資料集的多個匿名資料,並得到與這些樣本資料個別對應的多個配對個數(步驟S540)。
請參照「第17圖」,其係為一實施範例之步驟S540之流程示意圖。風險評估模組46可依序讀取所有的樣本資料(步驟S541),並對每一個樣本資料執行以下步驟S542到步驟S545。
依序針對所有的匿名資料,且依據準識別符,風險評估模組46可比較目前的樣本資料的原始值與目前的匿名資料的第三屬性值(步驟S542)。風險評估模組46可判斷是否對應的每一個原始值與每一個第三屬性值處於相同的屬性階層(步驟S543)。且於每一次比較中,當對應的每一個原始值與每一個第三屬性值處於相同的屬性階層時,風險評估模組46可將目前的匿名資料作為一配對資料(步驟S544)。
更詳細地說,風險評估模組46可先取一個樣本資料,比較此樣本資料以及每一個匿名資料,再重複直到所有的樣本資料都與樣本資料集比較完成。比較一個樣本資料以及一個匿名資料時,風險評估模組46可逐一將所有的準識別符設成一目前屬性,再比 較目前屬性對應的原始值與第三屬性值。對於所有的準識別符,如果每一個原始值與每一個第三屬性值處於相同的屬性階層就表示樣本資料符合此匿名資料,因此將此匿名資料作為配對資料。
屬於數字類型屬性的第三屬性值可以是泛化數值範圍。當目前的樣本資料的原始值落於對應的泛化數值範圍時,目前的樣本資料的原始值與對應的第三屬性值處於相同的屬性階層。舉例而言,假設原始值是「23」,對應的第三屬性值是「[23-43]」時,由於23落在範圍[23-43]內,因原始值與第三屬性值處於相同的屬性階層。又例如第三屬性值是「23」,也可視為一個範圍[23-23]。因此若對應的原始值同樣是「23」,則原始值與第三屬性值也是處於相同的屬性階層。
而屬於類別類型屬性的第三屬性值可以是泛化字串。當目前的樣本資料的原始值屬於對應的泛化字串時,目前的樣本資料的原始值與對應的第三屬性值處於相同的屬性階層。類似前述尋找最小泛化型態時的判斷方式,如果在分類樹中第三屬性值對應的節點不是個葉節點,且原始值對應的節點屬於以第三屬性值對應的節點為根節點的子樹中,則原始值與第三屬性值處於相同的屬性階層。例如原始值「12123」與第三屬性值「121**」處於相同的屬性階層。另外,若原始值與第三屬性值相同,也是處於相同的屬性階層。
以一個樣本資料比較完一個匿名資料後,可風險評估模組46可判斷目前的匿名資料是否為匿名資料集中的最後一個匿名資料(步驟S545)。如果不是最後一個匿名資料,就可回到步驟S542 以讀取下一個匿名資料繼續比對。
反之,當目前的匿名資料是匿名資料集中的最後一個匿名資料時,將目前的樣本資料對應的配對資料的數量作為對應的配對個數(步驟S546)。接著可風險評估模組46可回到步驟S541讀取下一個樣本資料,直到計算完所有樣本資料的配對個數。
依據配對個數,可風險評估模組46計算並輸出一風險評估結果(步驟S550)。風險評估結果可以包括一最大風險機率、一最小風險機率或一平均風險機率。根據一實施範例,可將最小的配對個數的倒數作為最大風險機率;將最大的配對個數的倒數作為最小風險機率;將配對個數的平均值的倒數作為平均風險機率。根據另一實施範例,可將配對個數乘以對應的資料塊的原始資料的個數再除以整個原始資料集的原始資料的總數作為平均風險機率。
匿名資料集的風險評估裝置40可以透過GUI將風險評估結果提供給管理員,以供管理員判斷在目前的風險程度下是否可以開放匿名資料集給使用者。此外,利用樣本資料找出的配對資料也可提供給管理員參考。若管理員覺得風險較高,可以更改匿名參數或是準識別符,並令匿名資料集的產生裝置30重新產生匿名資料集。而若管理員接受匿名資料集的去識別化結果,便可將目前的匿名資料集釋出給使用者進行研究或其他目的的使用。
綜上所述,匿名資料集的產生方法及裝置可以依據代表使用者目的關鍵屬性產生等價類資料表;因此在產生叢集資料表之前就優先考量使用者目的進行處理。且藉由依屬性序列排列等價類 資料表以及依據錨屬性的原始值產生資料叢集等方式,能夠減少泛化過程中資料被修改的幅度。因此匿名資料集的產生方法及裝置不僅能在關鍵屬性的資料維持高真實性,也能以較高的執行效率產生低失真的匿名資料集。
再者,匿名資料集的風險評估方法及裝置能夠對去識別化後的匿名資料集進行重新識別的風險評估。,匿名資料集的風險評估方法及裝置依據每個原始值在原始資料及中的出現次數產生權重表並分割資料庫,再從每個資料塊中取樣出具有危險性的樣本資料進行風險評估。由於樣本資料的個數遠小於原始資料集中原始資料的總數,因此能夠大幅減低風險評估時所需的運算量以及處理時間。
以上較佳具體實施範例之詳述,是希望藉此更加清楚描述本揭露之特徵與精神,並非以上述揭露的較佳具體實施範例對本揭露之範疇加以限制。相反地,其目的是希望將各種改變及具相等性的安排涵蓋於本揭露所欲申請之專利範圍的範疇內。
30‧‧‧匿名資料集的產生裝置
31‧‧‧處理器
32‧‧‧等價類產生模組
321‧‧‧等價類組成單元
322‧‧‧屬性序列單元
323‧‧‧建構單元
324‧‧‧編碼單元
325‧‧‧排序單元
34‧‧‧叢集產生模組
36‧‧‧資料泛化模組
38‧‧‧記憶體
40‧‧‧匿名資料集的風險評估裝置
41‧‧‧處理器
42‧‧‧權重產生模組
44‧‧‧樣本產生模組
46‧‧‧風險評估模組
48‧‧‧記憶體
50‧‧‧資料庫
第1A圖係為一實施範例之匿名資料集的產生裝置之方塊示意圖。
第1B圖係為一實施範例之匿名資料集的產生裝置之方塊示意圖。
第2圖係為一實施範例之匿名資料集的產生方法之流程示意圖。
第3圖係為一實施範例之步驟S110之流程示意圖。
第4圖係為一實施範例之步驟S120之流程示意圖。
第5圖係為一實施範例之步驟S123之流程示意圖。
第6A圖係為一實施範例之分類樹之示意圖。
第6B圖係為一實施範例之分類樹之示意圖。
第7圖係為一實施範例之步驟S130之流程示意圖。
第8圖係為一實施範例之步驟S131之流程示意圖。
第9圖係為一實施範例之步驟S206之流程示意圖。
第10圖係為一實施範例之步驟S140之流程示意圖。
第11圖係為一實施範例之步驟S145之流程示意圖。
第12圖係為一實施範例之匿名資料集的風險評估裝置之方塊示意圖。
第13圖係為一實施範例之匿名資料集的風險評估方法之流程示意圖。
第14圖係為一實施範例之步驟S520之流程示意圖。
第15圖係為一實施範例之步驟S524之流程示意圖。
第16圖係為一實施範例之步驟S530之流程示意圖。
第17圖係為一實施範例之步驟S540之流程示意圖。

Claims (48)

  1. 一種匿名資料集的產生方法,包括:取得一關鍵屬性集合以及一準識別符集合,其中該關鍵屬性集合包括至少一關鍵屬性,該準識別符集合包括多個準識別符,且該至少一關鍵屬性之一或該些準識別符之一設定為一錨屬性;依據該準識別符集合、該關鍵屬性集合以及一原始資料集,產生一等價類資料表,其中該等價類資料表包括多個等價類,每一該等價類包括至少一等價資料,每一該等價資料包括個別對應該些準識別符的多個原始值;依據該等價類資料表依序產生一叢集資料表的多個資料叢集,其中每一該資料叢集包括至少一該等價類;以及對該叢集資料表進行資料泛化,以產生並輸出對應該原始資料集的一匿名資料集,其中該錨屬性對應的該些原始值在該匿名資料集中保持原值。
  2. 如請求項1所述之匿名資料集的產生方法,其中該取得該關鍵屬性集合以及該準識別符集合的步驟包括:讀取該準識別符集合以及該關鍵屬性集合;以及當任一該至少一關鍵屬性不屬於該準識別符集合時,將所有不屬於該準識別符集合的該至少一關鍵屬性從該關鍵屬性集合中刪除。
  3. 如請求項1所述之匿名資料集的產生方法,其中該依據該準識 別符集合、該關鍵屬性集合以及該原始資料集,產生該等價類資料表的步驟包括:依據該準識別符集合從該原始資料集中擷取該等價類資料表,其中每一該等價類包括一對應數量的該至少一等價資料;依據該準識別符集合以及該關鍵屬性集合產生一屬性序列;產生與該些原始值對應的多個值代碼;依照該屬性序列以及該些值代碼將該些等價類編碼,以產生多個等價類代碼;以及依據該些等價類代碼,將該等價類資料表的該些等價類排序,並輸出排序完成的該等價類資料表。
  4. 如請求項3所述之匿名資料集的產生方法,其中該產生與該些原始值對應的該些值代碼的步驟包括:對於屬於一數字類別屬性的至少一該準識別符,將對應的該些原始值作為對應的該些值代碼;以及對於屬於一類別類別屬性的每一該準識別符,依據對應的該些原始值產生一分類樹,並利用該分類樹將對應的該些原始值編碼得到對應的該些值代碼。
  5. 如請求項4所述之匿名資料集的產生方法,其中每一該至少一關鍵屬性係為該些準識別符之一,且係利用一屬性序列規則產生該屬性序列,該屬性序列規則包括一第一規則、一第二規 則、一第三規則以及一第四規則;該第一規則係為該至少一關鍵屬性優先於該至少一關鍵屬性以外的該至少一準識別符;該第二規則係為屬於該類別類型屬性的該準識別符優先於屬於該數字類型屬性的該準識別符;該第三規則係為對應的該分類樹的高度較低的該準識別符優先於對應的該分類樹的高度較高的該準識別符;該第四規則係為對應的一原始值變異數較低的該準識別符優先於對應的該原始值變異數較高的該準識別符;且最優先的該關鍵屬性或該準識別符被設定為該錨屬性。
  6. 如請求項1所述之匿名資料集的產生方法,其中每一該等價類包括一對應數量的該至少一等價資料,且該依據該等價類資料表產生該叢集資料表的步驟包括:依據該些對應數量依序將該些等價類加入該些資料叢集;以及當任一該資料叢集中的該些等價資料的一總數小於一匿名參數時,執行以下步驟:將該總數小於該匿名參數的該資料叢集作為一第一叢集;將該第一叢集的前一該資料叢集作為一第二叢集;以及當該第一叢集與該第二叢集中對應該錨屬性的該原 始值相同時,合併該第一叢集與該第二叢集。
  7. 如請求項6所述之匿名資料集的產生方法,其中該依據該些對應數量依序將該些等價類加入該些資料叢集的步驟包括:依序讀取該些等價類;以及當讀取的該等價類是該等價類資料表中的第一個該等價類時,執行以下步驟:新增一暫存叢集,並設定該暫存叢集對應於該些資料叢集之一;將第一個讀取的該等價類中對應該錨屬性的該原始值紀錄為一目前錨值;依據讀取的該等價類的該對應數量累計一累計數量;以及依據該匿名參數以及該累計數量,將讀取的該等價類加入該暫存叢集。
  8. 如請求項7所述之匿名資料集的產生方法,其中該依據該些對應數量依序將該些等價類加入該些資料叢集的步驟另包括:當讀取的該等價類不是該等價類資料表中的第一個該等價類,且讀取的該等價類中對應該錨屬性的該原始值與該目前錨值相同時,執行以下步驟:依據讀取的該等價類的該對應數量累計該累計數量;以及依據該匿名參數以及該累計數量,將讀取的該等價類 加入該暫存叢集。
  9. 如請求項8所述之匿名資料集的產生方法,其中該依據該些對應數量依序將該些等價類加入該些資料叢集的步驟另包括:當讀取的該等價類不是該等價類資料表中的第一個該等價類,且讀取的該等價類中對應該錨屬性的該原始值與該目前錨值不同時,執行以下步驟:將該暫存叢集儲存成對應的該資料叢集;初始化該暫存叢集以及該累計數量,並設定初始化後的該暫存叢集對應於儲存的該資料叢集的次一該資料叢集;依據該匿名參數以及該對應數量,將讀取的該等價類加入初始化後的該暫存叢集;依據讀取的該等價類的該對應數量累計初始化後的該累計數量;以及將讀取的該等價類中對應該錨屬性的該原始值紀錄為該目前錨值。
  10. 如請求項8所述之匿名資料集的產生方法,其中該依據該匿名參數以及該累計數量,將讀取的該等價類加入該暫存叢集的步驟包括:當該累計數量小於該匿名參數時,將讀取的該等價類所有的該至少一等價資料加入該暫存叢集。
  11. 如請求項10所述之匿名資料集的產生方法,其中該依據該匿 名參數以及該累計數量,將讀取的該等價類加入該暫存叢集的步驟另包括:當該累計數量等於該匿名參數,或該累計數量大於該匿名參數且該累計數量小於該匿名參數的兩倍時,執行以下步驟:將讀取的該等價類所有的該至少一等價資料加入該暫存叢集;將該暫存叢集儲存成對應的該資料叢集;以及初始化該暫存叢集以及該累計數量,並設定初始化後的該暫存叢集對應於儲存的該資料叢集的次一該資料叢集。
  12. 如請求項11所述之匿名資料集的產生方法,其中該匿名參數係為大於1的正整數,讀取的該等價類的該對應數量大於該匿名參數,且該依據該匿名參數以及該累計數量,將讀取的該等價類加入該暫存叢集的步驟另包括:當該累計數量大於或等於該匿名參數的兩倍時,執行以下步驟:將讀取的該等價類所有的該些等價資料分割成一第一群組以及一第二群組,該第一群組包括至少一該等價資料,該第二群組包括讀取的該等價類中剩餘的至少一該等價資料;將該第一群組的該至少一等價資料加入該暫存叢集;將該暫存叢集儲存成對應的該資料叢集; 初始化該暫存叢集以及該累計數量,並設定初始化後的該暫存叢集對應於儲存的該資料叢集的次一該資料叢集;將該第二群組的該至少一等價資料加入初始化後的該暫存叢集;將具有該第二群組的該暫存叢集儲存成對應的該資料叢集;以及初始化該暫存叢集以及該累計數量,並設定初始化後的該暫存叢集對應於儲存有該第二群組的該資料叢集的次一該資料叢集。
  13. 如請求項1所述之匿名資料集的產生方法,其中每一該資料叢集包括一叢集代碼以及至少一該等價類,且該對該叢集資料表進行資料泛化,以產生並輸出對應該原始資料集的該匿名資料集的步驟包括:依序讀取該些資料叢集的該些等價類;當讀取的該等價類是該叢集資料表中的第一個該等價類時,將第一個該等價類作為一暫存泛化型態,該暫存泛化型態包括個別對應該些準識別符的多個第一屬性值,且該些第一屬性值的初始值為第一個該資料叢集的該些原始值;當讀取的該等價類不是該叢集資料表中的第一個該等價類,且讀取的該等價類與該暫存泛化型態對應的該叢集代碼相同時,執行以下步驟: 尋找讀取的該等價類與該暫存泛化型態之間的一最小泛化型態;以及將該最小泛化型態儲存為更新的該暫存泛化型態;以及當讀取的該等價類不是該叢集資料表中的第一個該等價類,且讀取的該等價類與該暫存泛化型態對應的該叢集代碼不同時,執行以下步驟:將當前的該暫存泛化型態儲存於該匿名資料集;以及將讀取的該等價類作為該暫存泛化型態。
  14. 如請求項13所述之匿名資料集的產生方法,其中該最小泛化型態包括個別對應該些準識別符的多個第二屬性值,該尋找讀取的該等價類與該暫存泛化型態之間的該最小泛化型態的步驟包括:依序將該些準識別符設為一目前識別符;當對應該目前識別符的該第一屬性值與該原始值相同時,將對應該目前識別符的該第一屬性值作為該最小泛化型態的該第二屬性值;當對應該目前識別符的該第一屬性值與該原始值不同,且該目前識別符屬於一數字類別屬性時,依據對應該目前識別符的該第一屬性值以及該原始值產生一泛化數值範圍,並將該泛化數值範圍作為該最小泛化型態的該第二屬性值;以及當對應該目前識別符的該第一屬性值與該原始值不同,且 該目前識別符屬於一類別類別屬性時,依據該目前識別符對應的一分類樹、該第一屬性值以及該原始值產生一泛化字串,並將該泛化字串作為該最小泛化型態的該第二屬性值。
  15. 一種匿名資料集的產生裝置,包括:一記憶體,用以儲存或暫存資料;以及一處理器,耦接於該記憶體,且該處理器包含:一等價類產生模組,用以執行以下步驟:取得一關鍵屬性集合以及一準識別符集合,其中該關鍵屬性集合包括至少一關鍵屬性,該準識別符集合包括多個準識別符,且該至少一關鍵屬性之一或該些準識別符之一設定為一錨屬性;以及依據該準識別符集合、該關鍵屬性集合以及該原始資料集,產生一等價類資料表,其中該等價類資料表包括多個等價類,每一該等價類包括至少一等價資料,每一該等價資料包括個別對應該些準識別符的多個原始值;一叢集產生模組,用以依據該等價類資料表依序產生一叢集資料表的多個資料叢集,其中每一該資料叢集包括至少一該等價類;以及一資料泛化模組,用以對該叢集資料表進行資料泛化,以產生並輸出對應該原始資料集的一匿名資料集,其中該錨屬性對應的該些原始值在該匿名資料集中保持原 值。
  16. 如請求項15所述之匿名資料集的產生裝置,其中該等價類產生模組執行以下步驟:讀取該準識別符集合以及該關鍵屬性集合;以及當任一該至少一關鍵屬性不屬於該準識別符集合時,將所有不屬於該準識別符集合的該至少一關鍵屬性從該關鍵屬性集合中刪除。
  17. 如請求項15所述之匿名資料集的產生裝置,其中該等價類產生模組執行以下步驟:依據該準識別符集合從該原始資料集中擷取該等價類資料表,其中每一該等價類包括一對應數量的該至少一等價資料;依據該準識別符集合以及該關鍵屬性集合產生一屬性序列;產生與該些原始值對應的多個值代碼;依照該屬性序列以及該些值代碼將該些等價類編碼,以產生多個等價類代碼;以及依據該些等價類代碼,將該等價類資料表的該些等價類排序,並輸出排序完成的該等價類資料表。
  18. 如請求項17所述之匿名資料集的產生裝置,其中該等價類產生模組執行以下步驟:對於屬於一數字類別屬性的該至少一準識別符,將對應的 該些原始值作為對應的該些值代碼;以及對於屬於一類別類別屬性的每一該準識別符,依據對應的該些原始值產生一分類樹,並利用該分類樹將對應的該些原始值編碼得到對應的該些值代碼。
  19. 如請求項18所述之匿名資料集的產生裝置,其中每一該至少一關鍵屬性係為該些準識別符之一,且該等價類產生模組係利用一屬性序列規則產生該屬性序列,該屬性序列規則包括一第一規則、一第二規則、一第三規則以及一第四規則;該第一規則係為該至少一關鍵屬性優先於該至少一關鍵屬性以外的該至少一準識別符;該第二規則係為屬於該類別類型屬性的該準識別符優先於屬於該數字類型屬性的該準識別符;該第三規則係為對應的該分類樹的高度較低的該準識別符優先於對應的該分類樹的高度較高的該準識別符;該第四規則係為對應的一原始值變異數較低的該準識別符優先於對應的該原始值變異數較高的該準識別符;且最優先的該關鍵屬性或該準識別符被設定為該錨屬性。
  20. 如請求項15所述之匿名資料集的產生裝置,其中每一該等價類包括一對應數量的該至少一等價資料,且該叢集產生模組執行以下步驟:依據該些對應數量依序將該些等價類加入該些資料叢集;以及 當任一該資料叢集中的該些等價資料的一總數小於一匿名參數時,該叢集產生模組執行以下步驟:將該總數小於該匿名參數的該資料叢集作為一第一叢集;將該第一叢集的前一該資料叢集作為一第二叢集;以及當該第一叢集與該第二叢集中對應該錨屬性的該原始值相同時,合併該第一叢集與該第二叢集。
  21. 如請求項20所述之匿名資料集的產生裝置,其中該叢集產生模組執行以下步驟:依序讀取該些等價類;以及當讀取的該等價類是該等價類資料表中的第一個該等價類時,該叢集產生模組執行以下步驟:新增一暫存叢集,並設定該暫存叢集對應於該些資料叢集之一;將第一個讀取的該等價類中對應該錨屬性的該原始值紀錄為一目前錨值;依據讀取的該等價類的該對應數量累計一累計數量;以及依據該匿名參數以及該累計數量,將讀取的該等價類加入該暫存叢集。
  22. 如請求項21所述之匿名資料集的產生裝置,其中該叢集產生 模組另執行以下步驟:當讀取的該等價類不是該等價類資料表中的第一個該等價類,且讀取的該等價類中對應該錨屬性的該原始值與該目前錨值相同時,該叢集產生模組執行以下步驟:依據讀取的該等價類的該對應數量累計該累計數量;以及依據該匿名參數以及該累計數量,將讀取的該等價類加入該暫存叢集。
  23. 如請求項22所述之匿名資料集的產生裝置,其中該叢集產生模組另執行以下步驟:當讀取的該等價類不是該等價類資料表中的第一個該等價類,且讀取的該等價類中對應該錨屬性的該原始值與該目前錨值不同時,該叢集產生模組執行以下步驟:將該暫存叢集儲存成對應的該資料叢集;初始化該暫存叢集以及該累計數量,並設定初始化後的該暫存叢集對應於儲存的該資料叢集的次一該資料叢集;依據該匿名參數以及該對應數量,將讀取的該等價類加入初始化後的該暫存叢集;依據讀取的該等價類的該對應數量累計初始化後的該累計數量;以及將讀取的該等價類中對應該錨屬性的該原始值紀錄 為該目前錨值。
  24. 如請求項22所述之匿名資料集的產生裝置,其中該叢集產生模組執行以下步驟:當該累計數量小於該匿名參數時,將讀取的該等價類所有的該至少一等價資料加入該暫存叢集。
  25. 如請求項24所述之匿名資料集的產生裝置,其中該叢集產生模組另執行以下步驟:當該累計數量等於該匿名參數,或該累計數量大於該匿名參數且該累計數量小於該匿名參數的兩倍時,該叢集產生模組執行以下步驟:將讀取的該等價類所有的該至少一等價資料加入該暫存叢集;將該暫存叢集儲存成對應的該資料叢集;以及初始化該暫存叢集以及該累計數量,並設定初始化後的該暫存叢集對應於儲存的該資料叢集的次一該資料叢集。
  26. 如請求項25所述之匿名資料集的產生裝置,其中該匿名參數係為大於1的正整數,讀取的該等價類的該對應數量大於該匿名參數,且該叢集產生模組另執行以下步驟:當該累計數量大於或等於該匿名參數的兩倍時,該叢集產生模組執行以下步驟:將讀取的該等價類所有的該些等價資料分割成一第 一群組以及一第二群組,該第一群組包括至少一該等價資料,該第二群組包括讀取的該等價類中剩餘的至少一該等價資料;將該第一群組的該至少一等價資料加入該暫存叢集;將該暫存叢集儲存成對應的該資料叢集;初始化該暫存叢集以及該累計數量,並設定初始化後的該暫存叢集對應於儲存的該資料叢集的次一該資料叢集;將該第二群組的該至少一等價資料加入初始化後的該暫存叢集;將具有該第二群組的該暫存叢集儲存成對應的該資料叢集;以及初始化該暫存叢集以及該累計數量,並設定初始化後的該暫存叢集對應於儲存有該第二群組的該資料叢集的次一該資料叢集。
  27. 如請求項15所述之匿名資料集的產生裝置,其中每一該資料叢集包括一叢集代碼以及至少一該等價類,且該資料泛化模組執行以下步驟:依序讀取該些資料叢集的該些等價類;當讀取的該等價類是該叢集資料表中的第一個該等價類時,將第一個該等價類作為一暫存泛化型態,該暫存泛化型態包括個別對應該些準識別符的多個第一屬性值,且該些第一屬 性值的初始值為第一個該資料叢集的該些原始值;當讀取的該等價類不是該叢集資料表中的第一個該等價類,且讀取的該等價類與該暫存泛化型態對應的該叢集代碼相同時,該資料泛化模組執行以下步驟:尋找讀取的該等價類與該暫存泛化型態之間的一最小泛化型態;以及將該最小泛化型態儲存為更新的該暫存泛化型態;以及當讀取的該等價類不是該叢集資料表中的第一個該等價類,且讀取的該等價類與該暫存泛化型態對應的該叢集代碼不同時,該資料泛化模組執行以下步驟:將當前的該暫存泛化型態儲存於該匿名資料集;以及將讀取的該等價類作為該暫存泛化型態。
  28. 如請求項27所述之匿名資料集的產生裝置,其中該最小泛化型態包括個別對應該些準識別符的多個第二屬性值,且該資料模組另執行以下步驟:依序將該些準識別符設為一目前識別符;當對應該目前識別符的該第一屬性值與該原始值相同時,將對應該目前識別符的該第一屬性值作為該最小泛化型態的該第二屬性值;當對應該目前識別符的該第一屬性值與該原始值不同,且該目前識別符屬於一數字類別屬性時,依據對應該目前識別符 的該第一屬性值以及該原始值產生一泛化數值範圍,並將該泛化數值範圍作為該最小泛化型態的該第二屬性值;以及當對應該目前識別符的該第一屬性值與該原始值不同,且該目前識別符屬於一類別類別屬性時,依據該目前識別符對應的一分類樹、該第一屬性值以及該原始值產生一泛化字串,並將該泛化字串作為該最小泛化型態的該第二屬性值。
  29. 一種匿名資料集的風險評估方法,用以評估依據一原始資料集產生的一匿名資料集,該匿名資料集的風險評估方法包括:取得該原始資料集的多個原始值個別對應的多個出現次數;依據一取樣參數、一匿名參數以及該些出現次數,產生一分割集合以及一權重表;依據該分割集合將該原始資料集分割成多個資料塊,並依據該權重表以及該些資料塊產生一滲透資料集,其中該滲透資料集包括多個樣本資料;比較每一該樣本資料與該匿名資料集的多個匿名資料,並得到與該些樣本資料個別對應的多個配對個數;以及依據該些配對個數,計算並輸出一風險評估結果。
  30. 如請求項29所述之匿名資料集的風險評估方法,其中該匿名資料庫具有一準識別符集合,該準識別符集合包括多個準識別符,該原始資料集包括與該些準識別符對應的該些原始值,且該些出現次數係為對應的該些原始值於該原始資料集中出現 的次數。
  31. 如請求項30所述之匿名資料集的風險評估方法,其中該依據該取樣參數、該匿名參數以及該些出現次數,產生該分割集合以及該權重表的步驟包括:將該些準識別符進行排列組合以產生多個候選組合,其中每一該候選組合包括至少一該準識別符;計算與該些候選組合個別對應的多個原始值組合數;從大於或等於該取樣參數的至少一該原始值組合數中選擇最小的該原始值組合數,並將選擇的該原始值組合數所對應的該候選組合作為該分割集合;以及依據該取樣參數、該匿名參數以及該些出現次數,產生該權重表。
  32. 如請求項31所述之匿名資料集的風險評估方法,其中該權重表包括個別對應該些原始值的多個權重值,且該依據該取樣參數、該匿名參數以及該些出現次數,產生該權重表的步驟包括:計算一權重參數,該權重參數與該匿名參數的乘積大於或等於最大的該出現次數;依序讀取該些原始值;當目前的該原始值對應的該出現次數大於該匿名參數時,目前的該原始值對應的該權重值等於該權重參數與該匿名參數的乘積減去目前的該原始值對應的該出現次數再加上該取樣參數;以及 當目前的該原始值對應的該出現次數小於或等於該匿名參數時,目前的該原始值對應的該權重值等於該權重參數與該匿名參數的乘積加上目前的該原始值對應的該出現次數再加上該取樣參數。
  33. 如請求項29所述之匿名資料集的風險評估方法,其中該些資料塊的個數大於或等於該取樣參數。
  34. 如請求項29所述之匿名資料集的風險評估方法,其中該依據該分割集合將該原始資料集分割成該些資料塊,並依據該權重表以及該些資料塊產生該滲透資料集的步驟包括:依據該分割集合將該原始資料集分割成該些資料塊,其中每一該資料塊包括至少一原始資料;依序讀取該些資料塊,利用該權重表計算目前的該資料塊中每一該原始資料的一原始權重;依據該些原始權重從目前的該資料塊中選出該些原始資料之一作為該些樣本資料之一;以及依據選出的該原始資料更新該權重表。
  35. 如請求項34所述之匿名資料集的風險評估方法,其中該匿名資料庫具有一準識別符集合,該準識別符集合包括多個準識別符,每一該原始資料包括與該些準識別符個別對應的該些原始值,該些原始值個別對應於該權重表的多個權重值,且該依據選出的該原始資料更新該權重表的步驟包括:將選出的該原始資料所對應的該些權重值減1。
  36. 如請求項29所述之匿名資料集的風險評估方法,其中該匿名資料庫具有一準識別符集合,該準識別符集合包括多個準識別符,每一該樣本資料包括與該些準識別符個別對應的該些原始值,每一該匿名資料包括與該些準識別符個別對應的多個第三屬性值,且比較該將每一該樣本資料與該匿名資料集的該些匿名資料,並得到與該些樣本資料個別對應的該些配對個數的步驟包括:依序讀取該些樣本資料,並對每一該樣本資料執行以下步驟:依序針對該些匿名資料,依據該些準識別符,比較目前的該樣本資料的該些原始值與目前的該匿名資料的該些第三屬性值;當對應的每一該原始值與每一該第三屬性值處於相同的一屬性階層時,將目前的該匿名資料作為一配對資料;以及將目前的該樣本資料對應的該配對資料的數量作為對應的該配對個數。
  37. 如請求項36所述之匿名資料集的風險評估方法,其中屬於一數字類別屬性的每一該第三屬性值係為一泛化數值範圍,當目前的該樣本資料的該原始值落於對應的該泛化數值範圍時,目前的該樣本資料的該原始值與對應的該第三屬性值處於相同的該屬性階層;而屬於一類別類別屬性的每一該第三屬性值係 為一泛化字串,當目前的該樣本資料的該原始值屬於對應的該泛化字串時,目前的該樣本資料的該原始值與對應的該第三屬性值處於相同的該屬性階層。
  38. 如請求項29所述之匿名資料集的風險評估方法,其中該風險評估結果包括一最大風險機率、一最小風險機率或一平均風險機率。
  39. 一種匿名資料集的風險評估裝置,用以評估依據一原始資料集產生的一匿名資料集,該匿名資料集的風險評估裝置包括:一記憶體,用以儲存或暫存資料;以及一處理器,耦接於該記憶體,且該處理器包含:一權重產生模組,用以取得該原始資料集的多個原始值個別對應的多個出現次數,並依據一取樣參數、一匿名參數以及該些出現次數,產生一分割集合以及一權重表;一樣本產生模組,用以依據該分割集合將該原始資料集分割成多個資料塊,並依據該權重表以及該些資料塊產生一滲透資料集,其中該滲透資料集包括多個樣本資料;以及一風險評估模組,用以比較每一該樣本資料與該匿名資料集的多個匿名資料,得到與該些樣本資料個別對應的多個配對個數,並依據該些配對個數,計算並輸出一風險評估結果。
  40. 如請求項39所述之匿名資料集的風險評估裝置,其中該匿名 資料庫具有一準識別符集合,該準識別符集合包括多個準識別符,該原始資料集包括與該些準識別符對應的該些原始值,且該些出現次數係為對應的該些原始值於該原始資料集中出現的次數。
  41. 如請求項40所述之匿名資料集的風險評估裝置,其中該權重產生模組執行以下步驟:將該些準識別符進行排列組合並據以產生多個候選組合,其中每一該候選組合包括至少一該準識別符;計算與該些候選組合個別對應的多個原始值組合數;從大於或等於該取樣參數的至少一該原始值組合數中選擇最小的該原始值組合數,並將選擇的該原始值組合數所對應的該候選組合作為該分割集合;以及依據該取樣參數、該匿名參數以及該些出現次數,產生該權重表。
  42. 如請求項41所述之匿名資料集的風險評估裝置,其中該權重表包括個別對應該些原始值的多個權重值,且該權重產生模組執行以下步驟:計算一權重參數,該權重參數與該匿名參數的乘積大於或等於最大的該出現次數;依序讀取該些原始值;當目前的該原始值對應的該出現次數大於該匿名參數時,目前的該原始值對應的該權重值等於該權重參數與該匿名 參數的乘積減去目前的該原始值對應的該出現次數再加上該取樣參數;以及當目前的該原始值對應的該出現次數小於或等於該匿名參數時,目前的該原始值對應的該權重值等於該權重參數與該匿名參數的乘積加上目前的該原始值對應的該出現次數再加上該取樣參數。
  43. 如請求項39所述之匿名資料集的風險評估裝置,其中該些資料塊的個數大於或等於該取樣參數。
  44. 如請求項39所述之匿名資料集的風險評估裝置,其中該樣本產生模組執行以下步驟:依據該分割集合將該原始資料集分割成該些資料塊,其中每一該資料塊包括至少一原始資料;依序讀取該些資料塊,利用該權重表計算目前的該資料塊中每一該原始資料的一原始權重;依據該些原始權重從目前的該資料塊中選出該些原始資料之一作為該些樣本資料之一;以及依據選出的該原始資料更新該權重表。
  45. 如請求項44所述之匿名資料集的風險評估裝置,其中該匿名資料庫具有一準識別符集合,該準識別符集合包括多個準識別符,每一該原始資料包括與該些準識別符個別對應的該些原始值,該些原始值個別對應於該權重表的多個權重值,且該樣本產生模組執行以下步驟: 將選出的該原始資料所對應的該些權重值減1。
  46. 如請求項39所述之匿名資料集的風險評估裝置,其中該匿名資料庫具有一準識別符集合,該準識別符集合包括多個準識別符,每一該樣本資料包括與該些準識別符個別對應的該些原始值,每一該匿名資料包括與該些準識別符個別對應的多個第三屬性值,且該風險評估模組執行以下步驟:依序讀取該些樣本資料,並對每一該樣本資料執行以下步驟:依序針對該些匿名資料,依據該些準識別符,比較目前的該樣本資料的該些原始值與目前的該匿名資料的該些第三屬性值;當對應的每一該原始值與每一該第三屬性值處於相同的一屬性階層時,將目前的該匿名資料作為一配對資料;以及將目前的該樣本資料對應的該配對資料的數量作為對應的該配對個數。
  47. 如請求項46所述之匿名資料集的風險評估裝置,其中屬於一數字類別屬性的每一該第三屬性值係為一泛化數值範圍,當目前的該樣本資料的該原始值落於對應的該泛化數值範圍時,目前的該樣本資料的該原始值與對應的該第三屬性值處於相同的該屬性階層;而屬於一類別類別屬性的每一該第三屬性值係為一泛化字串,當目前的該樣本資料的該原始值屬於對應的該 泛化字串時,目前的該樣本資料的該原始值與對應的該第三屬性值處於相同的該屬性階層。
  48. 如請求項39所述之匿名資料集的風險評估裝置,其中該風險評估結果包括一最大風險機率、一最小風險機率或一平均風險機率。
TW101150619A 2012-12-27 2012-12-27 匿名資料集的產生方法及裝置與風險評估方法及裝置 TW201426578A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US13/728,684 US9129117B2 (en) 2012-12-27 2012-12-27 Generation method and device for generating anonymous dataset, and method and device for risk evaluation
TW101150619A TW201426578A (zh) 2012-12-27 2012-12-27 匿名資料集的產生方法及裝置與風險評估方法及裝置
US14/573,908 US9600673B2 (en) 2012-12-27 2014-12-17 Method and device for risk evaluation

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW101150619A TW201426578A (zh) 2012-12-27 2012-12-27 匿名資料集的產生方法及裝置與風險評估方法及裝置

Publications (1)

Publication Number Publication Date
TW201426578A true TW201426578A (zh) 2014-07-01

Family

ID=51018982

Family Applications (1)

Application Number Title Priority Date Filing Date
TW101150619A TW201426578A (zh) 2012-12-27 2012-12-27 匿名資料集的產生方法及裝置與風險評估方法及裝置

Country Status (2)

Country Link
US (2) US9129117B2 (zh)
TW (1) TW201426578A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108073824A (zh) * 2016-11-17 2018-05-25 财团法人资讯工业策进会 去识别化数据产生装置及方法
TWI644224B (zh) * 2017-10-18 2018-12-11 財團法人工業技術研究院 資料去識別化方法、資料去識別化裝置及執行資料去識別化方法的非暫態電腦可讀取儲存媒體
TWI726455B (zh) * 2019-10-23 2021-05-01 臺灣銀行股份有限公司 滲透測試個案建議方法及系統
TWI765243B (zh) * 2019-12-30 2022-05-21 財團法人工業技術研究院 資料匿名方法與資料匿名系統
TWI804386B (zh) * 2021-11-04 2023-06-01 美商萬國商業機器公司 用於計算系統中資料之合規風險管理

Families Citing this family (91)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9514161B2 (en) * 2013-04-25 2016-12-06 International Business Machines Corporation Guaranteeing anonymity of linked data graphs
JPWO2014181541A1 (ja) * 2013-05-09 2017-02-23 日本電気株式会社 匿名性を検証する情報処理装置及び匿名性検証方法
JP6471699B2 (ja) * 2014-02-04 2019-02-20 日本電気株式会社 情報判定装置、情報判定方法及びプログラム
CA2852253A1 (en) * 2014-05-23 2015-11-23 University Of Ottawa System and method for shifting dates in the de-identification of datesets
US9413760B2 (en) * 2014-09-05 2016-08-09 Palo Alto Research Center Incorporated System and method for data quality analysis between untrusted parties
US9990515B2 (en) * 2014-11-28 2018-06-05 Privacy Analytics Inc. Method of re-identification risk measurement and suppression on a longitudinal dataset
US9779134B2 (en) 2014-12-26 2017-10-03 Business Objects Software Ltd. System and method of data wrangling
US9870381B2 (en) 2015-05-22 2018-01-16 International Business Machines Corporation Detecting quasi-identifiers in datasets
WO2017008144A1 (en) * 2015-07-15 2017-01-19 Privacy Analytics Inc. Re-identification risk measurement estimation of a dataset
US10380381B2 (en) 2015-07-15 2019-08-13 Privacy Analytics Inc. Re-identification risk prediction
US10423803B2 (en) * 2015-07-15 2019-09-24 Privacy Analytics Inc. Smart suppression using re-identification risk measurement
US10395059B2 (en) 2015-07-15 2019-08-27 Privacy Analytics Inc. System and method to reduce a risk of re-identification of text de-identification tools
JP6597066B2 (ja) * 2015-08-31 2019-10-30 富士通株式会社 個人情報匿名化方法、プログラム、及び情報処理装置
US10242213B2 (en) * 2015-09-21 2019-03-26 Privacy Analytics Inc. Asymmetric journalist risk model of data re-identification
JP6610334B2 (ja) * 2016-02-29 2019-11-27 富士通株式会社 漏洩リスク提供装置、漏洩リスク提供方法および漏洩リスク提供プログラム
US11157520B2 (en) * 2016-03-28 2021-10-26 DataSpark, Pte Ltd. Uniqueness level for anonymized datasets
JP2017182508A (ja) * 2016-03-30 2017-10-05 西日本電信電話株式会社 匿名化装置、匿名化方法及びコンピュータプログラム
WO2018004236A1 (ko) * 2016-06-30 2018-01-04 주식회사 파수닷컴 개인정보의 비식별화 방법 및 장치
US10095883B2 (en) 2016-07-22 2018-10-09 International Business Machines Corporation Method/system for the online identification and blocking of privacy vulnerabilities in data streams
US11874691B1 (en) 2016-09-26 2024-01-16 Splunk Inc. Managing efficient query execution including mapping of buckets to search nodes
US11461334B2 (en) 2016-09-26 2022-10-04 Splunk Inc. Data conditioning for dataset destination
US11106734B1 (en) 2016-09-26 2021-08-31 Splunk Inc. Query execution using containerized state-free search nodes in a containerized scalable environment
US10776355B1 (en) 2016-09-26 2020-09-15 Splunk Inc. Managing, storing, and caching query results and partial query results for combination with additional query results
US10795884B2 (en) 2016-09-26 2020-10-06 Splunk Inc. Dynamic resource allocation for common storage query
US11314753B2 (en) 2016-09-26 2022-04-26 Splunk Inc. Execution of a query received from a data intake and query system
US11599541B2 (en) 2016-09-26 2023-03-07 Splunk Inc. Determining records generated by a processing task of a query
US11567993B1 (en) 2016-09-26 2023-01-31 Splunk Inc. Copying buckets from a remote shared storage system to memory associated with a search node for query execution
US11562023B1 (en) 2016-09-26 2023-01-24 Splunk Inc. Merging buckets in a data intake and query system
US10726009B2 (en) 2016-09-26 2020-07-28 Splunk Inc. Query processing using query-resource usage and node utilization data
US11281706B2 (en) 2016-09-26 2022-03-22 Splunk Inc. Multi-layer partition allocation for query execution
US10353965B2 (en) 2016-09-26 2019-07-16 Splunk Inc. Data fabric service system architecture
US11321321B2 (en) 2016-09-26 2022-05-03 Splunk Inc. Record expansion and reduction based on a processing task in a data intake and query system
US11269939B1 (en) 2016-09-26 2022-03-08 Splunk Inc. Iterative message-based data processing including streaming analytics
US11442935B2 (en) 2016-09-26 2022-09-13 Splunk Inc. Determining a record generation estimate of a processing task
US11232100B2 (en) 2016-09-26 2022-01-25 Splunk Inc. Resource allocation for multiple datasets
US11550847B1 (en) 2016-09-26 2023-01-10 Splunk Inc. Hashing bucket identifiers to identify search nodes for efficient query execution
US10984044B1 (en) 2016-09-26 2021-04-20 Splunk Inc. Identifying buckets for query execution using a catalog of buckets stored in a remote shared storage system
US11586627B2 (en) 2016-09-26 2023-02-21 Splunk Inc. Partitioning and reducing records at ingest of a worker node
US11593377B2 (en) 2016-09-26 2023-02-28 Splunk Inc. Assigning processing tasks in a data intake and query system
US11023463B2 (en) 2016-09-26 2021-06-01 Splunk Inc. Converting and modifying a subquery for an external data system
US11663227B2 (en) 2016-09-26 2023-05-30 Splunk Inc. Generating a subquery for a distinct data intake and query system
US11620336B1 (en) 2016-09-26 2023-04-04 Splunk Inc. Managing and storing buckets to a remote shared storage system based on a collective bucket size
US11580107B2 (en) 2016-09-26 2023-02-14 Splunk Inc. Bucket data distribution for exporting data to worker nodes
US11163758B2 (en) 2016-09-26 2021-11-02 Splunk Inc. External dataset capability compensation
US11222066B1 (en) 2016-09-26 2022-01-11 Splunk Inc. Processing data using containerized state-free indexing nodes in a containerized scalable environment
US11250056B1 (en) 2016-09-26 2022-02-15 Splunk Inc. Updating a location marker of an ingestion buffer based on storing buckets in a shared storage system
US11243963B2 (en) 2016-09-26 2022-02-08 Splunk Inc. Distributing partial results to worker nodes from an external data system
US10956415B2 (en) 2016-09-26 2021-03-23 Splunk Inc. Generating a subquery for an external data system using a configuration file
US10977260B2 (en) 2016-09-26 2021-04-13 Splunk Inc. Task distribution in an execution node of a distributed execution environment
US11604795B2 (en) 2016-09-26 2023-03-14 Splunk Inc. Distributing partial results from an external data system between worker nodes
US11615104B2 (en) 2016-09-26 2023-03-28 Splunk Inc. Subquery generation based on a data ingest estimate of an external data system
US11860940B1 (en) 2016-09-26 2024-01-02 Splunk Inc. Identifying buckets for query execution using a catalog of buckets
US11294941B1 (en) 2016-09-26 2022-04-05 Splunk Inc. Message-based data ingestion to a data intake and query system
US12013895B2 (en) 2016-09-26 2024-06-18 Splunk Inc. Processing data using containerized nodes in a containerized scalable environment
US11126632B2 (en) 2016-09-26 2021-09-21 Splunk Inc. Subquery generation based on search configuration data from an external data system
US20180089324A1 (en) 2016-09-26 2018-03-29 Splunk Inc. Dynamic resource allocation for real-time search
US11003714B1 (en) 2016-09-26 2021-05-11 Splunk Inc. Search node and bucket identification using a search node catalog and a data store catalog
JP6780428B2 (ja) * 2016-10-06 2020-11-04 富士通株式会社 符号化プログラム、符号化方法、符号化装置、復号化プログラム、復号化方法および復号化装置
WO2018123190A1 (ja) * 2016-12-28 2018-07-05 ソニー株式会社 サーバ装置、情報管理方法、情報処理装置、情報処理方法およびプログラム
CN108449307B (zh) * 2017-02-16 2020-12-29 上海行邑信息科技有限公司 一种用于识别风险设备的方法
US11921672B2 (en) 2017-07-31 2024-03-05 Splunk Inc. Query execution at a remote heterogeneous data store of a data fabric service
US11989194B2 (en) 2017-07-31 2024-05-21 Splunk Inc. Addressing memory limits for partition tracking among worker nodes
US11151137B2 (en) * 2017-09-25 2021-10-19 Splunk Inc. Multi-partition operation in combination operations
US10896182B2 (en) 2017-09-25 2021-01-19 Splunk Inc. Multi-partitioning determination for combination operations
US10915662B2 (en) * 2017-12-15 2021-02-09 International Business Machines Corporation Data de-identification based on detection of allowable configurations for data de-identification processes
US11036884B2 (en) 2018-02-26 2021-06-15 International Business Machines Corporation Iterative execution of data de-identification processes
US11334543B1 (en) 2018-04-30 2022-05-17 Splunk Inc. Scalable bucket merging for a data intake and query system
EP3591561A1 (en) 2018-07-06 2020-01-08 Synergic Partners S.L.U. An anonymized data processing method and computer programs thereof
WO2020043610A1 (en) * 2018-08-28 2020-03-05 Koninklijke Philips N.V. De-identification of protected information
CN109766381A (zh) * 2018-12-29 2019-05-17 福建华闽通达信息技术有限公司 一种工程评定数据自动引用的方法
EP3940571B1 (en) * 2019-03-11 2024-06-05 Nippon Telegraph And Telephone Corporation Data replacement apparatus, data replacement method, and program
CN113544683B (zh) * 2019-03-11 2023-09-29 日本电信电话株式会社 数据一般化装置、数据一般化方法、程序
WO2020220216A1 (en) 2019-04-29 2020-11-05 Splunk Inc. Search time estimate in data intake and query system
US11715051B1 (en) 2019-04-30 2023-08-01 Splunk Inc. Service provider instance recommendations using machine-learned classifications and reconciliation
GB2584910A (en) * 2019-06-21 2020-12-23 Imperial College Innovations Ltd Assessing likelihood of re-identification
CN110378148B (zh) * 2019-07-25 2023-02-03 哈尔滨工业大学 一种面向云平台的多域数据隐私保护方法
CN110555316B (zh) * 2019-08-15 2023-04-18 石家庄铁道大学 基于聚类匿名的隐私保护表数据共享方法
US11494380B2 (en) 2019-10-18 2022-11-08 Splunk Inc. Management of distributed computing framework components in a data fabric service system
EP3832559A1 (en) * 2019-12-03 2021-06-09 Accenture Global Solutions Limited Controlling access to de-identified data sets based on a risk of re-identification
US11456996B2 (en) * 2019-12-10 2022-09-27 International Business Machines Corporation Attribute-based quasi-identifier discovery
CN111241587B (zh) * 2020-01-21 2023-09-29 恒瑞通(福建)信息技术有限公司 一种数据脱敏的方法及装置
US11922222B1 (en) 2020-01-30 2024-03-05 Splunk Inc. Generating a modified component for a data intake and query system using an isolated execution environment image
US11216589B2 (en) * 2020-03-11 2022-01-04 International Business Machines Corporation Dataset origin anonymization and filtration
US20210326475A1 (en) * 2020-04-20 2021-10-21 Replica Analytics Systems and method for evaluating identity disclosure risks in synthetic personal data
CN111737750B (zh) * 2020-06-30 2023-12-26 绿盟科技集团股份有限公司 一种数据处理方法、装置、电子设备及存储介质
US11704313B1 (en) 2020-10-19 2023-07-18 Splunk Inc. Parallel branch operation using intermediary nodes
US11741262B2 (en) 2020-10-23 2023-08-29 Mirador Analytics Limited Methods and systems for monitoring a risk of re-identification in a de-identified database
US20220180226A1 (en) * 2020-12-09 2022-06-09 Accenture Global Solutions Limited Applying a k-anonymity model to protect node level privacy in knowledge graphs and a differential privacy model to protect edge level privacy in knowledge graphs
CN112817834B (zh) * 2021-01-22 2022-11-01 上海哔哩哔哩科技有限公司 数据表评估方法及装置
US11816582B2 (en) * 2021-10-21 2023-11-14 Snowflake Inc. Heuristic search for k-anonymization
CN114595479B (zh) * 2022-05-10 2022-08-26 富算科技(上海)有限公司 一种数据中位数确定方法及装置

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2002254564A1 (en) * 2001-04-10 2002-10-28 Latanya Sweeney Systems and methods for deidentifying entries in a data source
US7676454B2 (en) 2005-03-01 2010-03-09 Microsoft Corporation Private clustering and statistical queries while analyzing a large database
US7475085B2 (en) 2006-04-04 2009-01-06 International Business Machines Corporation Method and apparatus for privacy preserving data mining by restricting attribute choice
US8332366B2 (en) * 2006-06-02 2012-12-11 International Business Machines Corporation System and method for automatic weight generation for probabilistic matching
CA2679800A1 (en) 2008-09-22 2010-03-22 University Of Ottawa Re-identification risk in de-identified databases containing personal information
US8112422B2 (en) * 2008-10-27 2012-02-07 At&T Intellectual Property I, L.P. Computer systems, methods and computer program products for data anonymization for aggregate query answering
CA2690788C (en) 2009-06-25 2018-04-24 University Of Ottawa System and method for optimizing the de-identification of datasets
US20110258206A1 (en) 2010-03-19 2011-10-20 University Of Ottawa System and method for evaluating marketer re-identification risk
US8544104B2 (en) * 2010-05-10 2013-09-24 International Business Machines Corporation Enforcement of data privacy to maintain obfuscation of certain data
JP5492296B2 (ja) 2010-05-19 2014-05-14 株式会社日立製作所 個人情報匿名化装置
CN101834872B (zh) 2010-05-19 2013-06-12 天津大学 基于度优先的K-Anonymity匿名算法的数据处理方法
US8682910B2 (en) 2010-08-03 2014-03-25 Accenture Global Services Limited Database anonymization for use in testing database-centric applications
US8620875B2 (en) * 2011-07-25 2013-12-31 Salesforce.Com, Inc. Fraud analysis in a contact database

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108073824A (zh) * 2016-11-17 2018-05-25 财团法人资讯工业策进会 去识别化数据产生装置及方法
TWI644224B (zh) * 2017-10-18 2018-12-11 財團法人工業技術研究院 資料去識別化方法、資料去識別化裝置及執行資料去識別化方法的非暫態電腦可讀取儲存媒體
CN109684862A (zh) * 2017-10-18 2019-04-26 财团法人工业技术研究院 数据去识别化方法、装置及计算机可读取储存介质
US10699029B2 (en) 2017-10-18 2020-06-30 Industrial Technology Research Institute Data de-identification method, data de-identification apparatus and non-transitory computer readable storage medium executing the same
CN109684862B (zh) * 2017-10-18 2021-07-20 财团法人工业技术研究院 数据去识别化方法、装置及计算机可读取储存介质
TWI726455B (zh) * 2019-10-23 2021-05-01 臺灣銀行股份有限公司 滲透測試個案建議方法及系統
TWI765243B (zh) * 2019-12-30 2022-05-21 財團法人工業技術研究院 資料匿名方法與資料匿名系統
US11641346B2 (en) 2019-12-30 2023-05-02 Industrial Technology Research Institute Data anonymity method and data anonymity system
TWI804386B (zh) * 2021-11-04 2023-06-01 美商萬國商業機器公司 用於計算系統中資料之合規風險管理

Also Published As

Publication number Publication date
US9600673B2 (en) 2017-03-21
US9129117B2 (en) 2015-09-08
US20150106944A1 (en) 2015-04-16
US20140189858A1 (en) 2014-07-03

Similar Documents

Publication Publication Date Title
TW201426578A (zh) 匿名資料集的產生方法及裝置與風險評估方法及裝置
García-Borroto et al. A survey of emerging patterns for supervised classification
Gkoulalas-Divanis et al. Modern privacy-preserving record linkage techniques: An overview
CN109117669B (zh) MapReduce相似连接查询的隐私保护方法及***
US11971892B2 (en) Methods for stratified sampling-based query execution
CN108833139B (zh) 一种基于类别属性划分的ossec报警数据聚合方法
CN109800600A (zh) 面向保密需求的海洋大数据敏感度评估***及防范方法
CN112632612B (zh) 一种医疗数据发布匿名化方法
CN116894271B (zh) 一种基于匿名化算法的数据共享隐私保护方法
CN116186757A (zh) 一种效用增强的条件特征选择差分隐私数据发布方法
Orooji et al. A novel microdata privacy disclosure risk measure
Raihan et al. Human behavior analysis using association rule mining techniques
Qin et al. Density peaks clustering based on Jaccard similarity and label propagation
Rosidin et al. Improvement with Chi Square Selection Feature using Supervised Machine Learning Approach on Covid-19 Data
CN115310606A (zh) 基于数据集敏感属性重构的深度学习模型去偏方法及装置
Kexin et al. GA-iForest: An Efficient Isolated Forest Framework Based on Genetic Algorithm for Numerical Data Outlier Detection.
Fisher et al. Modelling class uncertainty in the geodemographic Output Area Classification
CN110990869B (zh) 一种应用于隐私保护的电力大数据脱敏方法
Vadrevu et al. A hybrid approach for personal differential privacy preservation in homogeneous and heterogeneous health data sharing
CN112069392A (zh) 涉网犯罪防控方法、装置、计算机设备及存储介质
Kabwe et al. Identity attributes metric modelling based on mathematical distance metrics models
Knyazeva et al. A graph-based data mining approach to preventing financial fraud: a case study
Elezaj et al. Record linkage using probabilistic methods and data mining techniques
JP2019021198A (ja) クラスタリング装置、クラスタリング方法及びプログラム
CN112632990B (zh) 一种标签的获取方法、装置、设备及可读存储介质