TWI434197B - 知識偽裝方法 - Google Patents

知識偽裝方法 Download PDF

Info

Publication number
TWI434197B
TWI434197B TW99111192A TW99111192A TWI434197B TW I434197 B TWI434197 B TW I434197B TW 99111192 A TW99111192 A TW 99111192A TW 99111192 A TW99111192 A TW 99111192A TW I434197 B TWI434197 B TW I434197B
Authority
TW
Taiwan
Prior art keywords
data
knowledge
original
protection
original data
Prior art date
Application number
TW99111192A
Other languages
English (en)
Other versions
TW201135507A (en
Inventor
Tung Hsiao Chen
Jeanne Chen
Yuan Hung Kao
Original Assignee
Tung Hsiao Chen
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tung Hsiao Chen filed Critical Tung Hsiao Chen
Priority to TW99111192A priority Critical patent/TWI434197B/zh
Publication of TW201135507A publication Critical patent/TW201135507A/zh
Application granted granted Critical
Publication of TWI434197B publication Critical patent/TWI434197B/zh

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Storage Device Security (AREA)

Description

知識偽裝方法
本發明是有關於一種知識偽裝方法,特別是有關於一種以資料偽裝技術達成反探勘之知識偽裝方法。
目前,隨著資訊科技與資料處理技術的日益精進,企業在資料的蒐集、儲存與應用等能力亦明顯的提昇。尤其在網際網路快速發展與普及的潮流下,知識經濟已充斥全球,誰能擁有知識就有可能創造新的經濟體。因此,於知識經濟的時代,企業若能將龐大的資料有效率的轉換成有價值的知識,即可快速因應未來與抓住市場脈動,進而提升企業的競爭力。
然而,過去僅靠人工與個人經驗來處理大量的資料已不合時宜,取而代之的是結合人工智慧與自動化工具的知識萃取。因此,資料探勘(Data mining)技術的發展亦隨之盛行,並且廣受學術界與產業界的重視與應用。
資料探勘是一種專業的資訊科技,主要的目的是於龐大的資料中,挖掘出對使用者有用或感興趣的資訊,並配合企業的domain know-how將挖掘出來的資訊轉化成為知識,以助於企業決策運作,與幫助管理者經營發展企業活動。基於資料的種類與使用者的需求,資料探勘的技術可分成以下六類:分群(Clustering)、分類(Classification)、迴歸分析(Regression)、時間數列 (Time-series)、關聯式法則(Association rule)、序列探索(Sequence discovery)等六種。
這些不同的資料探勘技術各有其特性與探勘分析的功能,使用者在進行資料探勘的同時,可依其需求選用不同的分析工具,從大量的資料中挖掘出不同類型的知識。例如:分類是用已知類別的資料來研究它們的特徵(Feature),然後再根據這些特徵預測新資料的類別(Class)。而分群則是依照資料本身的特徵屬性,來找出資料之間的相似性(Similarity),並依相似的程度予以群聚。
目前資料探勘的技術,主要應用於金融、流通、製造與生物資訊等業界,對於其它領域也非常的實用。資料探勘可以幫助這些使用者,從資料中挖掘出具有實質意義的知識數據,以做為決策依據或是分析判斷。相對的,如果這些具有知識價值的資料不慎遺失或外流,有心者一樣可以利用資料探勘的技術,挖掘出資料裡蘊藏的知識,從而達到不當利益或是惡意破壞,使受害者蒙受損失甚至喪失競爭能力。所以,在使用資料探勘技術的同時,更應該要注重因為資料探勘所衍生的知識安全性議題。
根據甲骨文(Oracle)首席執行長Larry Ellison,在2005年於三藩市舉行的「Oracle OpenWorld」會議上強調說:「隨著更多的公司把商務應用程式放到網路上,且允許員工從家中或全球各地的分公司連結這些應用系 統,資料庫的安全性風險就將會升高。為了降低安全性風險,企業應該為它們的資料庫加密。」同時,Larry Ellison建議企業禁止用戶在沒有進行加密的情況下實施資料備份,因為如果沒有經過加密的備份,一旦遺失就等同於失去企業重要的資訊。
過去,在資料探勘的研究領域裡,多著重於改善資料探勘的技術,或是專注於技術整合與創新等等,對於如何保護資料所蘊藏的知識,不要輕易的被資料探勘挖掘出來,並未受到明顯的重視。在網際網路日漸發達的今日,各企業多已將資料庫與網際網路做連結,相對的亦提高資料的安全性風險,而針對於這些資料的安全性考量,主要仍是以資料的存取保全與系統風險管理為主,並未考慮到如何保護知識的安全性問題。也就是說,如果某人被授權可以存取資料,則這個人就可以挖掘出資料內的知識了。但事實上,被授權可以存取資料與被授權可以知道企業的知識,是完全不同等級權力的。所以,如何能在使用資料探勘的同時保護資料所蘊藏的知識,是目前欲解決之問題。
有鑑於上述習知技藝之問題,本發明之目的就是在提供一種知識偽裝方法,以解決資料探勘的知識安全性問題。
根據本發明之一目的,提出一種知識偽裝方法,首 先輸入一原始資料,利用至少一資料偽裝方法來加入干擾資料或擾亂原始資料,並記錄一修改資訊作為移除干擾資料與還原資料之依據,修改後之原始資料係為一保護資料,當保護資料達到一知識偽裝目標時,輸出保護資料。
其中,原始資料係為具有知識內容的資料集。
其中,利用資料偽裝方法加入干擾資料或擾亂原始資料的方式,係加入複數筆修改資訊,或擾亂原始資料之數值的欄位或位置順序。
其中,干擾資料係以原始資料為基礎,運用公式推導產生,例如:偏移量、隨機震盪等方法,用以加入原始資料中來產生保護資料,使保護資料的知識與原始資料的知識有明顯的不同,藉以偽裝原始資料的知識。
其中,擾亂原始資料係指重新排列及組合原始資料數值的欄位或位置,進而產生保護資料,使保護資料的知識與原始資料的知識有明顯的不同,藉以偽裝原始資料的知識。
其中,保護資料產生的過程,係可以完全記錄或以一修改產生公式推導作為修改資訊,讓保護資料可以根據修改資訊還原成原始資料。
其中,當保護資料需被還原時,係利用修改資訊於保護資料中移除干擾資料或還原原始資料之數值的欄位或位置等資訊,用以將保護資料還原成原始資料。
承上所述,依本發明之知識偽裝方法,其可具有一 或多個下述優點:
(1)有效偽裝原始資料中之知識,而不被資料探勘技術正確的分析出來。
(2)此知識偽裝方法於實行資料偽裝之時,可以由使用者需求彈性調整知識偽裝之效果。
(3)此知識偽裝方法係為一種可反向還原之知識偽裝技術。
請參閱第1圖,其係為本發明之知識偽裝方法之流程圖。此方法,包括下列步驟:(S10)輸入一原始資料,以供資料偽裝方法進行知識偽裝;(S11)利用一資料偽裝方法擾亂原始資料,並於修改時記錄一修改資訊;(S12)原始資料經由資料偽裝後成為一保護資料;(S13)判斷保護資料是否達到一終止條件,若是則至步驟(S14),若否則至步驟(S11);以及(S14)輸出保護資料。
於以上步驟中,原始資料係為具有知識內容的資料集。資料偽裝方法於原始資料中,取得產生干擾資料或重新排列組合原始資料數值的修改資訊,使得原始資料根據修改資訊,被修改為保護資料,再判斷保護資料是 否達到終止條件時;若是,則將保護資料輸出;若否,則回到上一步,繼續修改原始資料,直到達到終止條件。再者,資料偽裝方法加入干擾資料或擾亂原始資料的方式包括,加入至少一修改欄位資訊、加入複數筆修改資訊或修改原始資料數值之欄位或位置。
又,偽裝資料方法係以公式推導產生對原始資料進行修改之修改資訊,並根據修改資訊,加入干擾資料或修改原始資料之數值的欄位或位置,藉以產生保護資料。此外,保護資料產生的過程,係可以完全記錄或以一修改產生公式推導作為修改資訊,讓保護資料可以根據修改資訊還原成原始資料。又,終止條件係為使用者預期達到一預期干擾效果門檻值或一執行次數限制門檻值,以符合知識偽裝之目標。
本發明所提出的知識偽裝方法,接下來以一種演算法為舉例,但實際實施時,並不限定於此種方法或特定資料探勘方法,且重複之部分不再贅述。
請參閱第2圖,其係為本發明之利用分群演算法進行資料偽裝之實施例流程圖。此方法,包括下列步驟:(S20)輸入一原始資料;(S21)利用一分群演算法取得原始資料的分群重心值及一基礎資訊;(S22)設定一終止條件,當原始資料經分群演算法進行修改,並滿足終止條件之後,即終止產生保護資料之步驟; (S23)利用一亂數產生器及一種子值產生修改資訊;(S24)將修改資訊依隨機的方式加入原始資料,形成保護資料;(S25)再利用分群演算法取得保護資料的分群重心值;(S26)判斷保護資料是否達到終止條件,若是進行步驟(S28),否則進行步驟(S27);(S27)刪除保護資料中的修改資訊,並將保護資料還原成原始資料,並回到步驟(S23)重新產生修改資訊;以及(S28)以原始資料的基礎資訊產生修改資訊,並以此修改資訊對於原始資料進行編輯,以產生並輸出保護資料。
於以上步驟中,先將原始資料定義為D,係如下列所示:D={d i ,i=1,2,3...n}
經由分群演算法分析後,得到第一分群重心值,如下列所示:C={c 1,c 2,...,c k }
並與各分群的資料數量:cn 1,cn 2,...,cn k 。其中令k為分群的數量,每一個重心點係如下列所示:c j =(c j1,c j2,...,c jm )
上式中j的值大於等於1並小於等於k。由於,分群 演算法以群聚的重心點來代表所有資料點,所以能減少大量的計算。
而基礎資訊o j 為第j群距離其重心點c j 位置最近的資料點,也就是以下列公式: 令o j =d i ,則d i 必須滿足
藉以得到基礎資訊o j 作為產生第j群修改資料的基礎素材,再以一使用者之前制訂之偏移比例r和基礎資訊o j 來計算第j群偏移量e j ,係如下式所列:
設定演算次數t=1及分群重心門檻值T,設定修改資訊之數量的遞增倍數b j 等於t,若第j群已達終止條件的修改目標,則b j 不再改變,並且計算各個分群所需的修改資訊的數量,係如下列所示:
上式亦即為執行第t次的各分群修改資訊。
在本發明之一實施例中,修改資訊係以Y表示之,且修改資訊Y以隨機的方式加入原始資料D,產生保護資料D'且D'=(D Y)。再利用分群演算法取得D'之第二分群重心值為C'={c'1,c'2,c'3,...,c' k }。判斷是否達到終止條件,即c' j 是否非常接近(c j +c j ×r),如∥c' j -(c j +c j ×r)∥ T[1,k]。若尚未達到終止條件,則放棄本次產生的修改資訊Y,並設定演算次數tt+1再重新產生修改資訊Y;若達到終止條件之後則輸出保護資料D'。
在分群演算法的資料偽裝設計裡,包含了一個由使用者自訂的偏移比例r,且r≠0。主要用途是用來計算各分群重心點偏移的位置,作為分群演算法偽裝知識的目標,r的數值可由使用者依需求來設定調整。
分群演算法的資料偽裝設計,可讓使用者有彈性的調整偏移比例r,並依調整偏移比例r與基礎資訊o j 來產生具有與原始資料D相近似的修改資訊Y。再經由評估效果的方式,檢查新產生的分群重心點位置是否達到偏移目標。如果沒有達到偏移目標,再藉由加入修改資訊Y的方法,使各分群的重心點位置偏向使用者設定的偏移目標,以完成分群演算法的資料偽裝目的,確保原始資料D裡的群聚重心點位置,也就是其分群知識,不會因資料的外流,而被正確的分析萃取出來。
請參閱第3圖,其係為本發明之利用分群演算法進行資料解除保護之實施例流程圖。此方法,包括下列步驟:(S30)利用原來的亂數產生器及原來的種子值Seed產生修改資訊;(S31)刪除保護資料中之修改資訊;以及(S32)根據修改資訊將已刪除修改資訊的保護資料還原成原始資料。
於以上步驟中,利用種子值Seed、保護資料D'、偏移比例r、及設定亂數產生器,產生保護資料D'之修改資訊Y,再輸出還原後之原始資料D
請參閱第4圖,其係為原始資料之實施例表格圖。圖中,為Iris資料(Iris Plants Database)之分群、重心值及分群資料個數,於此實施例中,分群參數k為3,令Iris的分群重心點為C={c 1,c 2,c 3},先將此資料設定為原始資料D,資料筆數n=150,並進行分群演算法分析,得知正確的重心點C。接下來進行參數設定,設定偏移比例r為0.1,及演算總次數為100次,亂數產生器之Seed由使用者自行設定。
請參閱第5圖,其係為知識偽裝效果之實施例表格圖。圖中,為修改後再利用分群演算法分群的保護資料D'後的分群重心點C'。共加入了115筆修改資訊,即達到偏移重心點的目標。以第一個修改後的分群重心點c 1 '和修改前的分群重心點c 1做比較,原本c 1的分群資料數量為50筆資料,經過資料偽裝後的保護資料,加入了40筆的修改資訊,使得c 1 '每一個欄位的數值,都比原本的分群重心點c 1增加了0.1倍以上,如下述計算所示:(5.71-5.00)/5.00=0.142>0.1
(3.84-3.41)/3.41=0.126>0.1
(1.74-1.46)/1.46=0.191>0.1
(0.31-0.24)/0.24=0.291>0.1
其它c 2 'c 3 '兩個分群重心點亦是如此,由此證實,本發明達到預估的偏移比例r=0.1的目的。可藉由設定偏移比例r的方式,讓使用者自行設定知識偽裝後分群重心點的結果。如此可有效的符合使用者的實際需求, 亦可方便使用者自訂合理的偏移方向,達到保護偽裝與誤導非法使用者的目的。
請參閱第6圖,其係為知識偽裝效果之實施例之修改資訊範例表格圖。圖中,在修改資訊與原始資料的相似度方面,由於是以原始資料的中最接近分群重心點的資料為基礎,加上指定範圍內的亂數數值,所以能產生與原始資料相近似,不易分辨的修改資訊。接下來將原始資料與加入的修改資訊裡,各取三筆資料列於圖中,以便觀察兩者之間的差異,觀察每一組的資料,它們相同欄位的數值都相當接近,所產生的修改資訊是無法輕易的被篩選過濾的。
以上所述僅為舉例性,而非為限制性者。任何未脫離本發明之精神與範疇,而對其進行之等效修改或變更,均應包含於後附之申請專利範圍中。
S10~S14‧‧‧步驟
S20~S28‧‧‧步驟
S30~S32‧‧‧步驟
第1圖 係為本發明之知識偽裝方法之流程圖;第2圖 係為本發明之利用分群演算法進行資料偽裝之方法流程圖;第3圖 係為本發明之利用分群演算法進行資料解除偽裝之方法流程圖;第4圖 係為原始資料集之實施例表格圖;第5圖 係為知識偽裝效果之實施例表格圖;以及 第6圖 係為知識偽裝效果之實施例之干擾資料範例表格圖。
S10~S14‧‧‧步驟

Claims (9)

  1. 一種知識偽裝方法,其包括下列步驟:輸入一原始資料;利用一資料偽裝方法加入干擾資料或擾亂原始資料,並記錄一修改資訊作為還原資料時之依據;經資料偽裝後之資料係為一保護資料;以及當該保護資料需要被還原時,可利用記錄之修改資訊將保護資料還原成原始資料。
  2. 如申請專利範圍第1項所述之知識偽裝方法,其中該原始資料係為一具有知識內容之資料集。
  3. 如申請專利範圍第1項所述之知識偽裝方法,其中利用該資料偽裝方法加入干擾資料或擾亂該原始資料之方式包括,加入至少一修改欄位資料、加入複數筆干擾資料、或修改該原始資料數值之欄位或位置順序。
  4. 如申請專利範圍第3項所述之知識偽裝方法,其中該干擾資料係以原始資料為基礎,運用公式推導產生近似於原始資料之干擾資料,藉以加入原始資料中來產生該保護資料。
  5. 如申請專利範圍第3項所述之知識偽裝方法,其中該擾亂原始資料之方式,係以修改該原始資料之數值的欄位或位置,藉以產生該保護資料。
  6. 如申請專利範圍第4、5項所述之知識偽裝方法, 其中該保護資料產生的過程,係可以完全記錄或以一修改產生公式推導作為該修改資訊,使得該保護資料可以根據該修改資訊還原成該原始資料。
  7. 如申請專利範圍第4項所述之知識偽裝方法,其中該保護資料係指包含該原始資料與該干擾資料之資料集;其中,該原始資料並未有任何修改或增減。
  8. 如申請專利範圍第5項所述之知識偽裝方法,其中當該保護資料係指重新排列或組合該原始資料之數值的欄位或位置;其中,該原始資料的數值並未有修改。
  9. 如申請專利範圍第1項所述之知識偽裝方法,其中於該保護資料還原時,係利用該修改資訊於該保護資料中移除干擾資料或將該修改資訊還原成該原始資料之數值的欄位或位置。
TW99111192A 2010-04-09 2010-04-09 知識偽裝方法 TWI434197B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
TW99111192A TWI434197B (zh) 2010-04-09 2010-04-09 知識偽裝方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW99111192A TWI434197B (zh) 2010-04-09 2010-04-09 知識偽裝方法

Publications (2)

Publication Number Publication Date
TW201135507A TW201135507A (en) 2011-10-16
TWI434197B true TWI434197B (zh) 2014-04-11

Family

ID=46751918

Family Applications (1)

Application Number Title Priority Date Filing Date
TW99111192A TWI434197B (zh) 2010-04-09 2010-04-09 知識偽裝方法

Country Status (1)

Country Link
TW (1) TWI434197B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI820007B (zh) * 2017-03-08 2023-11-01 香港商阿里巴巴集團服務有限公司 聯絡人資訊的顯示方法和裝置以及資訊的顯示方法和裝置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI820007B (zh) * 2017-03-08 2023-11-01 香港商阿里巴巴集團服務有限公司 聯絡人資訊的顯示方法和裝置以及資訊的顯示方法和裝置

Also Published As

Publication number Publication date
TW201135507A (en) 2011-10-16

Similar Documents

Publication Publication Date Title
Xu et al. Building confidential and efficient query services in the cloud with RASP data perturbation
Chen et al. Privacy-preserving multiparty collaborative mining with geometric data perturbation
Vatsalan et al. Efficient two-party private blocking based on sorted nearest neighborhood clustering
Vidyarthi et al. Static malware analysis to identify ransomware properties
Kaur et al. A secure data classification model in cloud computing using machine learning approach
Narwaria et al. Privacy preserving data mining—‘A state of the art’
Surendra et al. Hiding sensitive itemsets without side effects
TWI434197B (zh) 知識偽裝方法
Talha et al. Quality and Security in Big Data: Challenges as opportunities to build a powerful wrap-up solution.
Toraskar et al. Efficient computer forensic analysis using machine learning approaches
Mynavathi et al. K nearest neighbor classifier over secured perturbed data
Al-Asadi et al. Security enhancement of big data in cloud application using block-chain
CN110990876A (zh) 基于不变后随机响应技术的数据库敏感关联属性脱敏方法
Jamadi et al. Privacy preserving data mining based on geometrical data transformation method (GDTM) and K-means clustering algorithm
Kamakshi et al. A novel framework to improve the quality of additive perturbation technique
Sultana et al. Privacy preserved image recognition on msb encrypted images
Kumaran et al. Privacy preserving in data mining technical: A review
Johora et al. Notice of Violation of IEEE Publication Principles: A Robust Database Watermarking using Local Differential Privacy
Archana et al. Machine Learning Approaches To Protecting Privacy In Data Mining
Gunawan et al. Protecting Sensitive Frequent Itemsets in Database Transaction Using Unknown Symbol
Wang et al. Fingerprinting in EEG Model IP Protection Using Diffusion Model
Kamakshi et al. Framework to reduce the hiding failure due to randomized additive data modification PPDM technique
Batham et al. A new approach for data security using deduplication over cloud data storage
Mongardini et al. DARD: Deceptive Approaches for Robust Defense Against IP Theft
Ahluwalia et al. Privacy preserving data mining: taxonomy of existing techniques

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees