CN110516476A - 基于频繁位置分类的地理不可区分性位置隐私保护方法 - Google Patents
基于频繁位置分类的地理不可区分性位置隐私保护方法 Download PDFInfo
- Publication number
- CN110516476A CN110516476A CN201910820524.8A CN201910820524A CN110516476A CN 110516476 A CN110516476 A CN 110516476A CN 201910820524 A CN201910820524 A CN 201910820524A CN 110516476 A CN110516476 A CN 110516476A
- Authority
- CN
- China
- Prior art keywords
- privacy
- cluster
- location
- geographical
- privacy protection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2221/00—Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F2221/21—Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F2221/2111—Location-sensitive, e.g. geographical location, GPS
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Bioethics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于频繁位置分类的地理不可区分性位置隐私保护方法,该方法能有效地保护位置隐私,且消耗较少的隐私损耗。由于用户到访过的位置的频繁度,极大程度上影响了攻击者对于用户位置轨迹的推断结果。目前的位置隐私保护方法,主要是对位置数据直接进行模糊处理,对所有位置点加以同等程度的隐私保护级别。本发明提出了一种新的位置扰动思路,根据位置点分布的频繁程度,对其进行分类,为每个类分配不同的隐私预算。通过地理不可区分性扰动机制对位置集进行扰动。通过基于信息熵的度量方法,对输出结果进行信息量的度量。使用真实数据证明该方法能显著降低隐私损耗,并且能够达到较好的隐私保护效果。
Description
技术领域
本发明涉及地理位置信息安全领域,特别涉及到地理位置聚类方法,地理不可区分性方法。属于差分隐私保护技术领域。
背景技术
随着基于地理位置信息的服务在移动设备上的广泛应用,获取用户的位置信息为个性化用户体验带来了额外的价值。然而,人们到访过的位置信息,会不经意地揭露他们的行动轨迹,甚至是住址、喜好和习惯等极其敏感的信息。差分隐私作为隐私保护领域的重要研究课题受到了越来越多学者们的关注。差分隐私是针对统计数据集的隐私保护概念,通过在查询函数的返回值中添加受控噪音,实现在保护个人隐私数据的同时,发布关于数据集的聚合信息。
地理不可区分性是对差分隐私在几何空间中的拓展,其添加噪音的方法为,用极坐标的方式绘制以用户的真实位置为圆心,以符合Gamma分布的r为半径的圆形小区域。在该小区域内,用户的真实位置与扰动位置是不可区分的。地理不可区分性旨在保护个人确切位置的同时,提供足够的位置信息以获取所需的服务。由于位置数据集稀疏性的特点,相比于差分隐私,地理不可区分性更好地解决了位置信息保护场景中存在的敏感度较大及准确性较差的隐私度量问题。
DBSCAN是机器学习中经典的基于密度的聚类算法。该算法根据密度可达关系将高密度区域划分为一簇。利用聚类算法对位置数据进行分类,根据聚类结果来分配隐私预算,可以对用户在某敏感区域内出现的频数进行扰动,以达到隐私保护的目的。
支撑图在图论的研究中起着重要的作用,当地理不可区分性应用于多个位置点的保护时,使用支撑图技术对位置点的噪音集进行预处理,可以有效地满足隐私保护需求的同时,实现降维的目的。
发明内容
本发明提出了一种基于频繁位置分类的地理不可区分性位置隐私保护方法。该方法首先通过聚类算法对位置数据集进行分类,根据划分的层数及每个簇中位置点出现的频数划分隐私预算,用于确定向每个簇中添加噪音量的大小。然后,构造地理不可区分性隐私保护模型。使用贪心算法,对原始位置数据的噪音集生成支撑图,减小加噪过程的时间复杂度。再次,根据划分的隐私预算向每个簇内添加不同的受控噪音。最后,利用质量损耗度量该方法的效用;同时,提出了一种基于信息熵的方法,来度量算法可能泄露的用户信息量的多少。使用GeoLife数据集验证显示,该方法能有效降低噪音量,并有较好的隐私保护效果。其模型框架图如附图1所示。
本发明的技术方案为:基于频繁位置分类的地理不可区分性位置隐私保护方法,所述方法包括以下步骤:
步骤1:根据位置点出现的频繁程度,通过聚类算法,对位置数据集进行分类;
步骤2:构建满足地理不可区分性的位置扰动模型,并构造支撑图;
步骤3:根据聚类的簇数及每个簇内位置点的密度分配隐私预算,向位置集添加噪音;
步骤4:使用基于信息熵及质量损耗的度量方法,对真实数据进行验证。所述步骤1利用机器学习中基于密度的聚类算法DBCSAN,对数据集进行分类,统计每个聚类的簇中出现位置点的频数。
所述步骤2,构造地理不可区分性隐私保护模型,通过构造支撑图的方法提高加噪过程的效率。
所述步骤3,根据步骤1的聚类结果,根据每个聚类的簇出现位置点的频数,为每个的簇分配隐私预算,添加噪音。
所述步骤4,对步骤3的结果,进行基于信息熵的隐私度量,能够度量可能泄露的信息量的多少,使用GeoLife数据集验证所述方法的隐私保护效用,从而验证其可用性及有效性。
有益效果
本发明提供了基于频繁位置分类的地理不可区分性位置隐私保护方法。用户的位置隐私不仅与其到访过的位置有关,也与用户在某区域内出现的频繁程度有关。在通常的隐私保护方法中,采用直接向数据集添加受控噪音,来达到隐私保护的目的。这样一来,可能造成用户出现在某敏感区域的频数仍然较高。如果频数较高,则通过对用户的侧面信息进行建模,攻击者推断出用户实际所在区域的概率相对较高。本发明提供了一种对空间位置数据模糊化处理的思路,结合机器学习基于密度的聚类算法,有针对性地分配隐私预算,将较高密集区域内位置点的频数,扩散到周边的较低密集区域,从而更好地达到扰动效果。对出现频数较高的区域分配相对较大的噪音量,而对出现频数较低的区域,则分配较小的隐私预算,从而提升隐私保护的效用。
同时,本发明还提供了一种隐私量度量方法。由于在本场景中,信息熵以用户出现在某区域内的概率来衡量用户访问位置的不确定性,所以使用基于信息熵的方法来度量,能够更好地反应到访位置点可能泄露信息量的多少。该方法可以更科学地反应隐私的泄露情况及保护程度。通过真实数据集,证明了基于频繁位置分类的地理不可区分性位置隐私保护方法的效用。
附图说明
图1为本发明所述基于频繁位置分类的地理不可区分性位置隐私保护模型;
图2为热力图的对比结果。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将参照本说明书附图对本发明作进一步的详细描述。
实行本发明的方法,首先执行步骤1,通过DBSCAN聚类算法对位置集进行分类操作。令原始位置集X=[x1,x2,...xn],样本xi∈X,若xi的邻域内至少包含minpts个样本,则xi为核心点。根据给定邻域及minpts确定核心点,对每个核心点选择一个未处理的对象,根据密度可达选择样本,来生成一个簇。得到簇C1,C2,...Cm,并统计每个簇内位置点的密集程度。
然后执行步骤2,构造基于频繁位置分类的地理不可区分性位置隐私保护模型如图1所示。该模型对位置点添加噪音的方式是以用户的真实位置为圆心,画半径r符合Gamma分布的圆形区域,即其中x′为x的噪音点,ε为隐私预算。即,设该机制K满足ε-地理不可区分性,则对圆形区域内所有欧几里德度量d(x,x′)≤r,机制K的查询函数满足公式K(x)(z)≤eεd(x,x′)K(x′)(z),其中K(x)(z)为机制K的输入为x时,得到的输出为z的概率,x′即为x的噪音点。
由于在该区域内的任意点都可以作为报告的噪音点。对这些噪音点生成一个稀疏的支撑图G,能够保证在ε隐私保护约束不变的情况下,提高算法的效率。令G=(X,E)为位置点x的噪音集X′的t-支撑图,其中t为支撑因子。则对所有(x,x′)∈E,dG(x,x′)>t*dx′(x,x′),其中dx′(x,x′)为x与x′间的欧式距离。
再次,根据聚类所产生的簇数及每个簇内位置点的计数分配隐私预算。根据每个簇内位置点的密集程度,从高到低以依次递减的方式分配隐私预算,将总隐私预算ε划分为ε1,ε2,…εm。分别向每个簇Ci添加隐私预算为εi的噪音,得到噪音集X′。使用质量损耗来表达扰动函数为K(x)(x′)的机制所产生的质量损耗,其中为用户的侧面信息,通过对每个簇内出现位置点的概率进行归一化处理,从而得到用户的侧面信息。
最后,利用基于信息熵的度量方式对可能泄露的信息量进行度量。令隐私设对数据进行扰动前后的信息熵分别为H(X),H(X′),其中m为聚类的簇数,p(xi)为xi可能出现在簇Ci中的概率。改变总的隐私预算,计算并统计不同情况下的Hi(X′)。则
为了验证本发明的效用,我们使用了微软亚洲研究院提供的GeoLife数据集及百度地图API SDK。GeoLife数据集包括了182位用户在北京市的活动轨迹,我们选取了仅2008年11月3日当天用户到访过的位置点,并每隔1min抽取一条记录。调用百度地图API对位置数据绘制热力图,能够观察出用户出现在不同区域的频繁程度。将分别通过本发明的方法与传统方法得到的扰动位置集,与原始位置集进行对比,证明本发明对位置隐私保护的效果更好。热力图的对比结果如图2所示。
本发明未详述之处,均为本技术领域技术人员的公知技术。最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (5)
1.基于频繁位置分类的地理不可区分性位置隐私保护方法,其特征在于包括以下步骤:
步骤1:根据位置点的聚集程度,通过基于密度的聚类算法,对位置数据集进行分类;
步骤2:构建满足地理不可区分性的位置隐私保护模型,并构造支撑图;
步骤3:根据聚类的每个簇内位置点的密度及簇数分配隐私预算,向位置点添加噪音;
步骤4:使用基于信息熵及质量损耗的度量方法,对真实数据进行验证。
2.根据权利要求1所述的方法,其特征在于,所述步骤1利用机器学习中基于密度的聚类算法DBCSAN,对数据集进行分类,统计每个聚类的簇中出现位置点的频数。
3.根据权利要求1所述的方法,其特征在于,所述步骤2,构造地理不可区分性隐私保护模型,通过构造支撑图的方法提高加噪过程的效率。
4.根据权利要求1所述的方法,其特征在于,所述步骤3,根据步骤1的聚类结果,根据每个聚类的簇出现位置点的频数,为每个的簇分配隐私预算,添加噪音。
5.根据权利要求1所述的方法,其特征在于,所述步骤4,对步骤3的结果,进行基于信息熵的隐私度量,能够度量可能泄露的信息量的多少,使用GeoLife数据集验证所述方法的隐私保护效用,从而验证其可用性及有效性。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910820524.8A CN110516476B (zh) | 2019-08-31 | 2019-08-31 | 基于频繁位置分类的地理不可区分性位置隐私保护方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910820524.8A CN110516476B (zh) | 2019-08-31 | 2019-08-31 | 基于频繁位置分类的地理不可区分性位置隐私保护方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110516476A true CN110516476A (zh) | 2019-11-29 |
CN110516476B CN110516476B (zh) | 2022-05-13 |
Family
ID=68630078
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910820524.8A Active CN110516476B (zh) | 2019-08-31 | 2019-08-31 | 基于频繁位置分类的地理不可区分性位置隐私保护方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110516476B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111343631A (zh) * | 2020-03-16 | 2020-06-26 | 河海大学常州校区 | 水声传感器网络中基于位置推送的源节点隐私保护方法 |
CN111597462A (zh) * | 2020-05-14 | 2020-08-28 | 河南科技大学 | 一种基于差分隐私的位置近邻查询方法 |
CN112800458A (zh) * | 2021-01-26 | 2021-05-14 | 华南理工大学 | 社交网络中基于用户间关系强度的轨迹隐私保护方法 |
CN116015748A (zh) * | 2022-12-07 | 2023-04-25 | 广东金融学院 | 一种面向环境和用户的位置隐私保护机制的推荐方法及*** |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105930738A (zh) * | 2016-04-13 | 2016-09-07 | 青岛科技大学 | 一种基于位置的个性化物联网服务***用户隐私保护方法 |
US20160309322A1 (en) * | 2013-12-05 | 2016-10-20 | Nec Europe Ltd. | A method for preserving privacy within a communication system and an according communication system |
CN106991335A (zh) * | 2017-02-20 | 2017-07-28 | 南京邮电大学 | 一种基于差分隐私保护的数据发布方法 |
CN107247909A (zh) * | 2017-06-09 | 2017-10-13 | 南京大学 | 一种在位置信息服务中保护多个位置的差分隐私方法 |
CN108280491A (zh) * | 2018-04-18 | 2018-07-13 | 南京邮电大学 | 一种面向差分隐私保护的k均值聚类方法 |
CN109104696A (zh) * | 2018-08-13 | 2018-12-28 | 安徽大学 | 一种基于差分隐私的移动用户的轨迹隐私保护方法及*** |
CN109886334A (zh) * | 2019-02-20 | 2019-06-14 | 安徽师范大学 | 一种隐私保护的共享近邻密度峰聚类方法 |
CN110062324A (zh) * | 2019-03-28 | 2019-07-26 | 南京航空航天大学 | 一种基于k-匿名的个性化位置隐私保护方法 |
CN110134879A (zh) * | 2019-03-06 | 2019-08-16 | 辽宁工业大学 | 一种基于差分隐私保护的兴趣点推荐算法 |
-
2019
- 2019-08-31 CN CN201910820524.8A patent/CN110516476B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160309322A1 (en) * | 2013-12-05 | 2016-10-20 | Nec Europe Ltd. | A method for preserving privacy within a communication system and an according communication system |
CN105930738A (zh) * | 2016-04-13 | 2016-09-07 | 青岛科技大学 | 一种基于位置的个性化物联网服务***用户隐私保护方法 |
CN106991335A (zh) * | 2017-02-20 | 2017-07-28 | 南京邮电大学 | 一种基于差分隐私保护的数据发布方法 |
CN107247909A (zh) * | 2017-06-09 | 2017-10-13 | 南京大学 | 一种在位置信息服务中保护多个位置的差分隐私方法 |
CN108280491A (zh) * | 2018-04-18 | 2018-07-13 | 南京邮电大学 | 一种面向差分隐私保护的k均值聚类方法 |
CN109104696A (zh) * | 2018-08-13 | 2018-12-28 | 安徽大学 | 一种基于差分隐私的移动用户的轨迹隐私保护方法及*** |
CN109886334A (zh) * | 2019-02-20 | 2019-06-14 | 安徽师范大学 | 一种隐私保护的共享近邻密度峰聚类方法 |
CN110134879A (zh) * | 2019-03-06 | 2019-08-16 | 辽宁工业大学 | 一种基于差分隐私保护的兴趣点推荐算法 |
CN110062324A (zh) * | 2019-03-28 | 2019-07-26 | 南京航空航天大学 | 一种基于k-匿名的个性化位置隐私保护方法 |
Non-Patent Citations (8)
Title |
---|
D.YIN 等: ""Location- and relation-based clustering on privacy-preserving social networks,"", 《TSINGHUA SCIENCE AND TECHNOLOGY》 * |
***铭 等: ""基于拉普拉斯机制的差分隐私保护k-means++聚类算法研究"", 《信息网络安全》 * |
刘天宇: ""差分隐私保护K-means聚类方法的研究"", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
吴伟民 等: ""基于差分隐私保护的DP-DBScan聚类算法研究"", 《计算机工程与科学》 * |
彭长根 等: ""隐私保护的信息熵模型及其度量方法"", 《软件学报》 * |
王豪 等: ""面向轨迹聚类的差分隐私保护方法"", 《华中科技大学学报(自然科学版)》 * |
窦琛琛: ""基于位置服务差分隐私中地域模糊性的研究"", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
胡德敏 等: ""可预测的差分扰动用户轨迹隐私保护方法"", 《小型微型计算机***》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111343631A (zh) * | 2020-03-16 | 2020-06-26 | 河海大学常州校区 | 水声传感器网络中基于位置推送的源节点隐私保护方法 |
CN111597462A (zh) * | 2020-05-14 | 2020-08-28 | 河南科技大学 | 一种基于差分隐私的位置近邻查询方法 |
CN111597462B (zh) * | 2020-05-14 | 2022-03-29 | 河南科技大学 | 一种基于差分隐私的位置近邻查询方法 |
CN112800458A (zh) * | 2021-01-26 | 2021-05-14 | 华南理工大学 | 社交网络中基于用户间关系强度的轨迹隐私保护方法 |
CN116015748A (zh) * | 2022-12-07 | 2023-04-25 | 广东金融学院 | 一种面向环境和用户的位置隐私保护机制的推荐方法及*** |
Also Published As
Publication number | Publication date |
---|---|
CN110516476B (zh) | 2022-05-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110516476A (zh) | 基于频繁位置分类的地理不可区分性位置隐私保护方法 | |
Phillips et al. | The social integration of American cities: Network measures of connectedness based on everyday mobility across neighborhoods | |
CN105389332B (zh) | 一种地理社交网络下的用户相似性计算方法 | |
US9495383B2 (en) | Realtime activity suggestion from social and event data | |
Wu et al. | Modified data-driven framework for housing market segmentation | |
Yang et al. | Density-based location preservation for mobile crowdsensing with differential privacy | |
CN106605418A (zh) | 使用基于位置的服务的移动客户端的电力管理 | |
CN107515949B (zh) | 兴趣点预测和推荐中的用户时空相似性度量方法 | |
Toch et al. | Generating default privacy policies for online social networks | |
Ho et al. | DP-GAN: Differentially private consecutive data publishing using generative adversarial nets | |
CN110062324B (zh) | 一种基于k-匿名的个性化位置隐私保护方法 | |
WO2018059122A1 (zh) | 服务推荐方法、终端、服务器和存储介质 | |
Bachir et al. | Using mobile phone data analysis for the estimation of daily urban dynamics | |
CN106162544A (zh) | 一种地理围栏的生成方法和设备 | |
CN109284449A (zh) | 兴趣点的推荐方法和装置 | |
CN110298687B (zh) | 一种区域吸引力评估方法及设备 | |
Zhou et al. | Cultural investment and urban socio-economic development: a geosocial network approach | |
He et al. | Cooperative content caching for mobile edge computing with network coding | |
Han et al. | A topic representation model for online social networks based on hybrid human–artificial intelligence | |
Manley et al. | New forms of data for understanding urban activity in developing countries | |
Cao et al. | Understanding metropolitan crowd mobility via mobile cellular accessing data | |
US11012812B2 (en) | System and method for identifying associated subjects from location histories | |
Bamba et al. | Privacygrid: Supporting anonymous location queries in mobile environments | |
WO2020202327A1 (ja) | 学習システム、学習方法、及びプログラム | |
CN109639452A (zh) | 社交关系模型训练方法、装置、服务器及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |