CN111259444B - 一种融合隐私保护的轨迹数据标签聚类方法 - Google Patents

一种融合隐私保护的轨迹数据标签聚类方法 Download PDF

Info

Publication number
CN111259444B
CN111259444B CN202010048296.XA CN202010048296A CN111259444B CN 111259444 B CN111259444 B CN 111259444B CN 202010048296 A CN202010048296 A CN 202010048296A CN 111259444 B CN111259444 B CN 111259444B
Authority
CN
China
Prior art keywords
label
generalization
vehicle
node
track data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010048296.XA
Other languages
English (en)
Other versions
CN111259444A (zh
Inventor
樊娜
崔雪莹
段宗涛
王路阳
王志凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changan University
Original Assignee
Changan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changan University filed Critical Changan University
Priority to CN202010048296.XA priority Critical patent/CN111259444B/zh
Publication of CN111259444A publication Critical patent/CN111259444A/zh
Application granted granted Critical
Publication of CN111259444B publication Critical patent/CN111259444B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6254Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioethics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明公开了一种融合隐私保护的轨迹数据标签聚类方法,将车辆轨迹数据挖掘与轨迹中兴趣点的隐私保护结合起来;在标签传播的过程中,对于存储的标签序列,首先将车辆身份识别号进行全局泛化处理,实现对单个车辆轨迹的匿名处理;对于精确到位置点的经纬度坐标列,结合车辆轨迹数据中的停留点数据,对兴趣点进行局部泛化处理,其他点采用全局泛化处理方法,继而实现对所有高频停留点的隐私保护,在聚类过程中,考虑了轨迹数据中的车辆身份标识号以及GPS坐标属性语义信息,将车辆轨迹数据挖掘与泛化处理结合起来,对车辆轨迹数据中的敏感信息进行隐匿处理,本方法能够有效保护车辆轨迹聚类过程中所涉及到的隐私信息。

Description

一种融合隐私保护的轨迹数据标签聚类方法
技术领域
本发明涉及车辆轨迹数据挖掘及隐私保护领域,具体为一种融合隐私保护的轨迹数据标签聚类方法。
背景技术
随着车载无线传感设备的发展和普及,可以收集到的车辆轨迹数据信息也愈加完善。轨迹聚类方法是对轨迹数据进行分析、应用的关键技术之一。传统的轨迹聚类方法主要采用基于距离测量的方法,但存在聚类不精确、估算成本高、缺乏隐私保护机制等缺点。近年来提出的基于语义分析的轨迹聚类方法有效提高了聚类精度,但是在聚类的过程中,依然没有考虑隐私保护。因此如何在进行轨迹数据挖掘的同时保护隐私敏感数据不会泄露,成为亟需解决的问题。
发明内容
针对现有技术中存在的问题,本发明提供一种融合隐私保护的轨迹数据标签聚类方法,能够有效保护车辆轨迹聚类过程中所涉及到的隐私信息。
为达到上述目的,本发明采用如下技术方案:
一种融合隐私保护的轨迹数据标签聚类方法,包括以下步骤:
步骤1)、数据预处理:将从车载传感器获取到的最原始轨迹数据进行降维处理;
步骤2)、对偶图转换:根据降维处理后的最原始轨迹数据将道路网中两个交叉路口之间的道路段建模为一个节点,并将每两个节点之间的交叉路口建模为节点间的连线,从而将道路网转换为对偶图;
步骤3)、初始化所有节点的标签信息,使得每个节点拥有唯一的标签,并为每一个节点设置一个存储历史标签的序列,然后对初始化后的标签信息通过SLPA标签传播方法进行标签传播,完成标签聚类;
步骤4)、对存储历史标签的序列进行泛化处理;
步骤5)、去除低频标签:根据步骤3)标签序列中以及步骤4)泛化处理后的标签聚类结果,如果标签聚类结果中出现的频率低于预先设定的阈值,则删除该标签;否则直接输出最终聚类结果。
进一步的,将从车载传感器设备获取到的最原始轨迹数据中移除异常数据,同时从最原始轨迹数据集中提取GPS坐标属性作为轨迹的语义标签;然后将原始轨迹数据进行高斯投影,将原始轨迹中的经纬度坐标转化为大地坐标,从而完成对最原始轨迹数据的降维处理。
进一步的,通过高斯投影坐标转换工具将原始轨迹数据进行高斯投影。
进一步的,步骤2)中,随机选择一个节点,记做监听节点,并将该节点设置为当前节点,将其邻居节点记做传播节点;
当前节点的每一个传播节点随机选择概率正比于在当前节点存储序列中出现概率(Pi)的标签,并把该标签发送到监听节点;
Figure BDA0002370207200000021
其中,listi表示当前存储序列中选中标签出现的次数,∑listi表示当前标签序列中所有标签出现次数的总和,0<Pi<=1;
当前节点从传播节点传播的标签信息集中选择出现概率最大的标签添加到监听节点存储的标签列表中,并将出现概率最大的标签作为本次迭代中的新标签;
重复上述迭代过程使标签在不断的遍历过程中传播,直至收敛或遍历达到设定的次数,结束迭代。
进一步的,步骤4)中具体步骤包括:如果车辆身份识别号的属性列标识为准标识符列,则对该车辆身份识别号进行全局泛化处理;如果车辆身份识别号的属性列标识不是准标识符列,则判断车辆身份识别号的属性列标识是否为兴趣点,如果是兴趣点则对兴趣点处的位置坐标进行局部泛化处理。
进一步的,如果车辆身份识别号的属性列标识不是准标识符列,则进行以下步骤:
4.2.1在标签序列中对每一个位置点的取值个数进行统计,并取出统计个数大于等于阈值10的兴趣点坐标;
4.2.2取出的统计个数大于等于阈值10的兴趣点坐标按照统计个数的大小进行降序排列;
4.2.3按照步骤4.2.2中的排列顺序,选择统计个数最大的兴趣点坐标进行首次泛化处理;
4.2.4若首次泛化处理后的标签序列不满足泛化处理结果,跳转至步骤4.2.1,否则跳转至步骤4.2.5;
4.2.5进行迭代计算,直到所有大于等于阈值的兴趣点坐标全部完成局部泛化处理,否则跳转至步骤4.2.2;
4.3使用泛化处理对普通点的位置坐标进行全局泛化处理。
进一步的,普通点指位置坐标数据中除了兴趣点之外的点。
进一步的,全局泛化指对同一组数据一次性进行相同的泛化操作。
进一步的,局部泛化指为同一组数据中的不同子集进行不同的泛化操作。
与现有技术相比,本发明具有以下有益的技术效果:
本发明一种融合隐私保护的轨迹数据标签聚类方法,将从车载传感器获取到的最原始轨迹数据进行降维处理,将车辆轨迹数据挖掘与轨迹中兴趣点的隐私保护结合起来,根据降维处理后的最原始轨迹数据将道路网中两个交叉路口之间的道路段建模为一个节点,并将每两个节点之间的交叉路口建模为节点间的连线,从而将道路网转换为对偶图;在标签传播的过程中,对于存储的标签序列,首先将车辆身份识别号进行全局泛化处理,实现对单个车辆轨迹的匿名处理;对于精确到位置点的经纬度坐标列,结合车辆轨迹数据中的停留点数据,对兴趣点进行局部泛化处理,其他点采用全局泛化处理方法,继而实现对所有高频停留点的隐私保护,在聚类过程中,考虑了轨迹数据中的车辆身份标识号以及GPS坐标属性语义信息,将车辆轨迹数据挖掘与泛化处理结合起来,对车辆轨迹数据中的敏感信息进行隐匿处理,本方法能够有效保护车辆轨迹聚类过程中所涉及到的隐私信息。
对于精确到位置点的经纬度坐标列,结合车辆轨迹数据中的停留点数据,对兴趣点进行局部泛化处理,其他点采用全局泛化处理方法,继而实现对所有高频停留点的隐私保护。
附图说明
图1为本发明实例中所述方法的流程框图。
图2为本发明实例中由道路网转换而来的对偶图。
具体实施方式
下面结合附图对本发明做进一步详细描述:
如图1、图2所示,本发明一种融合隐私保护的轨迹数据标签聚类方法,如图1所示,具体包括如下步骤,
步骤1,数据预处理;
1.1将从车载传感器设备获取到的最原始轨迹数据进行清洗处理得到原始轨迹数据;
清洗处理具体指从最原始轨迹数据移除异常数据,同时从最原始轨迹数据集中提取GPS坐标属性作为轨迹的语义标签;GPS坐标属性包括车辆速度、航向和高度。
1.2将原始轨迹数据(即清洗过的最原始轨迹数据)通过高斯投影坐标转换工具进行高斯投影,将原始轨迹中的经纬度坐标转化为大地坐标,从而完成对最原始轨迹数据的降维处理;
原始轨迹:表示一定时间间隔内对于车辆的时空采样点(Vi,Xi_T,Yi_T,T)的序列。其中,Xi_T表示车辆Vi在T时刻的经度坐标,Yi_T表示车辆Vi在T时刻的纬度坐标。
步骤2,对偶图转换:
2.1根据降维处理后的最原始轨迹数据将道路网中两个交叉路口之间的道路段建模为一个节点,并将每两个节点之间的交叉路口建模为节点间的连线;
2.2按照步骤2.1中的建模方式,将道路网转换为对偶图,如图2所示;
步骤3,使用Speaker-listener标签传播方法(Speaker-listener LabelPropagation Algorithm,SLPA)进行标签传播;
3.1初始化所有节点的标签信息,使得每个节点拥有唯一的标签,并为每一个节点设置一个存储历史标签的序列;标签信息指融合轨迹数据语义信息的轨迹数据,包括车辆的速度、航向和高度;标签信息还可以是自定义的语义标签,包括车辆轨迹数目;
3.2进行标签传播过程,具体过程如下:
3.2.1随机选择一个节点,记做监听节点,并将该节点设置为当前节点,将其邻居节点记做传播节点;
3.2.2当前节点的每一个传播节点随机选择概率正比于在当前节点存储序列中出现概率(Pi)的标签,并把该标签发送到监听节点;
Figure BDA0002370207200000061
其中,listi表示当前存储序列中选中标签出现的次数,∑listi表示当前标签序列中所有标签出现次数的总和,0<Pi<=1;
3.2.3当前节点从传播节点传播的标签信息集中选择出现概率最大的标签添加到监听节点存储的标签列表中,并将出现概率最大的标签作为本次迭代中的新标签;
3.2.4重复上述迭代过程直至收敛或遍历达到设定的次数(设定的次数由用户预定义产生),结束迭代,否则,跳转至步骤3.2,使标签在不断的遍历过程中传播;
步骤4,对步骤3.1中存储历史标签的序列进行k匿名处理,k匿名处理指数据的泛化处理,即将不同的数据进行统一化的表示。由于车辆轨迹数据在相邻的时间段内取值略有差异,对不同的属性值进行统一化的表示,使得攻击者无法区分兴趣点与普通点,从而达到隐私保护的目的;
4.1使用k匿名处理对车辆身份识别号进行全局泛化处理;
4.1.1将车辆身份识别号的属性列标识为准标识符列;
4.1.2结合车辆原始轨迹数据中车辆身份标识号可以暴露该车辆身份信息的特点,对车辆身份识别号进行全局泛化处理,全局泛化表示对同一组数据一次性进行相同的泛化操作;全局泛化处理后进入步骤5;
4.2使用k匿名处理对兴趣点处的位置坐标进行局部泛化处理;兴趣点指结合车辆轨迹数据,在同一位置(经度坐标值和纬度坐标值相等)在标签序列中出现的次数超过预先设置阈值的采样点;本申请阈值设置为10。
4.2.1在标签序列中对每一个位置点的取值个数进行统计,并取出统计个数大于等于阈值10的兴趣点坐标;
4.2.2取出的统计个数大于等于阈值10的兴趣点坐标按照统计个数的大小进行降序排列;
4.2.3按照步骤4.2.2中的排列顺序,选择统计个数最大的兴趣点坐标进行首次泛化处理;
4.2.4检测首次泛化后的标签序列,若不符合泛化处理结果(在本实施例中指每条记录数据至少与其他k-1条数据的属性值相同),跳转至步骤4.2.1,否则跳转至步骤4.2.5;
4.2.5进行迭代计算,直到所有大于等于阈值的兴趣点坐标全部完成局部泛化处理即可,否则跳转至步骤4.2.2;
4.3使用k匿名处理对普通点的位置坐标进行全局泛化处理,全局泛化处理后进入步骤5;
步骤5,去除低频标签;根据步骤3标签序列中的标签聚类结果,如果标签出现的频率低于预先设定的阈值,则删除该标签;否则,算法结束,输出最终聚类结果。

Claims (4)

1.一种融合隐私保护的轨迹数据标签聚类方法,其特征在于,包括以下步骤:
步骤1)、数据预处理:将从车载传感器设备获取到的最原始轨迹数据中移除异常数据,同时从最原始轨迹数据集中提取GPS坐标属性作为轨迹的语义标签;然后将原始轨迹数据进行高斯投影,将原始轨迹中的经纬度坐标转化为大地坐标,从而完成对最原始轨迹数据的降维处理;
步骤2)、对偶图转换:根据降维处理后的最原始轨迹数据将道路网中两个交叉路口之间的道路段建模为一个节点,并将每两个节点之间的交叉路口建模为节点间的连线,从而将道路网转换为对偶图;随机选择一个节点,记做监听节点,并将该节点设置为当前节点,将其邻居节点记做传播节点;
当前节点的每一个传播节点随机选择概率正比于在当前节点标签序列中出现概率Pi的标签,并把该标签发送到监听节点;
Figure FDA0003773551330000011
其中,listi表示当前标签序列中选中标签出现的次数,∑listi表示当前标签序列中所有标签出现次数的总和,0<Pi<=1;
当前节点从传播节点传播的标签信息集中选择出现概率最大的标签添加到监听节点存储的标签列表中,并将出现概率最大的标签作为本次迭代中的新标签;
重复上述迭代过程使标签在不断的遍历过程中传播,直至收敛或遍历达到设定的次数,结束迭代;
步骤3)、初始化所有节点的标签信息,使得每个节点拥有唯一的标签,并为每一个节点设置一个存储历史标签的序列,然后对初始化后的标签信息通过SLPA标签传播方法进行标签传播,完成标签聚类;
步骤4)、对存储历史标签的序列进行泛化处理:如果车辆身份识别号的属性列标识为准标识符列,则对该车辆身份识别号进行全局泛化处理;如果车辆身份识别号的属性列标识不是准标识符列,则判断车辆身份识别号的属性列标识是否为兴趣点,如果是兴趣点则对兴趣点处的位置坐标进行局部泛化处理;
具体的,4.1使用k匿名处理对车辆身份识别号进行全局泛化处理;
4.1.1将车辆身份识别号的属性列标识为准标识符列;
4.1.2结合车辆原始轨迹数据中车辆身份标识号可以暴露该车辆身份信息的特点,对车辆身份识别号进行全局泛化处理,全局泛化表示对同一组数据一次性进行相同的泛化操作;全局泛化处理后进入步骤5);
4.2使用k匿名处理对兴趣点处的位置坐标进行局部泛化处理;兴趣点指结合车辆轨迹数据,在同一位置在标签序列中出现的次数超过预先设置阈值的采样点;同一位置指经度坐标值和纬度坐标值相等;
4.2.1在标签序列中对每一个位置点的取值个数进行统计,并取出统计个数大于等于阈值10的兴趣点坐标;
4.2.2取出的统计个数大于等于阈值10的兴趣点坐标按照统计个数的大小进行降序排列;
4.2.3按照步骤4.2.2中的排列顺序,选择统计个数最大的兴趣点坐标进行首次泛化处理;
4.2.4检测首次泛化后的标签序列,若不符合泛化处理结果:每条记录数据至少与其他k-1条数据的属性值相同,跳转至步骤4.2.1,否则跳转至步骤4.2.5;
4.2.5进行迭代计算,直到所有大于等于阈值的兴趣点坐标全部完成局部泛化处理即可,否则跳转至步骤4.2.2;
4.3使用k匿名处理对普通点的位置坐标进行全局泛化处理,全局泛化处理后进入步骤5);
步骤5)、去除低频标签:根据步骤3)标签序列中以及步骤4)泛化处理后的标签聚类结果,如果标签聚类结果中出现的频率低于预先设定的阈值,则删除该标签;否则直接输出最终聚类结果。
2.根据权利要求1所述的一种融合隐私保护的轨迹数据标签聚类方法,其特征在于,通过高斯投影坐标转换工具将原始轨迹数据进行高斯投影。
3.根据权利要求1所述的一种融合隐私保护的轨迹数据标签聚类方法,其特征在于,普通点指位置坐标数据中除了兴趣点之外的点。
4.根据权利要求1所述的一种融合隐私保护的轨迹数据标签聚类方法,其特征在于,局部泛化具体为同一组数据中的不同子集进行不同的泛化操作。
CN202010048296.XA 2020-01-16 2020-01-16 一种融合隐私保护的轨迹数据标签聚类方法 Active CN111259444B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010048296.XA CN111259444B (zh) 2020-01-16 2020-01-16 一种融合隐私保护的轨迹数据标签聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010048296.XA CN111259444B (zh) 2020-01-16 2020-01-16 一种融合隐私保护的轨迹数据标签聚类方法

Publications (2)

Publication Number Publication Date
CN111259444A CN111259444A (zh) 2020-06-09
CN111259444B true CN111259444B (zh) 2022-09-16

Family

ID=70948865

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010048296.XA Active CN111259444B (zh) 2020-01-16 2020-01-16 一种融合隐私保护的轨迹数据标签聚类方法

Country Status (1)

Country Link
CN (1) CN111259444B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112668040A (zh) * 2020-12-14 2021-04-16 长安大学 一种基于语义的轨迹聚类隐私保护方法
CN112559593A (zh) * 2020-12-14 2021-03-26 长安大学 一种基于标签聚类的本地化差分隐私保护方法
CN112801131A (zh) * 2020-12-17 2021-05-14 长安大学 一种基于密度聚类的语义轨迹匿名区域构建方法
CN112818402B (zh) * 2021-02-26 2022-07-26 华南理工大学 一种基于点密度分割轨迹实现轨迹数据发布k匿名的方法
CN113946867B (zh) * 2021-10-21 2024-05-31 福建工程学院 基于空间影响力的位置隐私保护方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9564048B2 (en) * 2014-12-18 2017-02-07 Sap Se Origin destination estimation based on vehicle trajectory data
CN106383868A (zh) * 2016-09-05 2017-02-08 电子科技大学 一种基于道路网络的时空轨迹聚类方法
CN106650486A (zh) * 2016-09-28 2017-05-10 河北经贸大学 路网环境中的轨迹隐私保护方法

Also Published As

Publication number Publication date
CN111259444A (zh) 2020-06-09

Similar Documents

Publication Publication Date Title
CN111259444B (zh) 一种融合隐私保护的轨迹数据标签聚类方法
CN109936582B (zh) 构建基于pu学习的恶意流量检测模型的方法及装置
WO2018076571A1 (zh) Lte网络中的异常值检测方法及***
CN111506599B (zh) 基于规则匹配和深度学习的工控设备识别方法及***
Chen et al. T-DBSCAN: A Spatiotemporal Density Clustering for GPS Trajectory Segmentation.
CN112309126B (zh) 车牌检测方法、装置、电子设备及计算机可读存储介质
CN110553658B (zh) 导航路径推荐方法、导航服务器、计算机设备及可读介质
CN107330085B (zh) 大数据环境下固定传感器错误位置的判断识别和矫正方法
CN110113368B (zh) 一种基于子轨迹模式的网络行为异常检测方法
CN112885099A (zh) 用于确定车辆轨迹关键点的方法、装置及设备
Moosavi et al. Characterizing driving context from driver behavior
CN110727740B (zh) 关联分析方法及装置、计算机设备与可读介质
CN102855635A (zh) 确定人体动作周期及识别人体动作的方法和装置
CN115100739A (zh) 人机行为检测方法、***、终端设备及存储介质
Chen et al. A travel mode identification framework based on cellular signaling data
CN117455237A (zh) 一种基于多源数据的道路交通事故风险预测方法
CN114398462B (zh) 一种基于多源异构信息网络的目的地推荐方法及***
Zhang et al. Rcivmm: A route choice-based interactive voting map matching approach for complex urban road networks
Wang et al. Accurate Detection of Road Network Anomaly by Understanding Crowd's Driving Strategies from Human Mobility
CN113160565B (zh) 一种***辆的识别方法、装置、存储介质及终端
CN113032774B (zh) 异常检测模型的训练方法、装置、设备及计算机存储介质
CN114003674A (zh) 双录地址确定方法、装置、设备及存储介质
CN114169247A (zh) 仿真交通流的生成方法、装置、设备和计算机可读存储介质
CN112633592A (zh) 基于机器学习聚类算法的车辆常跑路线计算方法及***
CN112884190A (zh) 一种流量预测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant