CN113988203A - 一种基于深度学习的轨迹序列聚类方法 - Google Patents
一种基于深度学习的轨迹序列聚类方法 Download PDFInfo
- Publication number
- CN113988203A CN113988203A CN202111298174.7A CN202111298174A CN113988203A CN 113988203 A CN113988203 A CN 113988203A CN 202111298174 A CN202111298174 A CN 202111298174A CN 113988203 A CN113988203 A CN 113988203A
- Authority
- CN
- China
- Prior art keywords
- clustering
- sequence
- track
- trajectory
- cluster
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及数据挖掘领域,具体涉及一种基于深度学习的轨迹序列聚类方法,包括以下步骤:步骤1,预训练层:使用序列到序列的自编码器模型,学习轨迹数据的低维特征表示;步骤2,初始聚类层:对预训练层获得的轨迹特征表示执行多次K‑Means聚类算法,并选择最优聚类结果中的聚类中心作为初始的簇中心。步骤3,联合训练优化层:联合轨迹聚类和深度特征提取方法,提出结合序列到序列自编码器模型重构误差和聚类误差的优化损失函数,将轨迹特征表示映射到更加适合聚类的特征空间。
Description
技术领域
本发明涉及数据挖掘领域,具体涉及一种基于深度学习的轨迹序列聚类方法。
背景技术
轨迹间的相似性度量是时空轨迹聚类方法的基础,大多数轨迹聚类算法将完整的轨迹拆分为段或组,并采用点匹配的方式或自定义的策略比较轨迹间的相似性,再使用广泛流行的聚类算法将相似的轨迹对象聚集为簇,这种聚类方式的准确性有待提高。深度学习的发展使得学习复杂的输入序列的特征表示成为可能,可以被应用于轨迹聚类领域来学习更加适合聚类的非线性特征表示,并获得准确性更高的聚类结果。
发明内容
为了解决现有技术中存在的上述技术问题,本发明提出了一种基于深度学习的轨迹序列聚类方法,其具体技术方案如下:
一种基于深度学习的轨迹序列聚类方法,包括如下步骤:
步骤1,预训练层:使用序列到序列的自编码器模型,学习轨迹数据的低维特征表示;
步骤2,初始聚类层:对预训练层获得的轨迹特征表示执行多次K-Means聚类算法,并选择最优聚类结果中的聚类中心作为初始的簇中心;
步骤3,联合训练优化层:联合轨迹聚类和深度特征提取方法,提出结合序列到序列自编码器模型重构误差和聚类误差的优化损失函数,将轨迹特征表示映射到更加适合聚类的特征空间,并端到端获得聚类结果。
进一步的,所述步骤1,具体包括以下步骤:
步骤1.1,首先,将轨迹数据点映射到各个大小相等的空间格网,并把每个网格视为离散标记;
步骤1.2,接着,使用序列到序列的自编码器模型,将轨迹序列嵌入到可以反映其潜在路径信息的特征空间中,提取代表轨迹数据真实路径的低维向量,向量的学习方法对于非均匀、低采样率和包含噪声的轨迹数据集具有鲁棒性。
进一步的,所述步骤1.1具体为:将研究区域划分为大小相等的空间网格并把每个网格视为离散的标记,落入相同网格的轨迹点可以用同一标记来表示,这些网格视为自然语言处理中的token,每个网格都有唯一的标识,所有网格的集合组成了词汇表V。
进一步的,所述步骤1.2具体为:预训练层使用序列到序列的自编码器模型学习轨迹数据的低维特征表示,该模型的训练等效于最小化重构轨迹特征分布Py和原始轨迹分布Pr之间的KL散度,即KL(Pr||Py),对于给定的轨迹,训练的目标函数如下:
进一步的,所述步骤2具体为:
所述K-Means聚类算法的损失函数表示为:
式中,zi是通过预训练阶段学习到的轨迹特征,μk是簇中心,sik是一个布尔型变量,如果μk是离zi最近的簇中心,则sik为1,否则sik为0;选择softmax函数对公式(3)进行连续化表示,对于给定的特征zi,聚类损失函数采用以下形式表示,所有参数都是可导的:
其中,||·||2代表欧几里得距离,σ决定聚类是硬分配还是软分配,具体地,当σ为0时,zi到所有簇中心的权重都相等,属于软分配聚类,当σ为+∞时,相当于在嵌入空间中执行K-Means算法,属于硬分配聚类,考虑到簇中心之间应保持一定距离,提出了簇中心距离损失函数,定义为:
式中,μi和μj代表不同的簇中心,通常计算归一化后的值;
因此,数据集中所有轨迹数据的最终聚类损失函数为:
是由参数γ权衡的公式(4)和(5)的误差和,N是数据集中轨迹的总数。
进一步的,所述步骤3的联合训练优化的目标函数为:
L=αLr+βLc (7)
式中,Lr是序列到序列的自编码器模型输出的重构轨迹特征与原始轨迹数据的误差,Lc是嵌入空间中的K-Means聚类损失,α和β是权衡重构误差和聚类误差的比例因子,决定学习到的轨迹特征表示更加逼近于原始轨迹数据还是更适合聚类。
附图说明
图1是本发明的基于深度学习的轨迹序列聚类方法的整体流程示意图;
图2是本发明的基于深度学习的轨迹序列聚类方法的步骤3的伪代码示意图;
图3(a)-3(c)是为证明本发明的基于深度学习的轨迹序列聚类方法有效性用到的数据原始图;
图4是本发明的基于深度学习的轨迹序列聚类方法和相关方法聚类结果对比图。
具体实施方式
为了使本发明的目的、技术方案和技术效果更加清楚明白,以下结合说明书附图和实施例,对本发明作进一步详细说明。
如图1所示,本发明的一种基于深度学习的轨迹序列聚类方法,利用深度学习对序列数据的非线性特征提取能力学习轨迹数据的特征表示并作为聚类对象,无需使用成对的点匹配方法计算轨迹间的相似性,不仅可以获得固定长度且适合聚类的轨迹特征表示,还可以在同一框架中端到端获得聚类结果,具体的,包括如下步骤:
步骤1,首先将轨迹数据点映射到空间格网,再将这些网格视为序列到序列的自编码器模型中的离散标记,并通过嵌入层转换为向量;接着,使用序列到序列的自编码器模型,将轨迹序列嵌入到可以反映其潜在路径信息的特征空间中。
具体地,首先将研究区域划分为大小相等的空间网格并把每个网格视为离散的标记,落入相同网格的轨迹点可以用同一标记来表示。这些网格视为自然语言处理中的token,每个网格都有唯一的标识,所有网格的集合组成了词汇表V。
接着,基于序列到序列的自编码器模型学习轨迹数据的低维特征表示。对于给定的轨迹x,为了找到其最可能的真实路径r,从而学习低采样率和含有噪声的轨迹特征表示,预期模型应使条件概率P(r|x)最大化。
本发明使用高采样率的轨迹来代替真实轨迹,将低采样率的轨迹作为模型输入。具体而言,假设xa和xb为真实轨迹r的两条采样轨迹,其中xa的采样率较低,而xb的采样率较高,具有相对更高采样率的轨迹xb更接近于它们的真实轨迹r。因此,可以将最大化P(r|x)的目标替换为最大化P(xb|xa),基于序列到序列的自编码器模型使用编码器学习xa的嵌入式表示v,再使用解码器基于特征v来尝试恢复其对应的更高采样率的轨迹xb。基于以上分析,给定获取的采样轨迹集合对每一条采样轨迹xb进行下采样以创建成对的{xa,xb}组合,使用序列到序列的自编码器模型最大化所有的{xa,xb}组的联合概率:
由于KL散度函数可以表示两个概率分布之间的差异,本发明使用KL散度来比较重构的轨迹特征y和真实轨迹r之间的差距。预训练层基于序列到序列的自编码器模型的训练可以等效于最小化重构轨迹特征分布Py和原始轨迹分布Pr之间的KL散度,即KL(Pr||Fp)。对于给定的轨迹x,训练的目标函数如下:
其中,是在轨迹x输入模型后重构的轨迹特征yt的分布,是rt的空间邻近分布,用于yt的解码过程。假设网格g属于词汇表V,它的权重与其到目标网格yt的空间距离呈反比。因此,越接近yt的网格被赋予更大的权重。此外,由于大多数网格离rt都很远,只有较小的权重,因此只需提前计算离rt最近的K个网格的权重以减少网络训练的成本,记为NK(rt)。||·||2代表网格质心坐标之间的欧几里得距离,θ是控制r分布的距离比例参数。对于一个给定的数据集,总的重构损失是数据集中所有轨迹对象在公式(2)中误差的累加和,记为其中N是数据集的大小。
步骤2,对预训练层获得的轨迹特征执行多次K-Means聚类算法,并选择最优聚类结果中的聚类中心作为初始的簇中心。K-Means聚类算法的损失函数表示为:
式中,zi是通过预训练阶段学习到的轨迹特征,μk是簇中心,sik是一个布尔型变量。如果μk是离zi最近的簇中心,则sik为1,否则sik为0。本发明选择softmax函数对公式(3)进行连续化表示。对于给定的特征zi,聚类损失函数可以采用以下形式表示,所有参数都是可导的:
其中,||·||2代表欧几里得距离,σ决定聚类是硬分配或是软分配。具体地,当σ为0时,zi到所有簇中心的权重都相等,属于软分配聚类。当σ为+∞时,相当于在嵌入空间中执行K-Means算法,属于硬分配聚类。考虑到簇中心之间应保持一定距离,本发明提出了簇中心距离损失函数,定义为:
式中,μi和μj代表不同的簇中心,通常计算归一化后的值。数据集中所有轨迹数据的最终聚类损失函数见公式(6),是由参数γ权衡的公式(4)和(5)的误差和,N是数据集中轨迹的总数。
步骤3,利用深度学习技术提取复杂序列数据特征表达的能力,结合序列到序列的自编码器模型和K-Means聚类算法的优点,对预训练阶段获取的初始轨迹特征进行优化训练,以学习更加适合聚类的轨迹特征表示。联合训练优化的目标函数定义为:
L=αLr+βLc (7)
式中,Lr是序列到序列的自编码器模型输出的重构轨迹特征与原始轨迹数据的误差,Lc是嵌入空间中的K-Means聚类损失,α和β是权衡重构误差和聚类误差的比例因子,决定学习到的轨迹特征表示更加逼近于原始轨迹数据还是更适合聚类。在训练过程中利用反向传播算法来有效解决结果优化问题。在训练结束后,可以获得长度固定且更适合聚类的轨迹特征表示以及相应的簇中心。
联合训练优化的伪代码如图2所示。步骤3的算法的输入包括:预训练阶段获得的序列到序列的自编码器模型网络的权重,即联合训练中自编码器网络的初始参数w0;对预训练阶段学习到的轨迹特征向量执行K-Means聚类算法,将聚类结果的簇中心作为初始簇中心μ0;训练迭代次数(Epoch)M;随机梯度下降的批大小(Mini-batch)N。算法的输出为:训练好的序列到序列的自编码器模型权重w,簇中心μ以及聚类分配。
本发明利用三个数据集验证提出的深度轨迹聚类方法的有效性,包括模拟数据集D1,如图3(a)所示,计算机视觉机器人研究(Computer Vision Robotics Research,CVRR)数据集中的公共交通路口轨迹数据即数据集D2,如图3(b)所示,以及CVRR数据集中的人类行走轨迹数据即数据集D3,如图3(c)所示。
为了定量比较本发明提出方法和其他算法聚类结果的质量,使用归一化互信息(Normalized Mutual Information,NMI)和调整兰德指数(Adjusted Rand Index,ARI)两个指标进行评估。指标的值在[0,1]范围,越接近于1代表聚类结果越准确。为了验证提出算法的有效性,选取深度轨迹特征提取的代表性算法T2VEC和广泛流行的传统轨迹聚类方法LCSS、EDR和DTW作为对比模型。本发明对获得的轨迹相似性矩阵或学习到的轨迹特征统一使用K-Means聚类算法执行10次聚类,并计算NMI和ARI指标的均值和标准差。对于本发明提出的方法,在网络训练结束后可以直接端到端获得聚类结果。如表1所示,本发明提出的方法在三个数据集上均获得了最高的NMI和ARI指数,具有最高的聚类质量。
表1本发明提出方法和相关方法的聚类结果
以数据集D1为例说明本方法提出的方法和其他对比方法的聚类结果差异,如图4所示,可以看到,本发明提出的方法对10个簇进行了更准确的区分。
以上所述,仅为本发明的优选实施案例,并非对本发明做任何形式上的限制。虽然前文对本发明的实施过程进行了详细说明,对于熟悉本领域的人员来说,其依然可以对前述各实例记载的技术方案进行修改,或者对其中部分技术特征进行同等替换。凡在本发明精神和原则之内所做修改、同等替换等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种基于深度学习的轨迹序列聚类方法,其特征在于,包括如下步骤:
步骤1,预训练层:使用序列到序列的自编码器模型,学习轨迹数据的低维特征表示;
步骤2,初始聚类层:对预训练层获得的轨迹特征表示执行多次K-Means聚类算法,并选择最优聚类结果中的聚类中心作为初始的簇中心;
步骤3,联合训练优化层:联合轨迹聚类和深度特征提取方法,提出结合序列到序列自编码器模型重构误差和聚类误差的优化损失函数,将轨迹特征表示映射到更加适合聚类的特征空间,并端到端获得聚类结果。
2.如权利要求1所述的一种基于深度学习的轨迹序列聚类方法,其特征在于,所述步骤1,具体包括以下步骤:
步骤1.1,首先,将轨迹数据点映射到各个大小相等的空间格网,并把每个网格视为离散标记;
步骤1.2,接着,使用序列到序列的自编码器模型,将轨迹序列嵌入到可以反映其潜在路径信息的特征空间中,提取代表轨迹数据真实路径的低维向量。
3.如权利要求2所述的一种基于深度学习的轨迹序列聚类方法,其特征在于,所述步骤1.1具体为:将研究区域划分为大小相等的空间网格并把每个网格视为离散的标记,落入相同网格的轨迹点可以用同一标记来表示,这些网格视为自然语言处理中的token,每个网格都有唯一的标识,所有网格的集合组成了词汇表V。
5.如权利要求4所述的一种基于深度学习的轨迹序列聚类方法,其特征在于,所述步骤2具体为:
所述K-Means聚类算法的损失函数表示为:
式中,zi是通过预训练阶段学习到的轨迹特征,μk是簇中心,sik是一个布尔型变量,如果μk是离zi最近的簇中心,则sik为1,否则sik为0;选择softmax函数对公式(3)进行连续化表示,对于给定的特征zi,聚类损失函数采用以下形式表示,所有参数都是可导的:
其中,‖·‖2代表欧几里得距离,σ决定聚类是硬分配还是软分配,具体地,当σ为0时,zi到所有簇中心的权重都相等,属于软分配聚类,当σ为+∞时,相当于在嵌入空间中执行K-Means算法,属于硬分配聚类,考虑到簇中心之间应保持一定距离,提出了簇中心距离损失函数,定义为:
式中,μi和μj代表不同的簇中心,通常计算归一化后的值;
因此,数据集中所有轨迹数据的最终聚类损失函数为:
是由参数γ权衡的公式(4)和(5)的误差和,N是数据集中轨迹的总数。
6.如权利要求1所述的一种基于深度学习的轨迹序列聚类方法,其特征在于,所述步骤3的联合训练优化的目标函数为:
L=αLr+βLc (7)
式中,Lr是序列到序列的自编码器模型输出的重构轨迹特征与原始轨迹数据的误差,Lc是嵌入空间中的K-Means聚类损失,α和β是权衡重构误差和聚类误差的比例因子,决定学习到的轨迹特征表示更加逼近于原始轨迹数据还是更适合聚类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111298174.7A CN113988203A (zh) | 2021-11-01 | 2021-11-01 | 一种基于深度学习的轨迹序列聚类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111298174.7A CN113988203A (zh) | 2021-11-01 | 2021-11-01 | 一种基于深度学习的轨迹序列聚类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113988203A true CN113988203A (zh) | 2022-01-28 |
Family
ID=79746352
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111298174.7A Pending CN113988203A (zh) | 2021-11-01 | 2021-11-01 | 一种基于深度学习的轨迹序列聚类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113988203A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114637931A (zh) * | 2022-03-29 | 2022-06-17 | 北京工业大学 | 基于流形上序列子空间聚类的出行模式检测方法 |
WO2023029461A1 (zh) * | 2021-08-31 | 2023-03-09 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 海量高维ais轨迹数据聚类方法 |
CN115952364A (zh) * | 2023-03-07 | 2023-04-11 | 之江实验室 | 一种路线推荐的方法、装置、存储介质及电子设备 |
CN114462548B (zh) * | 2022-02-23 | 2023-07-18 | 曲阜师范大学 | 一种提高单细胞深度聚类算法精度的方法 |
CN117688257A (zh) * | 2024-01-29 | 2024-03-12 | 东北大学 | 一种面向异构用户行为模式的长期轨迹预测方法 |
-
2021
- 2021-11-01 CN CN202111298174.7A patent/CN113988203A/zh active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023029461A1 (zh) * | 2021-08-31 | 2023-03-09 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 海量高维ais轨迹数据聚类方法 |
CN114462548B (zh) * | 2022-02-23 | 2023-07-18 | 曲阜师范大学 | 一种提高单细胞深度聚类算法精度的方法 |
CN114637931A (zh) * | 2022-03-29 | 2022-06-17 | 北京工业大学 | 基于流形上序列子空间聚类的出行模式检测方法 |
CN114637931B (zh) * | 2022-03-29 | 2024-04-02 | 北京工业大学 | 基于流形上序列子空间聚类的出行模式检测方法 |
CN115952364A (zh) * | 2023-03-07 | 2023-04-11 | 之江实验室 | 一种路线推荐的方法、装置、存储介质及电子设备 |
CN115952364B (zh) * | 2023-03-07 | 2023-05-23 | 之江实验室 | 一种路线推荐的方法、装置、存储介质及电子设备 |
CN117688257A (zh) * | 2024-01-29 | 2024-03-12 | 东北大学 | 一种面向异构用户行为模式的长期轨迹预测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109145939B (zh) | 一种小目标敏感的双通道卷积神经网络语义分割方法 | |
CN113988203A (zh) | 一种基于深度学习的轨迹序列聚类方法 | |
CN112257341B (zh) | 一种基于异源数据差补融合的定制产品性能预测方法 | |
CN107229904A (zh) | 一种基于深度学习的目标检测与识别方法 | |
CN111681178B (zh) | 一种基于知识蒸馏的图像去雾方法 | |
CN111325750B (zh) | 一种基于多尺度融合u型链神经网络的医学图像分割方法 | |
CN107705556A (zh) | 一种基于支持向量机和bp神经网络结合的交通流预测方法 | |
CN111860528B (zh) | 基于改进U-Net网络的图像分割模型及训练方法 | |
CN112464004A (zh) | 一种多视角深度生成图像聚类方法 | |
CN112115967B (zh) | 一种基于数据保护的图像增量学习方法 | |
CN109783887A (zh) | 一种面向三维加工特征的智能识别与检索方法 | |
CN114841257A (zh) | 一种基于自监督对比约束下的小样本目标检测方法 | |
CN113032613B (zh) | 一种基于交互注意力卷积神经网络的三维模型检索方法 | |
CN105678790B (zh) | 基于可变高斯混合模型的高分辨率遥感影像监督分割方法 | |
CN113344113A (zh) | 一种基于改进k-means聚类的Yolov3锚框确定方法 | |
CN115311502A (zh) | 基于多尺度双流架构的遥感图像小样本场景分类方法 | |
CN115393632A (zh) | 一种基于进化多目标神经网络架构构造的图像分类方法 | |
CN115937693A (zh) | 一种基于遥感图像的道路识别方法及*** | |
CN114723784A (zh) | 一种基于域适应技术的行人运动轨迹预测方法 | |
CN107578448A (zh) | 基于cnn的无标定曲面所包含拼接曲面个数识别方法 | |
CN112101461B (zh) | 一种基于hrtf-pso-fcm的无人机侦察视觉信息可听化方法 | |
CN117034060A (zh) | 基于ae-rcnn的洪水分级智能预报方法 | |
CN113128446A (zh) | 一种基于信念图增强网络的人体姿态估计方法 | |
CN110555853B (zh) | 基于解剖学先验的分割算法评估的方法和装置 | |
CN107133348A (zh) | 大规模图片集中基于语义一致性的近似搜索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |