CN113988203A

CN113988203A - 一种基于深度学习的轨迹序列聚类方法

Info

Publication number: CN113988203A
Application number: CN202111298174.7A
Authority: CN
Inventors: 王超; 汪愿愿; 罗实; 王永恒; 傅四维; 董子铭
Original assignee: Zhejiang University ZJU; Zhejiang Lab
Current assignee: Zhejiang University ZJU; Zhejiang Lab
Priority date: 2021-11-01
Filing date: 2021-11-01
Publication date: 2022-01-28

Abstract

本发明涉及数据挖掘领域，具体涉及一种基于深度学习的轨迹序列聚类方法，包括以下步骤：步骤1，预训练层：使用序列到序列的自编码器模型，学习轨迹数据的低维特征表示；步骤2，初始聚类层：对预训练层获得的轨迹特征表示执行多次K‑Means聚类算法，并选择最优聚类结果中的聚类中心作为初始的簇中心。步骤3，联合训练优化层：联合轨迹聚类和深度特征提取方法，提出结合序列到序列自编码器模型重构误差和聚类误差的优化损失函数，将轨迹特征表示映射到更加适合聚类的特征空间。

Description

一种基于深度学习的轨迹序列聚类方法

技术领域

本发明涉及数据挖掘领域，具体涉及一种基于深度学习的轨迹序列聚类方法。

背景技术

轨迹间的相似性度量是时空轨迹聚类方法的基础，大多数轨迹聚类算法将完整的轨迹拆分为段或组，并采用点匹配的方式或自定义的策略比较轨迹间的相似性，再使用广泛流行的聚类算法将相似的轨迹对象聚集为簇，这种聚类方式的准确性有待提高。深度学习的发展使得学习复杂的输入序列的特征表示成为可能，可以被应用于轨迹聚类领域来学习更加适合聚类的非线性特征表示，并获得准确性更高的聚类结果。

发明内容

为了解决现有技术中存在的上述技术问题，本发明提出了一种基于深度学习的轨迹序列聚类方法，其具体技术方案如下：

一种基于深度学习的轨迹序列聚类方法，包括如下步骤：

步骤1，预训练层：使用序列到序列的自编码器模型，学习轨迹数据的低维特征表示；

步骤2，初始聚类层：对预训练层获得的轨迹特征表示执行多次K-Means聚类算法，并选择最优聚类结果中的聚类中心作为初始的簇中心；

步骤3，联合训练优化层：联合轨迹聚类和深度特征提取方法，提出结合序列到序列自编码器模型重构误差和聚类误差的优化损失函数，将轨迹特征表示映射到更加适合聚类的特征空间，并端到端获得聚类结果。

进一步的，所述步骤1，具体包括以下步骤：

步骤1.1，首先，将轨迹数据点映射到各个大小相等的空间格网，并把每个网格视为离散标记；

步骤1.2，接着，使用序列到序列的自编码器模型，将轨迹序列嵌入到可以反映其潜在路径信息的特征空间中，提取代表轨迹数据真实路径的低维向量，向量的学习方法对于非均匀、低采样率和包含噪声的轨迹数据集具有鲁棒性。

进一步的，所述步骤1.1具体为：将研究区域划分为大小相等的空间网格并把每个网格视为离散的标记，落入相同网格的轨迹点可以用同一标记来表示，这些网格视为自然语言处理中的token，每个网格都有唯一的标识，所有网格的集合组成了词汇表V。

进一步的，所述步骤1.2具体为：预训练层使用序列到序列的自编码器模型学习轨迹数据的低维特征表示，该模型的训练等效于最小化重构轨迹特征分布P_y和原始轨迹分布P_r之间的KL散度，即KL(P_r||P_y)，对于给定的轨迹，训练的目标函数如下：

其中，

是在轨迹输入模型后重构的轨迹特征y_t的分布，

是原始轨迹r_t的空间邻近分布，用于y_t的解码过程，||·||₂代表网格质心坐标之间的欧几里得距离，θ是控制原始轨迹r分布的距离比例参数；

因此对于一个给定的数据集，总的重构损失是数据集中所有轨迹对象在公式(2)中误差的累加和，记为

其中N是数据集的大小。

进一步的，所述步骤2具体为：

所述K-Means聚类算法的损失函数表示为：

式中，z_i是通过预训练阶段学习到的轨迹特征，μ_k是簇中心，s_ik是一个布尔型变量，如果μ_k是离z_i最近的簇中心，则s_ik为1，否则s_ik为0；选择softmax函数对公式(3)进行连续化表示，对于给定的特征z_i，聚类损失函数采用以下形式表示，所有参数都是可导的：

其中，||·||₂代表欧几里得距离，σ决定聚类是硬分配还是软分配，具体地，当σ为0时，z_i到所有簇中心的权重都相等，属于软分配聚类，当σ为+∞时，相当于在嵌入空间中执行K-Means算法，属于硬分配聚类，考虑到簇中心之间应保持一定距离，提出了簇中心距离损失函数，定义为：

式中，μ_i和μ_j代表不同的簇中心，通常计算归一化后的值；

因此，数据集中所有轨迹数据的最终聚类损失函数为：

是由参数γ权衡的公式(4)和(5)的误差和，N是数据集中轨迹的总数。

进一步的，所述步骤3的联合训练优化的目标函数为：

L＝αL_r+βL_c (7)

式中，L_r是序列到序列的自编码器模型输出的重构轨迹特征与原始轨迹数据的误差，L_c是嵌入空间中的K-Means聚类损失，α和β是权衡重构误差和聚类误差的比例因子，决定学习到的轨迹特征表示更加逼近于原始轨迹数据还是更适合聚类。

附图说明

图1是本发明的基于深度学习的轨迹序列聚类方法的整体流程示意图；

图2是本发明的基于深度学习的轨迹序列聚类方法的步骤3的伪代码示意图；

图3(a)-3(c)是为证明本发明的基于深度学习的轨迹序列聚类方法有效性用到的数据原始图；

图4是本发明的基于深度学习的轨迹序列聚类方法和相关方法聚类结果对比图。

具体实施方式

为了使本发明的目的、技术方案和技术效果更加清楚明白，以下结合说明书附图和实施例，对本发明作进一步详细说明。

如图1所示，本发明的一种基于深度学习的轨迹序列聚类方法，利用深度学习对序列数据的非线性特征提取能力学习轨迹数据的特征表示并作为聚类对象，无需使用成对的点匹配方法计算轨迹间的相似性，不仅可以获得固定长度且适合聚类的轨迹特征表示，还可以在同一框架中端到端获得聚类结果，具体的，包括如下步骤：

步骤1，首先将轨迹数据点映射到空间格网，再将这些网格视为序列到序列的自编码器模型中的离散标记，并通过嵌入层转换为向量；接着，使用序列到序列的自编码器模型，将轨迹序列嵌入到可以反映其潜在路径信息的特征空间中。

具体地，首先将研究区域划分为大小相等的空间网格并把每个网格视为离散的标记，落入相同网格的轨迹点可以用同一标记来表示。这些网格视为自然语言处理中的token，每个网格都有唯一的标识，所有网格的集合组成了词汇表V。

接着，基于序列到序列的自编码器模型学习轨迹数据的低维特征表示。对于给定的轨迹x，为了找到其最可能的真实路径r，从而学习低采样率和含有噪声的轨迹特征表示，预期模型应使条件概率P(r|x)最大化。

本发明使用高采样率的轨迹来代替真实轨迹，将低采样率的轨迹作为模型输入。具体而言，假设x_a和x_b为真实轨迹r的两条采样轨迹，其中x_a的采样率较低，而x_b的采样率较高，具有相对更高采样率的轨迹x_b更接近于它们的真实轨迹r。因此，可以将最大化P(r|x)的目标替换为最大化P(x_b|x_a)，基于序列到序列的自编码器模型使用编码器学习x_a的嵌入式表示v，再使用解码器基于特征v来尝试恢复其对应的更高采样率的轨迹x_b。基于以上分析，给定获取的采样轨迹集合

对每一条采样轨迹x_b进行下采样以创建成对的{x_a，x_b}组合，使用序列到序列的自编码器模型最大化所有的{x_a，x_b}组的联合概率：

由于KL散度函数可以表示两个概率分布之间的差异，本发明使用KL散度来比较重构的轨迹特征y和真实轨迹r之间的差距。预训练层基于序列到序列的自编码器模型的训练可以等效于最小化重构轨迹特征分布P_y和原始轨迹分布P_r之间的KL散度，即KL(P_r||F_p)。对于给定的轨迹x，训练的目标函数如下：

其中，

是在轨迹x输入模型后重构的轨迹特征y_t的分布，

是r_t的空间邻近分布，用于y_t的解码过程。假设网格g属于词汇表V，它的权重与其到目标网格y_t的空间距离呈反比。因此，越接近y_t的网格被赋予更大的权重。此外，由于大多数网格离r_t都很远，只有较小的权重，因此只需提前计算离r_t最近的K个网格的权重以减少网络训练的成本，记为N_K(r_t)。||·||₂代表网格质心坐标之间的欧几里得距离，θ是控制r分布的距离比例参数。对于一个给定的数据集，总的重构损失是数据集中所有轨迹对象在公式(2)中误差的累加和，记为

其中N是数据集的大小。

步骤2，对预训练层获得的轨迹特征执行多次K-Means聚类算法，并选择最优聚类结果中的聚类中心作为初始的簇中心。K-Means聚类算法的损失函数表示为：

式中，z_i是通过预训练阶段学习到的轨迹特征，μ_k是簇中心，s_ik是一个布尔型变量。如果μ_k是离z_i最近的簇中心，则s_ik为1，否则s_ik为0。本发明选择softmax函数对公式(3)进行连续化表示。对于给定的特征z_i，聚类损失函数可以采用以下形式表示，所有参数都是可导的：

其中，||·||₂代表欧几里得距离，σ决定聚类是硬分配或是软分配。具体地，当σ为0时，z_i到所有簇中心的权重都相等，属于软分配聚类。当σ为+∞时，相当于在嵌入空间中执行K-Means算法，属于硬分配聚类。考虑到簇中心之间应保持一定距离，本发明提出了簇中心距离损失函数，定义为：

式中，μ_i和μ_j代表不同的簇中心，通常计算归一化后的值。数据集中所有轨迹数据的最终聚类损失函数见公式(6)，是由参数γ权衡的公式(4)和(5)的误差和，N是数据集中轨迹的总数。

步骤3，利用深度学习技术提取复杂序列数据特征表达的能力，结合序列到序列的自编码器模型和K-Means聚类算法的优点，对预训练阶段获取的初始轨迹特征进行优化训练，以学习更加适合聚类的轨迹特征表示。联合训练优化的目标函数定义为：

L＝αL_r+βL_c (7)

式中，L_r是序列到序列的自编码器模型输出的重构轨迹特征与原始轨迹数据的误差，L_c是嵌入空间中的K-Means聚类损失，α和β是权衡重构误差和聚类误差的比例因子，决定学习到的轨迹特征表示更加逼近于原始轨迹数据还是更适合聚类。在训练过程中利用反向传播算法来有效解决结果优化问题。在训练结束后，可以获得长度固定且更适合聚类的轨迹特征表示以及相应的簇中心。

联合训练优化的伪代码如图2所示。步骤3的算法的输入包括：预训练阶段获得的序列到序列的自编码器模型网络的权重，即联合训练中自编码器网络的初始参数w₀；对预训练阶段学习到的轨迹特征向量执行K-Means聚类算法，将聚类结果的簇中心作为初始簇中心μ₀；训练迭代次数(Epoch)M；随机梯度下降的批大小(Mini-batch)N。算法的输出为：训练好的序列到序列的自编码器模型权重w，簇中心μ以及聚类分配。

本发明利用三个数据集验证提出的深度轨迹聚类方法的有效性，包括模拟数据集D₁，如图3(a)所示，计算机视觉机器人研究(Computer Vision Robotics Research，CVRR)数据集中的公共交通路口轨迹数据即数据集D₂，如图3(b)所示，以及CVRR数据集中的人类行走轨迹数据即数据集D₃，如图3(c)所示。

为了定量比较本发明提出方法和其他算法聚类结果的质量，使用归一化互信息(Normalized Mutual Information，NMI)和调整兰德指数(Adjusted Rand Index，ARI)两个指标进行评估。指标的值在[0，1]范围，越接近于1代表聚类结果越准确。为了验证提出算法的有效性，选取深度轨迹特征提取的代表性算法T2VEC和广泛流行的传统轨迹聚类方法LCSS、EDR和DTW作为对比模型。本发明对获得的轨迹相似性矩阵或学习到的轨迹特征统一使用K-Means聚类算法执行10次聚类，并计算NMI和ARI指标的均值和标准差。对于本发明提出的方法，在网络训练结束后可以直接端到端获得聚类结果。如表1所示，本发明提出的方法在三个数据集上均获得了最高的NMI和ARI指数，具有最高的聚类质量。

表1本发明提出方法和相关方法的聚类结果

以数据集D₁为例说明本方法提出的方法和其他对比方法的聚类结果差异，如图4所示，可以看到，本发明提出的方法对10个簇进行了更准确的区分。

以上所述，仅为本发明的优选实施案例，并非对本发明做任何形式上的限制。虽然前文对本发明的实施过程进行了详细说明，对于熟悉本领域的人员来说，其依然可以对前述各实例记载的技术方案进行修改，或者对其中部分技术特征进行同等替换。凡在本发明精神和原则之内所做修改、同等替换等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度学习的轨迹序列聚类方法，其特征在于，包括如下步骤：

2.如权利要求1所述的一种基于深度学习的轨迹序列聚类方法，其特征在于，所述步骤1，具体包括以下步骤：

步骤1.2，接着，使用序列到序列的自编码器模型，将轨迹序列嵌入到可以反映其潜在路径信息的特征空间中，提取代表轨迹数据真实路径的低维向量。

3.如权利要求2所述的一种基于深度学习的轨迹序列聚类方法，其特征在于，所述步骤1.1具体为：将研究区域划分为大小相等的空间网格并把每个网格视为离散的标记，落入相同网格的轨迹点可以用同一标记来表示，这些网格视为自然语言处理中的token，每个网格都有唯一的标识，所有网格的集合组成了词汇表V。

4.如权利要求2所述的一种基于深度学习的轨迹序列聚类方法，其特征在于，所述步骤1.2具体为：预训练层使用序列到序列的自编码器模型学习轨迹数据的低维特征表示，该模型的训练等效于最小化重构轨迹特征分布P_y和原始轨迹分布P_r之间的KL散度，即KL(P_r||P_y)，对于给定的轨迹，训练的目标函数如下：

其中，

是在轨迹输入模型后重构的轨迹特征y_t的分布，

是原始轨迹r_t的空间邻近分布，用于y_t的解码过程，‖·‖₂代表网格质心坐标之间的欧几里得距离，θ是控制原始轨迹r分布的距离比例参数；

其中N是数据集的大小。

5.如权利要求4所述的一种基于深度学习的轨迹序列聚类方法，其特征在于，所述步骤2具体为：

所述K-Means聚类算法的损失函数表示为：

其中，‖·‖₂代表欧几里得距离，σ决定聚类是硬分配还是软分配，具体地，当σ为0时，z_i到所有簇中心的权重都相等，属于软分配聚类，当σ为+∞时，相当于在嵌入空间中执行K-Means算法，属于硬分配聚类，考虑到簇中心之间应保持一定距离，提出了簇中心距离损失函数，定义为：

因此，数据集中所有轨迹数据的最终聚类损失函数为：

6.如权利要求1所述的一种基于深度学习的轨迹序列聚类方法，其特征在于，所述步骤3的联合训练优化的目标函数为：

L＝αL_r+βL_c (7)