CN115422477B

CN115422477B - 一种轨迹近邻查询***、方法、计算机及存储介质

Info

Publication number: CN115422477B
Application number: CN202211125188.3A
Authority: CN
Inventors: 张丽平; 刘斌毓; 曹文琪
Original assignee: Harbin University of Science and Technology
Current assignee: Harbin University of Science and Technology
Priority date: 2022-09-16
Filing date: 2022-09-16
Publication date: 2023-09-05
Anticipated expiration: 2042-09-16
Also published as: CN115422477A

Abstract

一种轨迹近邻查询***、方法、计算机及存储介质，属于轨迹大数据查询技术领域。本发明包括首先利用POI嵌入方法对轨迹数据进行POI嵌入，得到轨迹的POI嵌入序列和POI嵌入向量矩阵，然后利用POI嵌入向量矩阵和轨迹标签训练轨迹编码器，其次利用训练完毕的轨迹编码器获取轨迹的编码向量表示，根据轨迹的编码向量利用局部敏感哈希函数将轨迹进行哈希分桶，最后将待查询的轨迹输入到训练完毕的轨迹编码器中获取轨迹对应的编码向量表示，根据待查询轨迹的编码向量表示利用局部敏感哈希函数获取其所属的哈希桶，在哈希桶中通过全局扫描的方式寻找到距离待查询轨迹最近的k条轨迹。本发明在大规模轨迹数据查询问题中相比于传统方法准确率更高，查询速度更快。

Description

一种轨迹近邻查询***、方法、计算机及存储介质

技术领域

本发明涉及一种轨迹查询方法，尤其涉及一种大规模轨迹数据近邻查询***、方法、计算机及存储介质，属于轨迹大数据查询技术领域。

背景技术

随着科技的发展，定位技术日趋成熟，基于位置信息的应用在人们的生活中得到了广泛使用。遥感卫星、监控***以及具有GPS(Global Positioning System)和AIS(Automatic Identification System)功能的设备，时刻收集着海量的轨迹数据以改善我们的日常生活，但同时也对技术提出了更高的要求与挑战。通过患者的轨迹数据监测患者的流动，快速地对传染病潜在人员进行追溯；通过用户的轨迹及活动信息，为用户推荐行程参考等。

轨迹数据查询面临以下难点：(1)数据规模庞大，处理耗时；(2)不同的轨迹具有不同的属性，例如长度、形状、采样率等，这对轨迹数据特征提取的有效性提出了挑战；(3)轨迹数据属于时空数据，传统基于索引结构的轨迹表示方法难以捕获其中具有的时空相关性；(4)传统的轨迹数据查询方法在数据量较小时性能良好，但是随着轨迹数量的增加，检索效率会急剧下降。

发明内容

本发明为了克服大规模轨迹数据近邻查询准确率较低且速度较慢的问题，在下文中给出了关于本发明的简要概述，以便提供关于本发明的某些方面的基本理解。应当理解，这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分，也不是意图限定本发明的范围。

本发明提供了一种轨迹近邻查询***，其特征在于，包括POI序列转换模块、POI局部特征提取模块、轨迹语义特征提取模块、轨迹编码向量分桶模块、轨迹查询模块。

所述POI序列转换模块根据轨迹所属区域信息将轨迹转换为POI序列，利用POI嵌入神经网络进一步将轨迹的POI序列表示为POI嵌入向量矩阵。

所述POI局部特征提取模块通过ResNet-18神经网络提取轨迹POI嵌入向量矩阵中的局部区域特征。

所述轨迹语义特征提取模块利用多头自注意力编码器获取轨迹的编码向量。

所述轨迹编码向量分桶模块用于根据轨迹的编码向量通过局部敏感哈希函数对轨迹进行哈希分桶。

所述轨迹查询模块用于根据待查询轨迹的编码向量在相应的哈希桶中进行轨迹k近邻查询，寻找距离待查询轨迹最近的k条轨迹并进行结果输出。

一种轨迹近邻查询方法，其特征在于包括以下步骤：

S1.利用POI嵌入方法对轨迹数据进行POI嵌入，得到轨迹的POI嵌入序列和POI嵌入向量矩阵；

S2.利用轨迹的POI嵌入向量矩阵和轨迹标签训练轨迹编码器；

S3.利用训练完毕的轨迹编码器获取不同轨迹的编码向量表示，根据轨迹的编码向量利用局部敏感哈希函数将不同轨迹进行哈希分桶；

S4.利用训练完毕的轨迹编码器和轨迹的哈希分桶，对待查询的轨迹进行 k近邻轨迹查询。

优选的，步骤S1所述利用POI嵌入方法对轨迹数据进行POI嵌入，得到轨迹的POI嵌入序列和POI嵌入向量矩阵，具体包括以下步骤：

1)初始化轨迹的POI实体序列S为空，轨迹数据前一个轨迹点Last_point 为空；

2)遍历轨迹中的所有轨迹点；

3)如果当前轨迹点属于POI实体A的作用范围且和S中上一个POI实体不同，则将当前POI实体A加入到S中，否则更新当前轨迹点在上一个POI 实体中的滞留时间；

4)重复2)和3)直到生成轨迹的POI实体序列集合S；

5)随机初始化轨迹的POI嵌入向量矩阵

6)对于POI实体集合中的每一个POI实体，随机生成包含POI实体的 POI序列；

7)对于POI实体序列中的每一个POI实体，最大化上下文窗口中不同 POI实体u_k、v_j的共现概率J(Φ)＝-logP(u_k|Φ(v_j))；

8)根据梯度下降算法更新POI嵌入向量矩阵其中α是梯度下降学习率，是人工指定的值。

优选的，步骤S2所述利用轨迹的POI嵌入向量矩阵和轨迹标签训练轨迹编码器，训练过程包括以下步骤：

1)通过步骤S1获取到轨迹的POI嵌入向量矩阵，将POI嵌入向量矩阵输入到ResNet-18神经网络中获取POI嵌入向量矩阵7×7×2048维度的特征图；

2)将7×7×2048维度的特征图进行序列矩阵嵌入，计算公式为其中A为ResNet-18输出的特征图，C为特征图的通道数，H,W分别是特征图的高和宽，W^se是特征图的序列嵌入矩阵；

3)将轨迹的序列嵌入矩阵输入到轨迹语义捕获层进行轨迹高层语义特征提取，轨迹高层语义特征提取过程如下：令Q,K,V表示特征图序列嵌入矩阵通过自注意变换得到的查询矩阵、键矩阵、值矩阵，其中自注意变换计算公式为：

其中W^Q,W^K,W^V是可学习的网络参数，映射到第i个特征空间中的矩阵为：

其中分别是查询矩阵、键矩阵、值矩阵在第i个特征空间中可学习的投影矩阵；

4)在每个特征空间中计算C次注意力函数，其中第j次计算公式为：

其中q_j是Q_i的第j个行向量，也是当前的查询向量，k_n,v_n是K_i,V_i的第n 个键向量、值向量，s(k_n,q_j)为打分函数，用于衡量键向量和当前查询向量的相似性,计算公式为：

5)将每一次注意力函数的计算结果作为行向量，沿列的维度进行堆叠，形成在第i个特征空间的语义表示矩阵Sⁱ，计算公式为：

Sⁱ＝stack(att((K_i,V_i),q₁),...,att((K_i,V_i),q_C))，

将在h个不同特征空间中的语义表示矩阵Sⁱ逐元素相加，将结果矩阵中的每个行向量沿行的维度进行拼接，形成轨迹编码向量t_i，将不同轨迹进行以上处理，根据不同轨迹的编码向量定义两条轨迹的欧式距离为：

6)将轨迹编码向量输入到SoftMax层进行轨迹标签预测，利用SoftMax 层预测轨迹所属标签：

其中，p_i为当前轨迹属于第i个用户的概率，共有n个用户，z_i为SoftMax 层的第i个输入；

7)计算轨迹编码器对当前轨迹的预测用户标签和轨迹的真实用户标签之间的交叉熵分类损失：其中，y为当前轨迹的真实用户标签，/>是轨迹编码器对于当前轨迹的预测用户标签；

8)利用反向传播算法，随机梯度下降优化算法更新轨迹编码器中的参数；

9)重复步骤1)至步骤8)，直到轨迹编码器中的可学习网络参数收敛。

优选的，步骤S3所述利用训练完毕的轨迹编码器获取不同轨迹的编码向量表示，根据轨迹的编码向量利用局部敏感哈希函数将不同轨迹进行哈希分桶，具体过程如下：

1)利用POI嵌入方法对轨迹数据进行POI嵌入，得到轨迹的POI嵌入序列和POI嵌入向量矩阵；

2)将轨迹的POI嵌入向量矩阵输入到训练完毕的轨迹编码器中获取轨迹的编码向量v；

3)将轨迹编码向量输入到局部敏感函数获取轨迹编码向量所属的哈希桶，其中a,b是随机初始化的实数值，w是哈希桶数；

4)遍历所有轨迹，重复步骤2)、3)直到所有轨迹都被分配到相应的哈希桶中。

优选的，步骤S4所述利用训练完毕的轨迹编码器和轨迹的哈希分桶对待查询的轨迹进行k近邻轨迹查询，具体过程如下：

1)将待查询轨迹输入到训练完的轨迹编码器中获取其对应的编码向量；

2)将轨迹编码向量输入到局部敏感哈希函数中，获取待查询轨迹所属的哈希桶h_a,b(v)，其中a,b是随机初始化的实数值，w是哈希桶数；

3)在哈希桶h_a,b(v)中计算待查询轨迹的编码向量和哈希桶中其它轨迹的编码向量的欧式距离；

4)根据欧式距离结果的大小，返回距离待查询轨迹最近的k条轨迹。

本发明具有以下有益效果：

本发明针对轨迹数据冗余信息过多影响处理效率的问题，为了在不损失轨迹数据关键信息的同时能够更加方便的处理轨迹数据，将轨迹转换为POI序列，基于最大化POI上下文窗口序列提出了一种POI实体嵌入方法。针对已有轨迹表示方法忽略了轨迹数据的时空相关性，无法准确提取出轨迹的时空语义特征的问题，基于稀疏多头自注意力机制提出了一种轨迹编码器，利用稀疏多头自注意力机制，获取轨迹不同层次重要的语义特征，将轨迹表示为编码向量，提高了轨迹查询的准确率。针对已有轨迹查询方法在处理大规模轨迹数据时查询速度缓慢的问题，在轨迹编码向量的基础上提出了基于局部敏感哈希函数的轨迹查询方法，利用局部敏感哈希函数将轨迹编码向量分桶，然后再进行查询，可使查询速度几乎不受数据量增长的影响，并可以将其拓展为并行版本。

附图说明

图1是本发明所用的基于稀疏多头自注意力的轨迹编码器的整体示意图。

图2是本发明轨迹编码向量获取的整体流程图。

图3是本发明在GeoLife GPS Trajectories数据集上轨迹查询时间实验结果图。

图4是本发明在GeoLife GPS Trajectories数据集上轨迹查询准确率实验结果图。

图5是本发明所述的***结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面通过附图中示出的具体实施例来描述本发明。但是应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

具体实施方式一：

如图1所示，本发明采用带有稀疏多头自注意力的神经网络进行轨迹的高阶语义特征提取，神经网络的训练包含如下步骤：

2)将7×7×2048维度的特征图进行序列矩阵嵌入，计算公式为其中A为ResNet-18神经网络输出的特征图，C为特征图的通道数，H,W分别是特征图的高和宽，W^se是特征图的序列嵌入矩阵；

4)在每个特征空间中计算C次注意力函数，其中第j次计算公式为。

其中q_j是Q_i的第j个行向量，也是当前的查询向量，k_n,v_n是K_i,V_i的第 n个键向量、值向量，s(k_n,q_j)为打分函数，用于衡量键向量和当前查询向量的相似性,计算公式为：

Sⁱ＝stack(att((K_i,V_i),q₁),...,att((K_i,V_i),q_C))，

将在h个不同特征空间中的语义表示矩阵Sⁱ逐元素相加，将结果矩阵中的每个行向量沿行的维度进行拼接，形成轨迹编码向量t_i,将不同轨迹进行以上处理，根据不同轨迹的编码向量定义两条轨迹的欧式距离为：

具体实施方式二：

下面将具体实施方式一的方法应用于下列实施例中，以体现本发明的技术效果，实施例中具体步骤不再赘述。

本发明在GeoLife GPS Trajectories数据集上验证所提出的方法。GeoLife GPSTrajectories数据集来自微软亚洲研究院的GeoLift项目，该数据集记录了北京182个用户从2007年4月至2012年8月的轨迹信息，包含17621个轨迹点，总距离达129295千米，总时长为50176小时。这些轨迹数据不仅记录了用户在家和在工作地点的位置轨迹，还记录了如运动，购物这些户外大范围活动轨迹，这些轨迹信息来自于GPS记录仪和带有GPS记录的手机，平均记录间隔为1～5 秒或者1～5米，在数据集中每个用户的轨迹数据自成一个文件夹，文件夹中包含以PLT格式存储的轨迹数据，为了避免时区不一致的问题，数据集中统一使用GMT格式进行时间信息记录。该数据集可以用于用户活动相似度估算、移动模型挖掘和位置推荐等。

为了客观地评价本发明方法的性能，本发明使用查询时间及查询准确率作为评价指标来对于本发明的效果进行评价，并且与k近邻查询算法、Geohash 编码查询算法、LR-Tree索引查询算法在所述的数据集上做了对比实验，所得实验结果如附图3、4所示。

本实施方式只是对本专利的示例性说明，并不限定它的保护范围，本领域技术人员还可以对其局部进行改变，只要没有超出本专利的精神实质，都在本专利的保护范围内。

Claims

1.一种轨迹近邻查询***，其特征在于，包括，POI序列转换模块、POI局部特征提取模块、轨迹语义特征提取模块、轨迹编码向量分桶模块、轨迹查询模块；所述POI序列转换模块根据轨迹所属区域信息将轨迹转换为POI序列，利用POI嵌入神经网络进一步将轨迹的POI序列表示为POI嵌入向量矩阵；

所述POI局部特征提取模块通过ResNet-18神经网络提取轨迹POI嵌入向量矩阵中的局部区域特征；

所述轨迹语义特征提取模块利用多头自注意力编码器获取轨迹的编码向量；

所述轨迹编码向量分桶模块用于根据轨迹的编码向量通过局部敏感哈希函数对轨迹进行哈希分桶；

所述轨迹查询模块用于根据待查询轨迹的编码向量在相应的哈希桶中进行轨迹k近邻查询，寻找距离待查询轨迹最近的k条轨迹并进行结果输出；

采用带有稀疏多头自注意力的神经网络进行轨迹的高阶语义特征提取，神经网络的训练包含如下步骤：

2)将7×7×2048维度的特征图进行序列矩阵嵌入，计算公式为W^se＝f(A),其中A为ResNet-18神经网络输出的特征图，C为特征图的通道数，H,W分别是特征图的高和宽，W^se是特征图的序列嵌入矩阵；

Q＝W^se·W^Q,

K＝W^se·W^K,

V＝W^se·W^V,

K_i＝K·W_i ^K,

V_i＝V·W_i ^V,

其中W_i ^K，W_i ^V分别是查询矩阵、键矩阵、值矩阵在第i个特征空间中可学习的投影矩阵；

其中q_j是Q_i的第j个行向量，也是当前的查询向量，k_n,v_n是K_i,V_i的第n个键向量、值向量，s(k_n,q_j)为打分函数，用于衡量键向量和当前查询向量的相似性,计算公式为：

Sⁱ＝stack(att((K_i,V_i),q₁),...,att((K_i,V_i),q_C))，

6)将轨迹编码向量输入到SoftMax层进行轨迹标签预测，利用SoftMax层预测轨迹所属标签：

其中，p_i为当前轨迹属于第i个用户的概率，共有n个用户，z_i为SoftMax层的第i个输入；

2.一种轨迹近邻查询方法，其特征在于包括以下步骤：

S2.利用轨迹的POI嵌入向量矩阵和轨迹标签训练轨迹编码器；

S4.利用训练完毕的轨迹编码器和轨迹的哈希分桶，对待查询的轨迹进行k近邻轨迹查询；

步骤S2中训练方法的具体训练过程包括以下步骤：

S21.通过步骤S1获取到轨迹的POI嵌入向量矩阵，将POI嵌入向量矩阵输入到ResNet-18神经网络中获取POI嵌入向量矩阵7×7×2048维度的特征图；

S22.将7×7×2048维度的特征图进行序列矩阵嵌入，计算公式为W^se＝f(A),其中A为ResNet-18输出的特征图，C为特征图的通道数，H,W分别是特征图的高和宽，W^se是特征图的序列嵌入矩阵；

S23.将轨迹的序列嵌入矩阵输入到轨迹语义捕获层进行轨迹高层语义特征提取，轨迹高层语义特征提取过程如下：令Q,K,V表示特征图序列嵌入矩阵通过自注意变换得到的查询矩阵、键矩阵、值矩阵，其中自注意变换计算公式为：Q＝W^se·W^Q,

K＝W^se·W^K,

V＝W^se·W^V,

Q_i＝Q·W_i ^Q,

K_i＝K·W_i ^K,

V_i＝V·W_i ^V,

S24.在每个特征空间中计算C次注意力函数，其中第j次计算公式为：

S25.将每一次注意力函数的计算结果作为行向量，沿列的维度进行堆叠，形成在第i个特征空间的语义表示矩阵Sⁱ，计算公式为：

Sⁱ＝stack(att((K_i,V_i),q₁),...,att((K_i,V_i),q_C))，

S26.将轨迹编码向量输入到SoftMax层进行轨迹标签预测，利用SoftMax层预测轨迹所属标签：其中，p_i为当前轨迹属于第i个用户的概率，共有n个用户，z_i为SoftMax层的第i个输入；

S27.计算轨迹编码器对当前轨迹的预测用户标签和轨迹的真实用户标签之间的交叉熵分类损失：其中，y为当前轨迹的真实用户标签，/>是轨迹编码器对于当前轨迹的预测用户标签；

S28.利用反向传播算法，随机梯度下降优化算法更新轨迹编码器中的参数；

S29.重复步骤S21至步骤S28，直到轨迹编码器中的可学习网络参数收敛。

3.根据根据权利要求2所述的一种轨迹近邻查询方法，其特征在于：步骤S1所述利用POI嵌入方法对轨迹数据进行POI嵌入，得到轨迹的POI嵌入序列和POI嵌入向量矩阵，具体包括以下步骤：

S11.初始化轨迹的POI实体序列S为空，轨迹数据前一个轨迹点Last_point为空；

S12.遍历轨迹中的所有轨迹点；

S13.如果当前轨迹点属于POI实体A的作用范围且和S中上一个POI实体不同，则将当前POI实体A加入到S中，否则更新当前轨迹点在上一个POI实体中的滞留时间；

S14.重复S12和S13直到生成轨迹的POI实体序列集合S；

S15.随机初始化轨迹的POI嵌入向量矩阵

S16.对于POI实体集合中的每一个POI实体，随机生成包含POI实体的POI序列；

S17.对于POI实体序列中的每一个POI实体，最大化上下文窗口中不同POI实体u_k、v_j的共现概率J(Φ)＝-logP(u_k|Φ(v_j))；

S18.根据梯度下降算法更新POI嵌入向量矩阵其中α是梯度下降学习率，是人工指定的值。

4.根据权利要求2所述的一种轨迹近邻查询方法，其特征在于步骤S3所述利用训练完毕的轨迹编码器获取不同轨迹的编码向量表示，根据轨迹的编码向量利用局部敏感哈希函数将不同轨迹进行哈希分桶，具体过程如下：

S31.利用POI嵌入方法对轨迹数据进行POI嵌入，得到轨迹的POI嵌入序列和POI嵌入向量矩阵；

S32.将轨迹的POI嵌入向量矩阵输入到训练完毕的轨迹编码器中获取轨迹的编码向量v；

S33.将轨迹编码向量输入到局部敏感函数获取轨迹编码向量所属的哈希桶，其中a,b是随机初始化的实数值，w是哈希桶数；

S34.遍历所有轨迹，重复步骤S32、S33直到所有轨迹都被分配到相应的哈希桶中。

5.根据权利要求2所述的一种轨迹近邻查询方法，其特征在于步骤S4所述利用训练完毕的轨迹编码器和轨迹的哈希分桶对待查询的轨迹进行k近邻轨迹查询，具体过程如下：

S41.将待查询轨迹输入到训练完毕的轨迹编码器中获取其对应的编码向量v；

S42.将轨迹编码向量v输入到局部敏感哈希函数中，获取待查询轨迹所属的哈希桶h_a,b(v)，其中a,b是随机初始化的实数值，w是哈希桶数；

S43.在哈希桶h_a,b(v)中计算待查询轨迹的编码向量和哈希桶中其它轨迹的编码向量的欧式距离；

S44.根据欧式距离结果的大小，返回距离待查询轨迹最近的k条轨迹。

6.一种计算机，其特征在于，包括存储器和处理器，存储器存储有计算机程序，所述的处理器执行所述计算机程序时实现权利要求2至5任一项所述的一种轨迹近邻查询方法的步骤。

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求2至5任一项所述的一种轨迹近邻查询方法。