CN115422477B - 一种轨迹近邻查询***、方法、计算机及存储介质 - Google Patents

一种轨迹近邻查询***、方法、计算机及存储介质 Download PDF

Info

Publication number
CN115422477B
CN115422477B CN202211125188.3A CN202211125188A CN115422477B CN 115422477 B CN115422477 B CN 115422477B CN 202211125188 A CN202211125188 A CN 202211125188A CN 115422477 B CN115422477 B CN 115422477B
Authority
CN
China
Prior art keywords
track
poi
matrix
vector
embedding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211125188.3A
Other languages
English (en)
Other versions
CN115422477A (zh
Inventor
张丽平
刘斌毓
曹文琪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin University of Science and Technology
Original Assignee
Harbin University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin University of Science and Technology filed Critical Harbin University of Science and Technology
Priority to CN202211125188.3A priority Critical patent/CN115422477B/zh
Publication of CN115422477A publication Critical patent/CN115422477A/zh
Application granted granted Critical
Publication of CN115422477B publication Critical patent/CN115422477B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种轨迹近邻查询***、方法、计算机及存储介质,属于轨迹大数据查询技术领域。本发明包括首先利用POI嵌入方法对轨迹数据进行POI嵌入,得到轨迹的POI嵌入序列和POI嵌入向量矩阵,然后利用POI嵌入向量矩阵和轨迹标签训练轨迹编码器,其次利用训练完毕的轨迹编码器获取轨迹的编码向量表示,根据轨迹的编码向量利用局部敏感哈希函数将轨迹进行哈希分桶,最后将待查询的轨迹输入到训练完毕的轨迹编码器中获取轨迹对应的编码向量表示,根据待查询轨迹的编码向量表示利用局部敏感哈希函数获取其所属的哈希桶,在哈希桶中通过全局扫描的方式寻找到距离待查询轨迹最近的k条轨迹。本发明在大规模轨迹数据查询问题中相比于传统方法准确率更高,查询速度更快。

Description

一种轨迹近邻查询***、方法、计算机及存储介质
技术领域
本发明涉及一种轨迹查询方法,尤其涉及一种大规模轨迹数据近邻查询***、方法、计算机及存储介质,属于轨迹大数据查询技术领域。
背景技术
随着科技的发展,定位技术日趋成熟,基于位置信息的应用在人们的生活中得到了广泛使用。遥感卫星、监控***以及具有GPS(Global Positioning System)和AIS(Automatic Identification System)功能的设备,时刻收集着海量的轨迹数据以改善我们的日常生活,但同时也对技术提出了更高的要求与挑战。通过患者的轨迹数据监测患者的流动,快速地对传染病潜在人员进行追溯;通过用户的轨迹及活动信息,为用户推荐行程参考等。
轨迹数据查询面临以下难点:(1)数据规模庞大,处理耗时;(2)不同的轨迹具有不同的属性,例如长度、形状、采样率等,这对轨迹数据特征提取的有效性提出了挑战;(3)轨迹数据属于时空数据,传统基于索引结构的轨迹表示方法难以捕获其中具有的时空相关性;(4)传统的轨迹数据查询方法在数据量较小时性能良好,但是随着轨迹数量的增加,检索效率会急剧下降。
发明内容
本发明为了克服大规模轨迹数据近邻查询准确率较低且速度较慢的问题,在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。
本发明提供了一种轨迹近邻查询***,其特征在于,包括POI序列转换模块、POI局部特征提取模块、轨迹语义特征提取模块、轨迹编码向量分桶模块、轨迹查询模块。
所述POI序列转换模块根据轨迹所属区域信息将轨迹转换为POI序列,利用POI嵌入神经网络进一步将轨迹的POI序列表示为POI嵌入向量矩阵。
所述POI局部特征提取模块通过ResNet-18神经网络提取轨迹POI嵌入向量矩阵中的局部区域特征。
所述轨迹语义特征提取模块利用多头自注意力编码器获取轨迹的编码向量。
所述轨迹编码向量分桶模块用于根据轨迹的编码向量通过局部敏感哈希函数对轨迹进行哈希分桶。
所述轨迹查询模块用于根据待查询轨迹的编码向量在相应的哈希桶中进行轨迹k近邻查询,寻找距离待查询轨迹最近的k条轨迹并进行结果输出。
一种轨迹近邻查询方法,其特征在于包括以下步骤:
S1.利用POI嵌入方法对轨迹数据进行POI嵌入,得到轨迹的POI嵌入序列和POI嵌入向量矩阵;
S2.利用轨迹的POI嵌入向量矩阵和轨迹标签训练轨迹编码器;
S3.利用训练完毕的轨迹编码器获取不同轨迹的编码向量表示,根据轨迹的编码向量利用局部敏感哈希函数将不同轨迹进行哈希分桶;
S4.利用训练完毕的轨迹编码器和轨迹的哈希分桶,对待查询的轨迹进行 k近邻轨迹查询。
优选的,步骤S1所述利用POI嵌入方法对轨迹数据进行POI嵌入,得到轨迹的POI嵌入序列和POI嵌入向量矩阵,具体包括以下步骤:
1)初始化轨迹的POI实体序列S为空,轨迹数据前一个轨迹点Last_point 为空;
2)遍历轨迹中的所有轨迹点;
3)如果当前轨迹点属于POI实体A的作用范围且和S中上一个POI实体不同,则将当前POI实体A加入到S中,否则更新当前轨迹点在上一个POI 实体中的滞留时间;
4)重复2)和3)直到生成轨迹的POI实体序列集合S;
5)随机初始化轨迹的POI嵌入向量矩阵
6)对于POI实体集合中的每一个POI实体,随机生成包含POI实体的 POI序列;
7)对于POI实体序列中的每一个POI实体,最大化上下文窗口中不同 POI实体uk、vj的共现概率J(Φ)=-logP(uk|Φ(vj));
8)根据梯度下降算法更新POI嵌入向量矩阵其中α是梯度下降学习率,是人工指定的值。
优选的,步骤S2所述利用轨迹的POI嵌入向量矩阵和轨迹标签训练轨迹编码器,训练过程包括以下步骤:
1)通过步骤S1获取到轨迹的POI嵌入向量矩阵,将POI嵌入向量矩阵输入到ResNet-18神经网络中获取POI嵌入向量矩阵7×7×2048维度的特征图;
2)将7×7×2048维度的特征图进行序列矩阵嵌入,计算公式为其中A为ResNet-18输出的特征图,C为特征图的通道数,H,W分别是特征图的高和宽,Wse是特征图的序列嵌入矩阵;
3)将轨迹的序列嵌入矩阵输入到轨迹语义捕获层进行轨迹高层语义特征提取,轨迹高层语义特征提取过程如下:令Q,K,V表示特征图序列嵌入矩阵通过自注意变换得到的查询矩阵、键矩阵、值矩阵,其中自注意变换计算公式为:
其中WQ,WK,WV是可学习的网络参数,映射到第i个特征空间中的矩阵为:
其中分别是查询矩阵、键矩阵、值矩阵在第i个特征空间中可学习的投影矩阵;
4)在每个特征空间中计算C次注意力函数,其中第j次计算公式为:
其中qj是Qi的第j个行向量,也是当前的查询向量,kn,vn是Ki,Vi的第n 个键向量、值向量,s(kn,qj)为打分函数,用于衡量键向量和当前查询向量的相似性,计算公式为:
5)将每一次注意力函数的计算结果作为行向量,沿列的维度进行堆叠,形成在第i个特征空间的语义表示矩阵Si,计算公式为:
Si=stack(att((Ki,Vi),q1),...,att((Ki,Vi),qC)),
将在h个不同特征空间中的语义表示矩阵Si逐元素相加,将结果矩阵中的每个行向量沿行的维度进行拼接,形成轨迹编码向量ti,将不同轨迹进行以上处理,根据不同轨迹的编码向量定义两条轨迹的欧式距离为:
6)将轨迹编码向量输入到SoftMax层进行轨迹标签预测,利用SoftMax 层预测轨迹所属标签:
其中,pi为当前轨迹属于第i个用户的概率,共有n个用户,zi为SoftMax 层的第i个输入;
7)计算轨迹编码器对当前轨迹的预测用户标签和轨迹的真实用户标签之间的交叉熵分类损失:其中,y为当前轨迹的真实用户标签,/>是轨迹编码器对于当前轨迹的预测用户标签;
8)利用反向传播算法,随机梯度下降优化算法更新轨迹编码器中的参数;
9)重复步骤1)至步骤8),直到轨迹编码器中的可学习网络参数收敛。
优选的,步骤S3所述利用训练完毕的轨迹编码器获取不同轨迹的编码向量表示,根据轨迹的编码向量利用局部敏感哈希函数将不同轨迹进行哈希分桶,具体过程如下:
1)利用POI嵌入方法对轨迹数据进行POI嵌入,得到轨迹的POI嵌入序列和POI嵌入向量矩阵;
2)将轨迹的POI嵌入向量矩阵输入到训练完毕的轨迹编码器中获取轨迹的编码向量v;
3)将轨迹编码向量输入到局部敏感函数获取轨迹编码向量所属的哈希桶,其中a,b是随机初始化的实数值,w是哈希桶数;
4)遍历所有轨迹,重复步骤2)、3)直到所有轨迹都被分配到相应的哈希桶中。
优选的,步骤S4所述利用训练完毕的轨迹编码器和轨迹的哈希分桶对待查询的轨迹进行k近邻轨迹查询,具体过程如下:
1)将待查询轨迹输入到训练完的轨迹编码器中获取其对应的编码向量;
2)将轨迹编码向量输入到局部敏感哈希函数中,获取待查询轨迹所属的哈希桶ha,b(v),其中a,b是随机初始化的实数值,w是哈希桶数;
3)在哈希桶ha,b(v)中计算待查询轨迹的编码向量和哈希桶中其它轨迹的编码向量的欧式距离;
4)根据欧式距离结果的大小,返回距离待查询轨迹最近的k条轨迹。
本发明具有以下有益效果:
本发明针对轨迹数据冗余信息过多影响处理效率的问题,为了在不损失轨迹数据关键信息的同时能够更加方便的处理轨迹数据,将轨迹转换为POI序列,基于最大化POI上下文窗口序列提出了一种POI实体嵌入方法。针对已有轨迹表示方法忽略了轨迹数据的时空相关性,无法准确提取出轨迹的时空语义特征的问题,基于稀疏多头自注意力机制提出了一种轨迹编码器,利用稀疏多头自注意力机制,获取轨迹不同层次重要的语义特征,将轨迹表示为编码向量,提高了轨迹查询的准确率。针对已有轨迹查询方法在处理大规模轨迹数据时查询速度缓慢的问题,在轨迹编码向量的基础上提出了基于局部敏感哈希函数的轨迹查询方法,利用局部敏感哈希函数将轨迹编码向量分桶,然后再进行查询,可使查询速度几乎不受数据量增长的影响,并可以将其拓展为并行版本。
附图说明
图1是本发明所用的基于稀疏多头自注意力的轨迹编码器的整体示意图。
图2是本发明轨迹编码向量获取的整体流程图。
图3是本发明在GeoLife GPS Trajectories数据集上轨迹查询时间实验结果图。
图4是本发明在GeoLife GPS Trajectories数据集上轨迹查询准确率实验结果图。
图5是本发明所述的***结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面通过附图中示出的具体实施例来描述本发明。但是应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
具体实施方式一:
图1是本发明所用的基于稀疏多头自注意力的轨迹编码器的整体示意图。
如图1所示,本发明采用带有稀疏多头自注意力的神经网络进行轨迹的高阶语义特征提取,神经网络的训练包含如下步骤:
1)通过步骤S1获取到轨迹的POI嵌入向量矩阵,将POI嵌入向量矩阵输入到ResNet-18神经网络中获取POI嵌入向量矩阵7×7×2048维度的特征图;
2)将7×7×2048维度的特征图进行序列矩阵嵌入,计算公式为其中A为ResNet-18神经网络输出的特征图,C为特征图的通道数,H,W分别是特征图的高和宽,Wse是特征图的序列嵌入矩阵;
3)将轨迹的序列嵌入矩阵输入到轨迹语义捕获层进行轨迹高层语义特征提取,轨迹高层语义特征提取过程如下:令Q,K,V表示特征图序列嵌入矩阵通过自注意变换得到的查询矩阵、键矩阵、值矩阵,其中自注意变换计算公式为:
其中WQ,WK,WV是可学习的网络参数,映射到第i个特征空间中的矩阵为:
其中分别是查询矩阵、键矩阵、值矩阵在第i个特征空间中可学习的投影矩阵;
4)在每个特征空间中计算C次注意力函数,其中第j次计算公式为。
其中qj是Qi的第j个行向量,也是当前的查询向量,kn,vn是Ki,Vi的第 n个键向量、值向量,s(kn,qj)为打分函数,用于衡量键向量和当前查询向量的相似性,计算公式为:
5)将每一次注意力函数的计算结果作为行向量,沿列的维度进行堆叠,形成在第i个特征空间的语义表示矩阵Si,计算公式为:
Si=stack(att((Ki,Vi),q1),...,att((Ki,Vi),qC)),
将在h个不同特征空间中的语义表示矩阵Si逐元素相加,将结果矩阵中的每个行向量沿行的维度进行拼接,形成轨迹编码向量ti,将不同轨迹进行以上处理,根据不同轨迹的编码向量定义两条轨迹的欧式距离为:
6)将轨迹编码向量输入到SoftMax层进行轨迹标签预测,利用SoftMax 层预测轨迹所属标签:
其中,pi为当前轨迹属于第i个用户的概率,共有n个用户,zi为SoftMax 层的第i个输入;
7)计算轨迹编码器对当前轨迹的预测用户标签和轨迹的真实用户标签之间的交叉熵分类损失:其中,y为当前轨迹的真实用户标签,/>是轨迹编码器对于当前轨迹的预测用户标签;
8)利用反向传播算法,随机梯度下降优化算法更新轨迹编码器中的参数;
9)重复步骤1)至步骤8),直到轨迹编码器中的可学习网络参数收敛。
具体实施方式二:
下面将具体实施方式一的方法应用于下列实施例中,以体现本发明的技术效果,实施例中具体步骤不再赘述。
本发明在GeoLife GPS Trajectories数据集上验证所提出的方法。GeoLife GPSTrajectories数据集来自微软亚洲研究院的GeoLift项目,该数据集记录了北京182个用户从2007年4月至2012年8月的轨迹信息,包含17621个轨迹点,总距离达129295千米,总时长为50176小时。这些轨迹数据不仅记录了用户在家和在工作地点的位置轨迹,还记录了如运动,购物这些户外大范围活动轨迹,这些轨迹信息来自于GPS记录仪和带有GPS记录的手机,平均记录间隔为1~5 秒或者1~5米,在数据集中每个用户的轨迹数据自成一个文件夹,文件夹中包含以PLT格式存储的轨迹数据,为了避免时区不一致的问题,数据集中统一使用GMT格式进行时间信息记录。该数据集可以用于用户活动相似度估算、移动模型挖掘和位置推荐等。
为了客观地评价本发明方法的性能,本发明使用查询时间及查询准确率作为评价指标来对于本发明的效果进行评价,并且与k近邻查询算法、Geohash 编码查询算法、LR-Tree索引查询算法在所述的数据集上做了对比实验,所得实验结果如附图3、4所示。
本实施方式只是对本专利的示例性说明,并不限定它的保护范围,本领域技术人员还可以对其局部进行改变,只要没有超出本专利的精神实质,都在本专利的保护范围内。

Claims (7)

1.一种轨迹近邻查询***,其特征在于,包括,POI序列转换模块、POI局部特征提取模块、轨迹语义特征提取模块、轨迹编码向量分桶模块、轨迹查询模块;所述POI序列转换模块根据轨迹所属区域信息将轨迹转换为POI序列,利用POI嵌入神经网络进一步将轨迹的POI序列表示为POI嵌入向量矩阵;
所述POI局部特征提取模块通过ResNet-18神经网络提取轨迹POI嵌入向量矩阵中的局部区域特征;
所述轨迹语义特征提取模块利用多头自注意力编码器获取轨迹的编码向量;
所述轨迹编码向量分桶模块用于根据轨迹的编码向量通过局部敏感哈希函数对轨迹进行哈希分桶;
所述轨迹查询模块用于根据待查询轨迹的编码向量在相应的哈希桶中进行轨迹k近邻查询,寻找距离待查询轨迹最近的k条轨迹并进行结果输出;
采用带有稀疏多头自注意力的神经网络进行轨迹的高阶语义特征提取,神经网络的训练包含如下步骤:
1)通过步骤S1获取到轨迹的POI嵌入向量矩阵,将POI嵌入向量矩阵输入到ResNet-18神经网络中获取POI嵌入向量矩阵7×7×2048维度的特征图;
2)将7×7×2048维度的特征图进行序列矩阵嵌入,计算公式为Wse=f(A),其中A为ResNet-18神经网络输出的特征图,C为特征图的通道数,H,W分别是特征图的高和宽,Wse是特征图的序列嵌入矩阵;
3)将轨迹的序列嵌入矩阵输入到轨迹语义捕获层进行轨迹高层语义特征提取,轨迹高层语义特征提取过程如下:令Q,K,V表示特征图序列嵌入矩阵通过自注意变换得到的查询矩阵、键矩阵、值矩阵,其中自注意变换计算公式为:
Q=Wse·WQ,
K=Wse·WK,
V=Wse·WV,
其中WQ,WK,WV是可学习的网络参数,映射到第i个特征空间中的矩阵为:
Ki=K·Wi K,
Vi=V·Wi V,
其中Wi K,Wi V分别是查询矩阵、键矩阵、值矩阵在第i个特征空间中可学习的投影矩阵;
4)在每个特征空间中计算C次注意力函数,其中第j次计算公式为:
其中qj是Qi的第j个行向量,也是当前的查询向量,kn,vn是Ki,Vi的第n个键向量、值向量,s(kn,qj)为打分函数,用于衡量键向量和当前查询向量的相似性,计算公式为:
5)将每一次注意力函数的计算结果作为行向量,沿列的维度进行堆叠,形成在第i个特征空间的语义表示矩阵Si,计算公式为:
Si=stack(att((Ki,Vi),q1),...,att((Ki,Vi),qC)),
将在h个不同特征空间中的语义表示矩阵Si逐元素相加,将结果矩阵中的每个行向量沿行的维度进行拼接,形成轨迹编码向量ti,将不同轨迹进行以上处理,根据不同轨迹的编码向量定义两条轨迹的欧式距离为:
6)将轨迹编码向量输入到SoftMax层进行轨迹标签预测,利用SoftMax层预测轨迹所属标签:
其中,pi为当前轨迹属于第i个用户的概率,共有n个用户,zi为SoftMax层的第i个输入;
7)计算轨迹编码器对当前轨迹的预测用户标签和轨迹的真实用户标签之间的交叉熵分类损失:其中,y为当前轨迹的真实用户标签,/>是轨迹编码器对于当前轨迹的预测用户标签;
8)利用反向传播算法,随机梯度下降优化算法更新轨迹编码器中的参数;
9)重复步骤1)至步骤8),直到轨迹编码器中的可学习网络参数收敛。
2.一种轨迹近邻查询方法,其特征在于包括以下步骤:
S1.利用POI嵌入方法对轨迹数据进行POI嵌入,得到轨迹的POI嵌入序列和POI嵌入向量矩阵;
S2.利用轨迹的POI嵌入向量矩阵和轨迹标签训练轨迹编码器;
S3.利用训练完毕的轨迹编码器获取不同轨迹的编码向量表示,根据轨迹的编码向量利用局部敏感哈希函数将不同轨迹进行哈希分桶;
S4.利用训练完毕的轨迹编码器和轨迹的哈希分桶,对待查询的轨迹进行k近邻轨迹查询;
步骤S2中训练方法的具体训练过程包括以下步骤:
S21.通过步骤S1获取到轨迹的POI嵌入向量矩阵,将POI嵌入向量矩阵输入到ResNet-18神经网络中获取POI嵌入向量矩阵7×7×2048维度的特征图;
S22.将7×7×2048维度的特征图进行序列矩阵嵌入,计算公式为Wse=f(A),其中A为ResNet-18输出的特征图,C为特征图的通道数,H,W分别是特征图的高和宽,Wse是特征图的序列嵌入矩阵;
S23.将轨迹的序列嵌入矩阵输入到轨迹语义捕获层进行轨迹高层语义特征提取,轨迹高层语义特征提取过程如下:令Q,K,V表示特征图序列嵌入矩阵通过自注意变换得到的查询矩阵、键矩阵、值矩阵,其中自注意变换计算公式为:Q=Wse·WQ,
K=Wse·WK,
V=Wse·WV,
其中WQ,WK,WV是可学习的网络参数,映射到第i个特征空间中的矩阵为:
Qi=Q·Wi Q,
Ki=K·Wi K,
Vi=V·Wi V,
其中Wi K,Wi V分别是查询矩阵、键矩阵、值矩阵在第i个特征空间中可学习的投影矩阵;
S24.在每个特征空间中计算C次注意力函数,其中第j次计算公式为:
其中qj是Qi的第j个行向量,也是当前的查询向量,kn,vn是Ki,Vi的第n个键向量、值向量,s(kn,qj)为打分函数,用于衡量键向量和当前查询向量的相似性,计算公式为:
S25.将每一次注意力函数的计算结果作为行向量,沿列的维度进行堆叠,形成在第i个特征空间的语义表示矩阵Si,计算公式为:
Si=stack(att((Ki,Vi),q1),...,att((Ki,Vi),qC)),
将在h个不同特征空间中的语义表示矩阵Si逐元素相加,将结果矩阵中的每个行向量沿行的维度进行拼接,形成轨迹编码向量ti,将不同轨迹进行以上处理,根据不同轨迹的编码向量定义两条轨迹的欧式距离为:
S26.将轨迹编码向量输入到SoftMax层进行轨迹标签预测,利用SoftMax层预测轨迹所属标签:其中,pi为当前轨迹属于第i个用户的概率,共有n个用户,zi为SoftMax层的第i个输入;
S27.计算轨迹编码器对当前轨迹的预测用户标签和轨迹的真实用户标签之间的交叉熵分类损失:其中,y为当前轨迹的真实用户标签,/>是轨迹编码器对于当前轨迹的预测用户标签;
S28.利用反向传播算法,随机梯度下降优化算法更新轨迹编码器中的参数;
S29.重复步骤S21至步骤S28,直到轨迹编码器中的可学习网络参数收敛。
3.根据根据权利要求2所述的一种轨迹近邻查询方法,其特征在于:步骤S1所述利用POI嵌入方法对轨迹数据进行POI嵌入,得到轨迹的POI嵌入序列和POI嵌入向量矩阵,具体包括以下步骤:
S11.初始化轨迹的POI实体序列S为空,轨迹数据前一个轨迹点Last_point为空;
S12.遍历轨迹中的所有轨迹点;
S13.如果当前轨迹点属于POI实体A的作用范围且和S中上一个POI实体不同,则将当前POI实体A加入到S中,否则更新当前轨迹点在上一个POI实体中的滞留时间;
S14.重复S12和S13直到生成轨迹的POI实体序列集合S;
S15.随机初始化轨迹的POI嵌入向量矩阵
S16.对于POI实体集合中的每一个POI实体,随机生成包含POI实体的POI序列;
S17.对于POI实体序列中的每一个POI实体,最大化上下文窗口中不同POI实体uk、vj的共现概率J(Φ)=-logP(uk|Φ(vj));
S18.根据梯度下降算法更新POI嵌入向量矩阵其中α是梯度下降学习率,是人工指定的值。
4.根据权利要求2所述的一种轨迹近邻查询方法,其特征在于步骤S3所述利用训练完毕的轨迹编码器获取不同轨迹的编码向量表示,根据轨迹的编码向量利用局部敏感哈希函数将不同轨迹进行哈希分桶,具体过程如下:
S31.利用POI嵌入方法对轨迹数据进行POI嵌入,得到轨迹的POI嵌入序列和POI嵌入向量矩阵;
S32.将轨迹的POI嵌入向量矩阵输入到训练完毕的轨迹编码器中获取轨迹的编码向量v;
S33.将轨迹编码向量输入到局部敏感函数获取轨迹编码向量所属的哈希桶,其中a,b是随机初始化的实数值,w是哈希桶数;
S34.遍历所有轨迹,重复步骤S32、S33直到所有轨迹都被分配到相应的哈希桶中。
5.根据权利要求2所述的一种轨迹近邻查询方法,其特征在于步骤S4所述利用训练完毕的轨迹编码器和轨迹的哈希分桶对待查询的轨迹进行k近邻轨迹查询,具体过程如下:
S41.将待查询轨迹输入到训练完毕的轨迹编码器中获取其对应的编码向量v;
S42.将轨迹编码向量v输入到局部敏感哈希函数中,获取待查询轨迹所属的哈希桶ha,b(v),其中a,b是随机初始化的实数值,w是哈希桶数;
S43.在哈希桶ha,b(v)中计算待查询轨迹的编码向量和哈希桶中其它轨迹的编码向量的欧式距离;
S44.根据欧式距离结果的大小,返回距离待查询轨迹最近的k条轨迹。
6.一种计算机,其特征在于,包括存储器和处理器,存储器存储有计算机程序,所述的处理器执行所述计算机程序时实现权利要求2至5任一项所述的一种轨迹近邻查询方法的步骤。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求2至5任一项所述的一种轨迹近邻查询方法。
CN202211125188.3A 2022-09-16 2022-09-16 一种轨迹近邻查询***、方法、计算机及存储介质 Active CN115422477B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211125188.3A CN115422477B (zh) 2022-09-16 2022-09-16 一种轨迹近邻查询***、方法、计算机及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211125188.3A CN115422477B (zh) 2022-09-16 2022-09-16 一种轨迹近邻查询***、方法、计算机及存储介质

Publications (2)

Publication Number Publication Date
CN115422477A CN115422477A (zh) 2022-12-02
CN115422477B true CN115422477B (zh) 2023-09-05

Family

ID=84203774

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211125188.3A Active CN115422477B (zh) 2022-09-16 2022-09-16 一种轨迹近邻查询***、方法、计算机及存储介质

Country Status (1)

Country Link
CN (1) CN115422477B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021051503A1 (zh) * 2019-09-19 2021-03-25 平安科技(深圳)有限公司 基于语义表征模型的文本分类方法、装置和计算机设备
CN112949628A (zh) * 2021-02-07 2021-06-11 中国科学院计算技术研究所 一种基于嵌入-混合的轨迹数据增强及轨迹识别方法
CN113918837A (zh) * 2021-10-15 2022-01-11 山东大学 城市兴趣点类别表示的生成方法及***

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10876850B2 (en) * 2018-10-26 2020-12-29 International Business Machines Corporation Trajectory modeling for contextual recommendation
JP7041281B2 (ja) * 2019-07-04 2022-03-23 浙江大学 ディープニューラルネットワークモデルに基づくアドレス情報特徴抽出方法
US20210390392A1 (en) * 2020-06-15 2021-12-16 Naver Corporation System and method for processing point-of-interest data

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021051503A1 (zh) * 2019-09-19 2021-03-25 平安科技(深圳)有限公司 基于语义表征模型的文本分类方法、装置和计算机设备
CN112949628A (zh) * 2021-02-07 2021-06-11 中国科学院计算技术研究所 一种基于嵌入-混合的轨迹数据增强及轨迹识别方法
CN113918837A (zh) * 2021-10-15 2022-01-11 山东大学 城市兴趣点类别表示的生成方法及***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Kernel Density Estimation through Density Constrained Near Neighbor Search;Moses Charikar等;IEEE;全文 *

Also Published As

Publication number Publication date
CN115422477A (zh) 2022-12-02

Similar Documents

Publication Publication Date Title
CN111488984B (zh) 一种用于训练轨迹预测模型的方法和轨迹预测方法
CN110275959A (zh) 一种面向大规模知识库的快速学习方法
JP7499360B2 (ja) 深層学習によるコンパクトな表現と時系列セグメントの取得
CN113836341B (zh) 基于无监督转换器平衡哈希的遥感图像检索方法
CN113449111B (zh) 基于时空语义知识迁移的社会治理热点话题自动识别方法
CN112256727B (zh) 基于人工智能技术的数据库查询处理及优化方法
CN114547249A (zh) 一种基于自然语言和视觉特征的车辆检索方法
CN112949534A (zh) 一种行人重识别方法、智能终端及计算机可读存储介质
CN115878757A (zh) 一种基于概念分解的混合超图正则化半监督跨模态哈希方法
Wang et al. New developments in unsupervised outlier detection
CN115935059A (zh) 融合位置嵌入与注意力矩阵的异构图交互事件抽取方法
Abbasifard et al. Efficient indexing for past and current position of moving objects on road networks
CN115422477B (zh) 一种轨迹近邻查询***、方法、计算机及存储介质
CN112632406B (zh) 查询方法、装置、电子设备及存储介质
Zhao et al. Multi-scale context deep hashing for remote sensing image retrieval
CN117763185A (zh) 一种基于思考空间维度的哈希图像检索方法
CN116955650A (zh) 基于小样本知识图谱补全的信息检索优化方法及其***
CN116775918A (zh) 基于互补熵对比学习跨模态检索方法、***、设备及介质
Balsebre et al. Cityfm: City foundation models to solve urban challenges
CN114332729B (zh) 一种视频场景检测标注方法及***
Zhang et al. Remote sensing cross-modal retrieval by deep image-voice hashing
Esuli et al. Traj2user: exploiting embeddings for computing similarity of users mobile behavior
CN112148904B (zh) 一种报警联动录像的索引方法及装置
Liao et al. Bow image retrieval method based on SSD target detection
Han et al. A pattern accumulated compression method for trajectories constrained by urban road networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant