CN116049690A - 一种移动目标的活动规律确定方法、装置、设备和介质 - Google Patents
一种移动目标的活动规律确定方法、装置、设备和介质 Download PDFInfo
- Publication number
- CN116049690A CN116049690A CN202310042929.XA CN202310042929A CN116049690A CN 116049690 A CN116049690 A CN 116049690A CN 202310042929 A CN202310042929 A CN 202310042929A CN 116049690 A CN116049690 A CN 116049690A
- Authority
- CN
- China
- Prior art keywords
- activity
- moving
- moving target
- event item
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种移动目标的活动规律确定方法、装置、设备和介质,该方法包括:获取多个移动目标的时空动向信息;根据时空动向信息,确定每对移动目标的相似度;以每个移动目标为节点,连接每对相似度高于阈值的移动目标,构建时空特征网络;根据时空特征网络,获取每个移动目标的嵌入向量;根据嵌入向量的分布情况,确定各个移动目标属于低活跃度集合或高活跃度集合;根据移动目标所在的活跃度集合,和该移动目标的目标事件项,生成该移动目标的候选序列集;根据移动目标所在的活跃度集合,将候选序列集输入对应的序列模式挖掘模型,得到频繁序列模式集;根据频繁序列模式集,确定移动目标参与目标事件项的活动规律。
Description
技术领域
本发明涉及时空数据挖掘技术领域,特别是一种移动目标的活动规律确定方法、装置、设备和介质。
背景技术
大数据时代,海量的时空动向信息为人们深度认知海上舰船、空中飞机、路上车辆等移动目标的行为活动规律提供了丰富的数据资源。这些移动目标通常在时间、空间、事件、属性等维度上有着潜在的活动机理,例如某些海域周期性出现的巡逻船只,某些空域频繁出现的无人机,某些地区协同出现的不同类型的作业车辆,等等。基于时空数据挖掘移动目标的行为模式,在国土防御、公共安全、案件侦破、城市治理等领域有着重大的意义。
然而,时空动向信息包含了时间、空间、事件、属性等多个维度的信息,内容复杂,在利用该信息挖掘移动目标的活动规律的过程中,需要充分考虑各种因素的影响,难以保证最终得到的活动规律的准确性。因此,需要提供一种移动目标的活动规律确定方法,以获取到准确全面的移动目标的活动规律。
发明内容
鉴于上述问题,本发明实施例提供了一种移动目标的活动规律确定方法、装置、设备和介质,以便克服上述问题或者至少部分地解决上述问题。
本发明实施例的第一方面提供了一种移动目标的活动规律确定方法,所述方法包括:
获取多个移动目标的时空动向信息,所述时空动向信息用于描述每个所述移动目标参与的多个时空动向事件;
根据所述多个移动目标的时空动向信息,确定每对所述移动目标的相似度,所述相似度表示该对移动目标在时空特征上的重叠程度;
以每个所述移动目标为节点,连接每对相似度高于阈值的移动目标,构建时空特征网络;
根据所述时空特征网络,获取每个所述移动目标的嵌入向量;
根据所述嵌入向量在表征空间中的分布情况,将所述嵌入向量确定为低活跃向量或高活跃向量,确定各个所述嵌入向量对应的移动目标属于低活跃度集合或高活跃度集合;
根据所述移动目标所在的活跃度集合,和该移动目标的目标事件项,生成该移动目标的候选序列集,所述事件项表示该移动目标参与的一种活动事件类型;
根据所述移动目标所在的活跃度集合,将所述候选序列集输入对应的序列模式挖掘模型,得到频繁序列模式集;
根据所述频繁序列模式集,确定所述移动目标参与所述目标事件项的活动规律。
可选地,根据所述多个移动目标的时空动向信息,确定每对所述移动目标的相似度,包括:
根据每个所述移动目标的时空动向信息,确定该移动目标的轨迹序列,所述轨迹序列表示该移动目标先后到访的时间和空间序列;
根据所述轨迹序列,确定每对所述移动目标的最长公共子序列,所述最长公共子序列表示该对移动目标的轨迹序列之间的相同片段的组合;
根据所述最长公共子序列的长度,确定该对移动目标的相似度。
可选地,根据所述时空特征网络,获取每个所述移动目标的嵌入向量,包括:
以所述节点为起点,在所述时空特征网络中进行随机游走,得到节点序列;
将所述节点序列输入skip-gram模型,得到所述节点对应的嵌入向量。
可选地,根据所述嵌入向量在表征空间中的分布情况,将所述嵌入向量确定为低活跃向量或高活跃向量,确定各个所述嵌入向量对应的移动目标属于低活跃度集合或高活跃度集合,包括:
随机选取两个所述嵌入向量,作为两个聚类中心;
随机选择另一所述嵌入向量,计算该嵌入向量在所述表征空间中分别与所述两个聚类中心的距离;
将所述嵌入向量分配给距离更近的所述聚类中心,更新所述聚类中心;
重复上述过程,直至所述两个聚类中心不再发生变化;
根据所述两个聚类中心,将所述嵌入向量分为两类,将数量多的一类所述嵌入向量确定为所述低活跃向量,将数量少的一类所述嵌入向量确定为所述高活跃向量;
将所述低活跃向量对应的移动目标确定为属于低活跃度集合的移动目标,将所述高活跃向量对应的移动目标确定为属于高活跃度集合的移动目标。
可选地,根据所述移动目标所在的活跃度集合,和该移动目标的目标事件项,生成该移动目标的候选序列集,包括:
根据所述多个移动目标的时空动向信息,获取多个事件项数据,每个所述事件项数据至少包括:参与该事件的移动目标信息,事件类型信息和发生时间信息;
将所述多个事件项数据按照时间顺序进行排序,得到事件项数据集;
根据所述目标事件项的事件类型,从所述事件项数据集中确定出符合所述事件类型的多个候选事件项数据;
在所述移动目标属于所述低活跃度集合的情况下,针对每个候选事件项数据,从所述事件项数据集中提取所述候选事件项数据之前多个事件项数据和之后多个事件项数据,与该候选事件项数据组成一条低活跃度候选序列;
针对所述多个候选事件项数据,重复上一步骤,得到低活跃度候选序列集。
可选地,在所述移动目标属于所述高活跃度集合的情况下,根据所述移动目标所在的活跃度集合,和该移动目标的目标事件项,生成该移动目标的候选序列集,包括:
将所述事件项数据集按照预设时间段进行划分,得到多个子事件项数据集;
针对每个所述子事件项数据集,根据所述目标事件项的事件类型,从所述事件项数据集中确定出符合所述事件类型的多个候选事件项数据;
从所述子事件项数据集中提取所述候选事件项数据的前1个事件项数据和后1个事件项数据,与该候选事件项数据组成一条短序列;
针对每个所述子事件项数据集中得到的所述短序列,按照时间顺序进行拼接,得到高活跃度候选序列;
针对所述多个子事件项数据集,重复上一步骤,得到高活跃度候选序列集。
可选地,根据所述移动目标所在的活跃度集合,将所述候选序列集输入对应的序列模式挖掘模型,得到频繁序列模式集,包括:
在所述移动目标属于所述低活跃度集合的情况下,将所述低活跃度候选序列集和支持度阈值一并输入PrefixSpan模型,得到该移动目标的低活跃度频繁序列模式集;
在所述移动目标属于所述高活跃度集合的情况下,将所述高活跃度候选序列集输入Spade模型,得到该移动目标的高活跃度频繁序列模式集,所述高活跃度频繁序列模式集中的频繁序列模式按照支持度大小进行排序。
本实施例第二方面提供了一种移动目标的活动规律确定装置,所述装置包括:
获取模块,用于获取多个移动目标的时空动向信息,所述时空动向信息用于描述每个所述移动目标参与的多个时空动向事件;
相似度确定模块,用于根据所述多个移动目标的时空动向信息,确定每对所述移动目标的相似度,所述相似度表示该对移动目标在时空特征上的重叠程度;
时空特征网络构建模块,用于以每个所述移动目标为节点,连接每对相似度高于阈值的移动目标,构建时空特征网络;
嵌入向量获取模块,用于根据所述时空特征网络,获取每个所述移动目标的嵌入向量;
活跃度划分模块,用于根据所述嵌入向量在表征空间中的分布情况,将所述嵌入向量确定为低活跃向量或高活跃向量,确定各个所述嵌入向量对应的移动目标属于低活跃度集合或高活跃度集合;
候选序列生成模块,用于根据每个所述移动目标所在的活跃度集合,和该移动目标的目标事件项,生成该移动目标的候选序列集,所述事件项表示该移动目标参与的一种活动事件类型;
序列模式挖掘模块,用于根据所述移动目标所在的活跃度集合,将所述候选序列集输入对应的序列模式挖掘模型,得到频繁序列模式集;
确定模块,用于根据所述频繁序列模式集,确定所述移动目标参与所述目标事件项的活动规律。
可选地,所述相似度确定模块,包括:
轨迹序列确定子模块,用于根据每个所述移动目标的时空动向信息,确定该移动目标的轨迹序列,所述轨迹序列表示该移动目标先后到访的时间和空间序列;
最长公共子序列确定子模块,用于根据所述轨迹序列,确定每对所述移动目标的最长公共子序列,所述最长公共子序列表示该对移动目标的轨迹序列之间的相同片段的组合;
相似度确定子模块,用于根据所述最长公共子序列的长度,确定该对移动目标的相似度。
可选地,所述嵌入向量获取模块。包括:
随机游走子模块,用于以所述节点为起点,在所述时空特征网络中进行随机游走,得到节点序列;
嵌入向量获取子模块,用于将所述节点序列输入skip-gram模型,得到所述节点对应的嵌入向量。
可选地,所述活跃度划分模块,包括:
第一划分子模块,用于随机选取两个所述嵌入向量,作为两个聚类中心;
第二划分子模块,用于随机选择另一所述嵌入向量,计算该嵌入向量在所述表征空间中分别与所述两个聚类中心的距离;
第三划分子模块,用于将所述嵌入向量分配给距离更近的所述聚类中心,更新所述聚类中心;
第四划分子模块,用于重复上述过程,直至所述两个聚类中心不再发生变化;
第五划分子模块,用于根据所述两个聚类中心,将所述嵌入向量分为两类,将数量多的一类所述嵌入向量确定为所述低活跃向量,将数量少的一类所述嵌入向量确定为所述高活跃向量;
第六划分子模块,用于将所述低活跃向量对应的移动目标确定为属于低活跃度集合的移动目标,将所述高活跃向量对应的移动目标确定为属于高活跃度集合的移动目标。
可选地,所述序列模式挖掘模块,包括:
事件项数据获取子模块,用于根据所述多个移动目标的时空动向信息,获取多个事件项数据,每个所述事件项数据至少包括:参与该事件的移动目标信息,事件类型信息和发生时间信息;
事件项数据集获取子模块,用于将所述多个事件项数据按照时间顺序进行排序,得到事件项数据集;
候选事件项数据获取子模块,用于根据所述目标事件项的事件类型,从所述事件项数据集中确定出符合所述事件类型的多个候选事件项数据;
低活跃度候选序列生成子模块,用于在所述移动目标属于所述低活跃度集合的情况下,针对每个候选事件项数据,从所述事件项数据集中提取所述候选事件项数据之前多个事件项数据和之后多个事件项数据,与该候选事件项数据组成一条低活跃度候选序列;
低活跃度候选序列集生成子模块,用于针对所述多个候选事件项数据,重复上一步骤,得到低活跃度候选序列集;
可选地,在所述移动目标属于所述高活跃度集合的情况下,所述装置还包括:
子事件项数据集获取模块,用于将所述事件项数据集按照预设时间段进行划分,得到多个子事件项数据集;
候选事件项数据确定模块,用于针对每个所述子事件项数据集,根据所述目标事件项的事件类型,从所述事件项数据集中确定出符合所述事件类型的多个候选事件项数据;
短序列生成模块,用于从所述子事件项数据集中提取所述候选事件项数据的前1个事件项数据和后1个事件项数据,与该候选事件项数据组成一条短序列;
高活跃度候选序列生成模块,用于针对每个所述子事件项数据集中得到的所述短序列,按照时间顺序进行拼接,得到高活跃度候选序列;
高活跃度候选序列集生成模块,用于针对所述多个子事件项数据集,重复上一步骤,得到高活跃度候选序列集。
可选地,所述序列模式挖掘模块,包括:
第一序列模式挖掘子模块,用于在所述移动目标属于所述低活跃度集合的情况下,将所述低活跃度候选序列集和支持度阈值一并输入PrefixSpan模型,得到该移动目标的低活跃度频繁序列模式集;
第二序列模式挖掘子模块,用于在所述移动目标属于所述高活跃度集合的情况下,将所述高活跃度候选序列集输入Spade模型,得到该移动目标的高活跃度频繁序列模式集,所述高活跃度频繁序列模式集中的频繁序列模式按照支持度大小进行排序。
本发明实施例第三方面还提供了一种电子设备,包括存储器、处理器及存储在所述存储器上的计算机程序,所述处理器执行所述计算机程序以实现本发明实施例第一方面所述的移动目标的活动规律确定方法中的步骤。
本发明实施例第四方面还提供了一种计算机可读存储介质,其上存储有计算机程序/指令,该计算机程序/指令被处理器执行时实现本发明实施例第一方面所述的移动目标的活动规律确定方法中的步骤。
本发明实施例提供了一种移动目标的活动规律确定方法,该方法包括:获取多个移动目标的时空动向信息,所述时空动向信息用于描述每个所述移动目标参与的多个时空动向事件;根据所述多个移动目标的时空动向信息,确定每对所述移动目标的相似度,所述相似度表示该对移动目标在时空特征上的重叠程度;以每个所述移动目标为节点,连接每对相似度高于阈值的移动目标,构建时空特征网络;根据所述时空特征网络,获取每个所述移动目标的嵌入向量;根据所述嵌入向量在表征空间中的分布情况,将所述嵌入向量确定为低活跃向量或高活跃向量,确定各个所述嵌入向量对应的移动目标属于低活跃度集合或高活跃度集合;根据所述移动目标所在的活跃度集合,和该移动目标的目标事件项,生成该移动目标的候选序列集,所述事件项表示该移动目标参与的一种活动事件类型;根据所述移动目标所在的活跃度集合,将所述候选序列集输入对应的序列模式挖掘模型,得到频繁序列模式集;根据所述频繁序列模式集,确定所述移动目标参与所述目标事件项的活动规律。
具体有益效果在于:
1)根据移动目标的活跃度分别进行序列模型挖掘,提高获取到的活动规律的准确性。本发明实施例通过将移动目标划分为低活跃度集合和高活跃度集合,从而根据移动目标的活跃度高低,利用不同的方法生成候选序列集,并进行序列模式挖掘。由此在确定移动目标的活动规律的过程中,充分考虑到了活跃度不同对最终结果的影响,使得到的活动规律更加准确全面。
2)利用嵌入向量的分布特性,实现对移动目标活跃度的区分。本发明实施例提出对移动目标进行嵌入向量表征,然后利用不同频次的嵌入向量在表征空间中会分布在不同子区域的特性,实现对移动目标的活跃度的划分。由此,本发明实施例提出了一种新的活跃度划分的方法,相比于直接计算各个移动目标的活跃程度,本发明实施例所提出的方法更加准确高效。
扩展了序列模式挖掘的信息维度。本发明实施例利用移动目标的时空动向信息,从时间、空间、事件、属性的多个维度去进行了序列模式挖掘,使最终得到的移动目标的活动规律更加准确可靠。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种移动目标的活动规律确定方法的步骤流程图;
图2是本发明实施例提供的一种低活跃度候选序列的结构示意图;
图3是本发明实施例提供的一种高活跃度候选序列的结构示意图;
图4是本发明实施例提供的一种移动目标的活动规律确定装置的结构示意图;
图5是本发明实施例提供的一种电子设备的示意图。
具体实施方式
下面将结合本发明实施例中的附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
以下为本发明实施例具体内容。
本发明实施例提供了一种移动目标的活动规律确定方法,参照图1,图1示出了一种移动目标的活动规律确定方法的步骤流程图,如图1所示,所述方法包括:
步骤S101,获取多个移动目标的时空动向信息,所述时空动向信息用于描述每个所述移动目标参与的多个时空动向事件。
在本实施例中,多个移动目标的时空动向信息可以指在一定的地理区域内的多个移动目标的时空数据,该时空数据可以以事件为单位,其中包括每个移动目标参与的事件,参与该事件的时间,参与该事件的地点,以及该事件的类型属性等信息。由此,每一条时空动向信息描述了一个移动目标所参与的一个时空动向事件。示例性的,多个移动目标的时空动向信息可以为某片特定海域中的各个船只的时空动向信息,某空域的各个无人机的时空动向信息,或某个地区的各个车辆的时空动向信息。所述移动目标可以为船只、车辆、无人机等任一可具有移动功能的载具或工具,在本实施例中,不对其进行限制。
步骤S102,根据所述多个移动目标的时空动向信息,确定每对所述移动目标的相似度,所述相似度表示该对移动目标在时空特征上的重叠程度。
在本实施例中,通过时空动向信息,提取出每个移动目标的时间动向信息和空间动向信息,进而确定每两个移动目标之间的相似度,该时间动向信息表示该移动目标的具体活动时间,空间动向信息表示该移动目标的具体活动空间位置。该相似度表示移动目标在时空特征上的重叠程度,重叠程度越高则相似度越高。具体的,可以分别在时间特征和空间特征上进行相似度的判断,时间特征的相似度高,表示这两个移动目标经常在同一时间段进行活动或两者按照相似的时间规律活动,空间特征的相似度高,表示这两个移动目标经常访问相同的地点,具有相似的运动轨迹,而时间特征和空间特征的相似度均很高则表示,该对移动目标经常在短时间内到访同一空间位置。
在一种实施例中,根据所述多个移动目标的时空动向信息,确定每对所述移动目标的相似度,包括:
步骤S201,根据每个所述移动目标的时空动向信息,确定该移动目标的轨迹序列,所述轨迹序列表示该移动目标先后到访的时间和空间序列;
从每个移动目标的时空动向信息中提取出该移动目标参与每个事件的时间信息和空间信息,从而组成一条轨迹序列,该轨迹序列可以表示为如下公式:
(t1,d1)(t2,d2)(t3,d3)……(tn,dn)
其中,t表示该移动目标参与对应事件的时间,d表示该移动目标参与该事件的空间位置。由此,针对每一个事件i就可以提取出一项(ti,di),将每一项(ti,di)按照时间顺序进行排列,就可以得到该移动目标的轨迹序列,根据该轨迹序列,可以得出该移动目标的行为轨迹。在移动目标的候选集合足够大的条件下,嵌入的节点特征为其活动时间、访问地点序列时可以更大细粒度地对移动目标或事件项进行区分。
步骤S202,根据所述轨迹序列,确定每对所述移动目标的最长公共子序列,所述最长公共子序列表示该对移动目标的轨迹序列之间的相同片段的组合;
在本实施例中,可以利用常用的轨迹间距离算法,计算得到每两个移动目标的最长子序列,该最长子序列可以是两个移动目标的轨迹序列的多个相同片段的按时间顺序的组合,由于最长公共子序列对轨迹长度没有限制,访问次序可以不连续,可以对抗噪音。由此,本实施例选择计算每两个移动目标之间的最长子序列,将其作为计算相似度的计算指标。
步骤S203,根据所述最长公共子序列的长度,确定该对移动目标的相似度。
对于每两个移动目标来说,两者之间的最长公共子序列越长,表示上述两个移动目标的活动轨迹越相似。所以,在本实施例中,可以根据最长公共子序列的长度,确定该对移动目标的相似度。
步骤S103,以每个所述移动目标为节点,连接每对相似度高于阈值的移动目标,构建时空特征网络。
在本实施例中,如果计算得到的两个移动目标的相似度大于设定的阈值,则二者的时空特征相似度较高,如果相似度小于设定的阈值,则二者的时空特征相似度较低。在构建时空特征网络时,以每个移动目标作为该网络中的一个节点,将相似度较高的节点连接起来,从而构成了该时空特征网络,该网络展示了每个节点之间的连接关系。进行移动目标嵌入可以编码更多的时空信息,且能够简化后续模型计算过程。而活跃程度特征是移动目标的序列模式特征中的隐式特征,根据不同序列模式特征可以生成不同的移动目标网络。本实施例中的时空特征节点构建与传统的将地点与轨迹建模为节点和边的方法不同,本实施例选择以移动目标建模为节点,然后根据计算得到的相似度连接时空特征足够相似的移动目标节点。需要知道的是,仅基于访问序列计算相似性的聚类方法忽略了移动目标活跃程度的影响,即若某个移动目标过分活跃,其容易与其他类的移动目标轨迹重叠,本发明实施例通过生成时空特征网络,希望在挖掘一系列频繁活动的移动目标时,不要求其遵循一样的访问顺序。这样的特征隐含在移动目标时空嵌入向量中,并且可以通过游走时空特征网络进行记录。
步骤S104,根据所述时空特征网络,获取每个所述移动目标的嵌入向量。
在本实施例中,为了将移动目标以嵌入向量的形式进行表征,利用到了图嵌入技术。图嵌入技术基于构建的时空特征网络,将该网络中的节点以向量的形式进行表达。这是因为,在进行嵌入向量相关技术中,不同频次的实体通过序列生成嵌入向量表征时,会分布在表征空间的不同子区域,从而本实施例基于上述原理,将移动目标转化为嵌入向量,解决了移动目标的活跃度自动划分问题。
在一种实施例中,根据所述时空特征网络,获取每个所述移动目标的嵌入向量,包括:
步骤S401,以所述节点为起点,在所述时空特征网络中进行随机游走,得到节点序列;
在本实施例中,通过随机游走的方式,以节点为起点,得到类似词嵌入模型输入的节点序列,具体的,可以采用DeepWalk算法完成随机游走。
步骤S402,将所述节点序列输入skip-gram模型,得到所述节点对应的嵌入向量。
将得到的节点序列输入到skip-gram模型中,利用该模型输出结果得到对应的嵌入向量。在这种方法下,图嵌入只考虑了节点间的关系,而没有考虑节点本身的特征。由于时空数据不满足独立同分布,单纯对地点进行建模无法保留不同时空间的关联信息。所以本实施例在构建移动目标时空特征网络时,节点间的关系是建立在节点本身的时空特征相似度之上的。如果两节点具有较高的时空访问特征,其对应时空特征网络中的节点间则存在相互连接的边。在移动目标时空特征网络的基础上,进一步可以通过图嵌入技术使每一个节点对应一个嵌入向量和生成嵌入映射表,从而得到了每个移动目标的嵌入向量。
步骤S105,根据所述嵌入向量在表征空间中的分布情况,将所述嵌入向量确定为低活跃向量或高活跃向量,确定各个所述嵌入向量对应的移动目标属于低活跃度集合或高活跃度集合。
本实施例基于不同频次或不同活跃程度的移动目标生成嵌入向量表征时,会分布在表征空间的不同子区域这一原理,根据生成的嵌入向量在表征空间中的分布情况,可以将嵌入向量分为两组,划分出低活跃度集合和高活跃度集合,从而将移动目标分为低活跃和高活跃两类。需要知道的是,在实际应用场景下,可以根据实际需要,对活跃种类的数目进行调整,例如,还可以按照低活跃度、中活跃度和高活跃度的模式进行划分。
在一种实施例中,根据所述嵌入向量在表征空间中的分布情况,将所述嵌入向量确定为低活跃向量或高活跃向量,确定各个所述嵌入向量对应的移动目标属于低活跃度集合或高活跃度集合,包括:
步骤S501,随机选取两个所述嵌入向量,作为两个聚类中心;
步骤S502,随机选择另一所述嵌入向量,计算该嵌入向量在所述表征空间中分别与所述两个聚类中心的距离;
步骤S503,将所述嵌入向量分配给距离更近的所述聚类中心,更新所述聚类中心;
步骤S504,重复上述过程,直至所述两个聚类中心不再发生变化;
步骤S505,根据所述两个聚类中心,将所述嵌入向量分为两类,将数量多的一类所述嵌入向量确定为所述低活跃向量,将数量少的一类所述嵌入向量确定为所述高活跃向量;
步骤S506,将所述低活跃向量对应的移动目标确定为属于低活跃度集合的移动目标,将所述高活跃向量对应的移动目标确定为属于高活跃度集合的移动目标。
在本实施例中,主要利用了K-means聚类算法,对嵌入向量进行聚类,而K-means聚类算法的方法主要为:将移动目标嵌入向量数据分为2组,并随机选取初始的聚类中心。计算每个嵌入向量与两个种子聚类中心之间的距离,把每个嵌入向量分配给距离它最近的聚类中心,在分配一个嵌入向量后,对聚类中心进行更新,重复该聚类过程直到聚类中心不再发生变化。从而得到高活跃度的移动目标组成的高活跃度集合和低活跃度的移动目标组成的低活跃度集合。移动目标具有典型的长尾分布特征:活跃度高的移动目标出行天数多,总数少;低活跃度的移动目标数目更多但其出现的次数少。由此,本实施例利用K-means聚类算法将得到的时空表征向量划分为了2组,组内的移动目标的活跃度相似,组间的移动目标活跃度差别较大。
在时空动向数据挖掘领域,对移动目标进行活跃度区分时,最常见的三个指标为:活跃率、活跃时长和日/月均活动次数。活跃率表示移动目标出现的次数/总天数;活跃时长表示一天内第一次观察到它活动的时间和最后一次观察到它的时间的差值;日/月均活动次数,表示移动目标在平均每日或每月的活动次数,移动目标的日/月均活动次数越多,说明其活跃程度越高。但是选择这些活跃度度量指标仍然可能存在如下问题。一方面,难以从中选择一种方法实现无偏地对移动目标活跃程度进行表征,简单的计算一种指标是否会遗漏重要的活跃程度信息;另一方面,通过临界值的方式区分移动目标的活跃程度需要大量先验知识以支持有效且明显的划分效果。例如,通过观察可以选择一年内出行频次大于50次的移动目标作为高活跃度的移动目标,并将小于等于50次的标记为低活跃度的移动目标,但是如何定义50次这个临界值是一项非常具有挑战的工作。由此,本实施例将确定移动目标的活跃度这一步转换为更自动和科学的过程:基于不同频次或不同活跃程度的移动目标生成嵌入向量表征时,会分布在表征空间的不同子区域这一原理,利用嵌入向量表征移动目标,从而根据嵌入向量的分布情况,将移动目标分为低活跃和高活跃两类。
步骤S106,根据所述移动目标所在的活跃度集合,和该移动目标的目标事件项,生成该移动目标的候选序列集,所述事件项表示该移动目标参与的一种活动事件类型。
根据活跃度不同的移动目标可以采用不同的生成候选序列的方法。具体的,对于活跃度低的移动目标,该移动目标的事件项数据较少,根据该移动目标的目标事件项,可以选择较长的事件项数据组成的候选序列,对于活跃度高的移动目标,该移动目标的事件项数据较多,为了避免较长的候选序列中会出现重复的事件项,根据该移动目标的目标事件项,可以选择较短的事件项数据组成的候选序列。事件项表示该移动目标参与的一种活动事件类型,例如舰船A会有运输、修理、救援、巡回等事件项,事件项数据是指具体的已发生的事件数据,例如,舰船A在1月10日在地域A进行的巡回活动,该事件项数据包含了具体的时间信息、地点信息、移动目标信息和事件类型信息。
步骤S107,根据所述移动目标所在的活跃度集合,将所述候选序列集输入对应的序列模式挖掘模型,得到频繁序列模式集。
序列模式挖掘是增加了时空维度的关联规则发现,用于挖掘时空数据序列(候选序列)中的频繁候选子序列(频繁序列模式)。其中,序列中的元素可以是一个或者多个事件项的集族,序列间元素发生的时间间隔需要满足约束条件。例如,许多移动目标在固定的周期内总是遵循相同的或相近的访问路径,一连串事件先后发生的顺序往往蕴含着隐式的规律。
在本实施例中,由于根据不同活跃度的移动目标生成的候选序列存在差别,所以可以根据活跃度的高低选择不同的序列模式挖掘模型。通过步骤S106可以知道,本实施例是针对移动目标的目标事件项生成的候选序列集,由此,序列模式挖掘模型根据该候选序列集输出的频繁序列模式集,是针对该移动目标的目标事件项得到的,例如,针对移动目标A的事件项b的得到的频繁序列模式集,表示的是移动目标A在参与b类事件时的活动规律数据。
步骤S108,根据所述频繁序列模式集,确定所述移动目标参与所述目标事件项的活动规律。
常见的序列模式挖掘模型均需要生成一系列候选的访问轨迹序列,供模式挖掘算法进行数据库扫描,不同模型根据数据特征进行分析,构造不同的剪枝规则以提高扫描数据的效率。然而,这些方法往往默认研究的移动目标遵循不同的活动规律,但有着相同或相近的活动程度。所以,以往的序列模式挖掘方法忽略了移动目标的活跃度对模式挖掘结果的影响。本实施例首先通过计算移动目标之间的相似度,根据相似度构建时空特征网络,基于该网络获取每个移动目标对应的嵌入向量,从而根据嵌入向量的分布情况,通过聚类的方法划分出低活跃度的移动目标和高活跃度的移动目标。然后根据移动目标的活跃度的不同,分别采用不同方法获取移动目标的候选序列,并基于该移动序列得到需要的频繁序列模式集,从而通过推理该频繁序列模式集,得到移动目标在参与目标事件项时的活动规律,例如舰船A在参与补给事件时的活动规律,该活动规律表示舰船A在参与补给事件时经常行驶的活动轨迹,活动时间等。本实施例利用时空动向信息挖掘的移动目标活动规律,可应用于移动目标动向和事件预测任务中,具有广泛的应用前景,具备较高的技术价值。此外,本实施例增加了事件限定的移动目标,拓展了序列模式挖掘的维度,从事件、时间、空间、属性等多个维度进行了序列模式挖掘,使得最终得到的活动规律更加全面准确。
在一种实施例中,根据所述移动目标所在的活跃度集合,和该移动目标的目标事件项,生成该移动目标的候选序列集,包括:
步骤S601,根据所述多个移动目标的时空动向信息,获取多个事件项数据,每个所述事件项数据至少包括:参与该事件的移动目标信息,事件类型信息和发生时间信息;
在本实施例中,针对每个移动目标,关联该移动目标参与的事件项,即确定该移动目标参与的事件种类,从而从时空动向信息中,确定该移动目标参与了哪些事件,得到事件项数据。
步骤S602,将所述多个事件项数据按照时间顺序进行排序,得到事件项数据集;
步骤S603,根据所述目标事件项的事件类型,从所述事件项数据集中确定出符合所述事件类型的多个候选事件项数据;
步骤S604,在所述移动目标属于所述低活跃度集合的情况下,针对每个候选事件项数据,从所述事件项数据集中提取所述候选事件项数据之前多个事件项数据和之后多个事件项数据,与该候选事件项数据组成一条低活跃度候选序列;
步骤S605,针对所述多个候选事件项数据,重复上一步骤,得到低活跃度候选序列集。
在本实施例中,对于活跃度较低的移动目标,在按照发生先后顺序记录的事件项数据集中,选择候选事件项数据的前后N条事件项数据,一并组成长度为2N+1的低活跃度候选序列。参照图2,图2示出了一种低活跃度候选序列的结构示意图,如图2所示,该条链路表示完整的事件项数据集,选择该链路中候选事件项数据的前后3条事件项数据,一并组成长度为7的低活跃度候选序列,(A,b)为一个事件项数据,表示移动目标A参与的事件项类型为b的事件项数据,由此选择(A,b)前后三个数据组成一条低活跃度候选序列。并且,由于移动目标A多次执行了事件b,所以从该条链路中确定出所有的(A,b)事件项数据,按照相同的方法生成低活跃度候选序列,从而将多条低活跃度候选序列组合得到了低活跃度候选序列集。
挖掘长度较长的序列模式更加有利于后续的推理任务,因为更容易根据观察到的活动记录匹配到对应的活动序列模式。但挖掘得到的序列模型的长度的最大值受限于输入计算模型的候选序列的长度,而候选序列长度过长会导致重叠采样的问题。冲重叠采样指的是,由于数据本身的特性,多数移动目标往往在一段较短的时间内频繁的活动,因此对于某一事件项(移动目标;事件)来说,在事件项数据集中,按时间排序,两次记录之间的间隔不会太长,即移动目标参与相同类型的事件的间隔时间不长。而如果为挖掘更多更长的序列模式放宽采样候选序列的长度会导致两次采样重叠的问题,其子序列也会被多次重复计数,导致部分模式的支持度大于其真实值。
例如,如下序列:
e→f→b→a→b→b→a→b→g→e
该序列中一个字母表示一个事件项数据,相同字母表示属于相同事件类型。对目标事件项a进行候选序列划分。如果设定采样候选序列长度为7,则需抽取每次事件项a发生前和发生后的3条记录组成一条候选序列。该序列中a事件项发生了两次,因此划分的候选序列为e→f→b→a→b→b→a和a→b→b→a→b→g→e。在两个候选序列中都出现了a→b→b→a子序列,因此支持度被记录为2。但在实际的数据集中,a→b→b→a只出现了一次。当选择的序列长度不超过5时,不会出现类似支持度大于真实值的情况。但仍然需要注意,在划分序列时,不应选择过短的划分方案,因为保留尽量长的序列模式,更有利于进行后续推理任务,且长度过小的序列会增加运算量和进一步限制挖掘规则的最高长度。对于本实施例对于低活跃度的移动目标的低活跃度候选序列,建议选择7作为适宜的候选序列长度。
在一种实施例中,在所述移动目标属于所述高活跃度集合的情况下,根据所述移动目标所在的活跃度集合,和该移动目标的目标事件项,生成该移动目标的候选序列集,包括:
将所述事件项数据集按照预设时间段进行划分,得到多个子事件项数据集;
针对每个所述子事件项数据集,根据所述目标事件项的事件类型,从所述事件项数据集中确定出符合所述事件类型的多个候选事件项数据;
从所述子事件项数据集中提取所述候选事件项数据的前1个事件项数据和后1个事件项数据,与该候选事件项数据组成一条短序列;
针对每个所述子事件项数据集中得到的所述短序列,按照时间顺序进行拼接,得到高活跃度候选序列;
针对所述多个子事件项数据集,重复上一步骤,得到高活跃度候选序列集。
在本实施例中,对于属于高活跃度集合中的移动目标来说,其对应的候选序列的长度可能更短。对于活跃度高的移动目标,可以选择事件数据集中该事件项数据的前后1条事件项数据,一并组成长度为3的短序列。并且,对于活跃度高的移动目标来说,对应移动目标不常与规定的某项事件关联,挖掘这类事件项的序列模式成本更高且结果中的有效信息少。示例性的,在调用调试机的时候,任何编程人员都可以无偏好地调用任何一台调试机,而调试机数量有限,被调用的频次很高。因此调试机不会存在与编程人员关联的序列模式,只要它空闲,它就可以被任意人员使用。这样的活跃度和无偏好关联的性质正好对应了时空规则中的高活跃度事件项的特征,其出现频次高,却能与任意事件项相关联。因而在挖掘若干移动目标及其相关联的事件可能引发的若干移动目标及事件的过程中,可以单独区分开这一类的移动目标。以该类项的出现划分月内时间节点,挖掘它每一次发生会引发或同时发生的项。
尽管高活跃度的移动目标的事件项没有自己固定的频繁序列模式,但当出现限制条件时,仍然可以通过它预测接下来可能发生的事件项。仍然以调试机的例子进行举例,如果A、B人员提交了训练任务,接下来任务将交由D、E进行开发。那下一次调试机被使用(再有任务被提交),则可能是D、E完成了后续的开发任务并提交代码进行训练。此时,采样的候选模式则是抽取调试机C两次被调用的前后的事件项组成候选序列。这样做的好处在于不需要手动控制序列的时间范围,D、E人员的开发时长可以任意长,而满足以上序列模式的规则仍然可以被挖掘到。
此外,本实施例是基于整体的时空动向信息(多个移动目标的时空动向信息),生成的事件项数据集。即,在该事件项数据集中,不仅包括该移动目标的事件项数据,还包括其他移动目标的事件项数据。由此,获取到的该移动目标对应的低活跃度候选序列中,不仅包含了该移动目标的事件数据,还包括了与之相关联的事件项数据或关联的其他移动目标的事件项数据。需要知道的是,分布在各个地点的不同移动目标之间也可能存在隐式的关联关系,如A地点特定移动目标的某项特定行为,可能导致一段时间内一个相距较远的其他移动目标受到影响,引起特定事件的发生。在实际应用场景中,人们往往不仅仅关心一项事件产生的影响,其引发的原因也同样具有参考意义,不同移动目标及其关联事件间的关联关系具有广泛的应用价值。本实施例生成的候选序列,包括了该事件前后发生的事件,如图2所示,在第一条低活跃度候选序列中,不仅包括了位于第4项的(A,b),还包括了其前后3条事件项数据,例如其后一项的(C,d),(C,d)表示由移动目标C参与的一个d类事件。在(A,b)之前的3个事件项数据表示引发该(A,b)的关联事件,在(A,b)之前的3个事件项数据,例如(C,d),表示被(A,b)引发的关联事件。本实施例通过将关联事件对应的数据一并记录入候选序列中,充分考虑到了一连串事件间引发关系的影响,从而获取到更加强大和通用的规律,使得挖掘到的序列模式更加全面。
在本发明实施例获取的时空动向信息中,高活跃度移动目标的事件项即为候选序列划分的限制条件,根据其每次出现前后的事件项划分候选序列,从而实现对于下一次高活跃度的事件项出现前后的关联事件项的预测。例如,(C,c)被聚类结果划分为高活跃度标签的事件项,已经记录活动序列 (A,a)(C,c)(B,b)时,同月内再次移动目标C及其关联事件c时,根据挖掘到的序列模式,可以推测出可能与(C,c)一起发生移动目标、事件项为(D,d),(E,e)。在本实施例中,可以以该事件项的出现划分月内时间节点,抽取了每个月内高活跃度事件项同期发生的事件项(前后各一项),也可以根据其他时空数据集的现实需求,适当放宽前后事件项数据的选取个数和范围。参照图3,图3示出了一种高活跃度候选序列的结构示意图,该条链路表示一个月内的事件项数据集,获取子事件项数据集中的所有短序列,具体的选择该链路中候选事件项数据的前后1条事件项数据,一并组成长度为3的短序列,(C,c)为一个事件项数据,表示移动目标C参与的事件项类型为c的事件项数据。根据图3可以看出,在该月内移动目标C一共参与了3次c类事件,所以获取到3条短序列,将这3条短序列按照时间顺序拼接起来,得到一条长度为9的高活跃度候选序列。由此,本实施例即解决了高活跃度移动目标容易出现的事件项数据重叠问题,同时还避免了候选序列过短对后续挖掘带来不利影响。
在一种实施例中,根据所述移动目标所在的活跃度集合,将所述候选序列集输入对应的序列模式挖掘模型,得到频繁序列模式集,包括:
在所述移动目标属于所述低活跃度集合的情况下,将所述低活跃度候选序列集和支持度阈值一并输入PrefixSpan模型,得到该移动目标的低活跃度频繁序列模式集;
在所述移动目标属于所述高活跃度集合的情况下,将所述高活跃度候选序列集输入Spade模型,得到该移动目标的高活跃度频繁序列模式集,所述高活跃度频繁序列模式集中的频繁序列模式按照支持度大小进行排序。
在本实施例中,对于活跃度低的移动目标的候选序列,选择调用PrefixSpan模型进行序列模式挖掘。PrefixSpan算法投影数据库缩小较快,内存消耗稳定,适于低活跃度的事件项关联的频繁序列模式挖掘。在本实施例中,可以设定PrefixSpan的最低支持度为2,通过输入对应的序列数据和支持度阈值,输出得到所有满足支持度要求的频繁序列模式集。
对于活跃度高的移动目标,本实施例选择调用Spade模型进行序列模式挖掘。PrefixSpan运行时最大的消耗在递归的构造投影数据库。序列数据集较大,且项数种类较多时,算法运行速度会有明显下降。而高活跃度的事件项由于可以与大量低活跃度的时间项组合活动,其划分得到的候选序列中往往项数种类数目很大,因而选择Spade模型进行该类序列模式挖掘的规则生成模型,并将其关联的移动目标和事件引发的时空规则按支持度降序排列,从而可以选择性的获取其中支持度最高的多条时空规则,即频繁序列模式。此外,为保证过于活跃的移动目标存储最有效的信息,减少空间复杂度,可以设定不同的截止支持度,保证大部分移动目标均有关联挖掘序列模式的输出,也尽可能突出支持度最大的几条序列模式。
在一种实施例中,所述方法还包括:
对所述时空动向信息进行去重处理。
这是因为,移动目标经常在一个空间位置活动多日才到访下一空间位置,而PrefixSpan和Spade等序列模式挖掘模型均是基于频繁项实现的,停驻在同一空间位置的访问序列由于出现频次高,可能覆盖掉含真正有用信息的对应事件转移规律。因此,本实施例首先对获取到的所述时空动向信息进行去重操作。具体的,通过遍历每一个移动目标的每个事件项数据,短时间内移动目标在同一地点活动被多次记录的状态,只需保留第一条。由此,可以规避最终挖掘到移动目标和事件名称长时间内不发生变化的规则。
以下通过一个示例对本实施例进行说明。
获取多个移动目标的时空动向信息,其中包括200个移动目标同年1-7月的活动数据;在实验开始之前,我们将补给事件记录中的两条移动目标记录拆分为补给和被补给两条,作为后续模型可行性检验依据。
根据多个移动目标的时空动向信息,确定每对移动目标的相似度。
以每个所述移动目标为节点,连接每对相似度高于阈值的移动目标,构建时空特征网络。在本示例中,设相似度的值与最长公共子序列为正相关,如果最长公共子序列的长度大于10,则将两个移动目标的相似度确定为高于阈值,在两个移动目标之间增加一条连边。
根据时空特征网络,获取每个移动目标的嵌入向量,具体的,基于DeepWalk模型生成表征移动目标的时空信息的嵌入向量,以网络中的每一个移动目标节点为起点进行随机游走,并设定游走次数为80次,游走长度为10。调用gensim.word2vec生成各个节点的嵌入。实验中输入了不同时空特征网络随机游走的所有节点序列,并将结果分别保存在各自对应的word2vec.model中。
根据嵌入向量在表征空间中的分布情况,将嵌入向量确定为低活跃向量或高活跃向量,确定各个嵌入向量对应的移动目标属于低活跃度集合或高活跃度集合。对于不同时空特征,实验了最经典的基于频繁项集的Apriori算法,并根据同天活动的记录计算经常出现的频繁项集,该模型结果显示,与移动目标1最经常一起活动的移动目标是移动目标3,而关联规则{移目0}→{移目1}的置信度仅仅为0.78。与输入移动目标,移动目标1,时序特征相近的有三项,地理特征相近的则有10项。利用移动目标的时间和空间访问序列都进行嵌入向量表示,得出只有移动目标0与移动目标1的相似度超过了90%,即这两个移动目标在时空特征上均有重叠。这进一步检验了基于嵌入聚类方法的时空特征表征能力。
根据移动目标所在的活跃度集合,和该移动目标的目标事件项,生成该移动目标的候选序列集。在本示例中,对于属于低活跃度集合的移动目标,生成长度为7的低活跃度候选序列,对于属于高活跃度集合的移动目标,生成高活跃度候选序列。
根据移动目标所在的活跃度集合,将候选序列集输入对应的序列模式挖掘模型,得到频繁序列模式集;对于频繁发生的候选候选集中的每一项,其出现频次较高,为降低计算时的支持度阈值且不挖掘到过多无用和相似的规则,对其进行增加时间跨度减小支持度阈值的操作。PrefixSpan的最低支持度设定为2,对于活跃度高的移动目标来说,查询到支持度从候选访问序列总数到2的所有规则。这样的查询时间复杂度大且记录了大量的重复和无用信息。因此,对于频繁活动的移动目标,通过提高候选序列长度(和最长规则大小),来减小候选访问序列总数(最终挖掘到的规则数量)。即不限制候选序列的最大长度(此时序列长度最大为31),转而改变为令候选序列的条数受月份限制。选择其前后发生的项,根据其发生月数和当月发生次数记录候选序列。因为原始数据记录的是同一年1-7月的数据,确定最大支持度为7。
将调整后的的低活跃度候选序列数据输入Spade模型,高活跃度候选序列输入PrefixSpan模型。对于模型输出结果中的每一项,将其关联的移动目标和事件引发的时空规则按支持度降序排列。其中,支持度最高不超过月份数(即不超过7,因为测试数据只含七个月的数据)。同时,模型输出显示之前拆分的补给事件可以被挖掘到,进一步验证了模型的可行性。
本实施例还提供了一种移动目标的活动规律确定装置,参照图4,图4示出了一种移动目标的活动规律确定装置的结构示意图,所述装置包括:
获取模块,用于获取多个移动目标的时空动向信息,所述时空动向信息用于描述每个所述移动目标参与的多个时空动向事件;
相似度确定模块,用于根据所述多个移动目标的时空动向信息,确定每对所述移动目标的相似度,所述相似度表示该对移动目标在时空特征上的重叠程度;
时空特征网络构建模块,用于以每个所述移动目标为节点,连接每对相似度高于阈值的移动目标,构建时空特征网络;
嵌入向量获取模块,用于根据所述时空特征网络,获取每个所述移动目标的嵌入向量;
活跃度划分模块,用于根据所述嵌入向量在表征空间中的分布情况,将所述嵌入向量确定为低活跃向量或高活跃向量,确定各个所述嵌入向量对应的移动目标属于低活跃度集合或高活跃度集合;
候选序列生成模块,用于根据每个所述移动目标所在的活跃度集合,和该移动目标的目标事件项,生成该移动目标的候选序列集,所述事件项表示该移动目标参与的一种活动事件类型;
序列模式挖掘模块,用于根据所述移动目标所在的活跃度集合,将所述候选序列集输入对应的序列模式挖掘模型,得到频繁序列模式集;
确定模块,用于根据所述频繁序列模式集,确定所述移动目标参与所述目标事件项的活动规律。
在一种实施例中,所述相似度确定模块,包括:
轨迹序列确定子模块,用于根据每个所述移动目标的时空动向信息,确定该移动目标的轨迹序列,所述轨迹序列表示该移动目标先后到访的时间和空间序列;
最长公共子序列确定子模块,用于根据所述轨迹序列,确定每对所述移动目标的最长公共子序列,所述最长公共子序列表示该对移动目标的轨迹序列之间的相同片段的组合;
相似度确定子模块,用于根据所述最长公共子序列的长度,确定该对移动目标的相似度。
在一种实施例中,所述嵌入向量获取模块。包括:
随机游走子模块,用于以所述节点为起点,在所述时空特征网络中进行随机游走,得到节点序列;
嵌入向量获取子模块,用于将所述节点序列输入skip-gram模型,得到所述节点对应的嵌入向量。
在一种实施例中,所述活跃度划分模块,包括:
第一划分子模块,用于随机选取两个所述嵌入向量,作为两个聚类中心;
第二划分子模块,用于随机选择另一所述嵌入向量,计算该嵌入向量在所述表征空间中分别与所述两个聚类中心的距离;
第三划分子模块,用于将所述嵌入向量分配给距离更近的所述聚类中心,更新所述聚类中心;
第四划分子模块,用于重复上述过程,直至所述两个聚类中心不再发生变化;
第五划分子模块,用于根据所述两个聚类中心,将所述嵌入向量分为两类,将数量多的一类所述嵌入向量确定为所述低活跃向量,将数量少的一类所述嵌入向量确定为所述高活跃向量;
第六划分子模块,用于将所述低活跃向量对应的移动目标确定为属于低活跃度集合的移动目标,将所述高活跃向量对应的移动目标确定为属于高活跃度集合的移动目标。
在一种实施例中,所述序列模式挖掘模块,包括:
事件项数据获取子模块,用于根据所述多个移动目标的时空动向信息,获取多个事件项数据,每个所述事件项数据至少包括:参与该事件的移动目标信息,事件类型信息和发生时间信息;
事件项数据集获取子模块,用于将所述多个事件项数据按照时间顺序进行排序,得到事件项数据集;
候选事件项数据获取子模块,用于根据所述目标事件项的事件类型,从所述事件项数据集中确定出符合所述事件类型的多个候选事件项数据;
低活跃度候选序列生成子模块,用于在所述移动目标属于所述低活跃度集合的情况下,针对每个候选事件项数据,从所述事件项数据集中提取所述候选事件项数据之前多个事件项数据和之后多个事件项数据,与该候选事件项数据组成一条低活跃度候选序列;
低活跃度候选序列集生成子模块,用于针对所述多个候选事件项数据,重复上一步骤,得到低活跃度候选序列集;
在一种实施例中,在所述移动目标属于所述高活跃度集合的情况下,所述装置还包括:
子事件项数据集获取模块,用于将所述事件项数据集按照预设时间段进行划分,得到多个子事件项数据集;
候选事件项数据确定模块,用于针对每个所述子事件项数据集,根据所述目标事件项的事件类型,从所述事件项数据集中确定出符合所述事件类型的多个候选事件项数据;
短序列生成模块,用于从所述子事件项数据集中提取所述候选事件项数据的前1个事件项数据和后1个事件项数据,与该候选事件项数据组成一条短序列;
高活跃度候选序列生成模块,用于针对每个所述子事件项数据集中得到的所述短序列,按照时间顺序进行拼接,得到高活跃度候选序列;
高活跃度候选序列集生成模块,用于针对所述多个子事件项数据集,重复上一步骤,得到高活跃度候选序列集。
在一种实施例中,所述序列模式挖掘模块,包括:
第一序列模式挖掘子模块,用于在所述移动目标属于所述低活跃度集合的情况下,将所述低活跃度候选序列集和支持度阈值一并输入PrefixSpan模型,得到该移动目标的低活跃度频繁序列模式集;
第二序列模式挖掘子模块,用于在所述移动目标属于所述高活跃度集合的情况下,将所述高活跃度候选序列集输入Spade模型,得到该移动目标的高活跃度频繁序列模式集,所述高活跃度频繁序列模式集中的频繁序列模式按照支持度大小进行排序。
本发明实施例还提供了一种电子设备,参照图5,图5示出了本申请实施例提出的一种电子设备的示意图。如图5所示,电子设备100包括:存储器110和处理器120,存储器110与处理器120之间通过总线通信连接,存储器110中存储有计算机程序,该计算机程序可在处理器120上运行,进而实现本发明实施例公开的一种移动目标的活动规律确定方法中的步骤。
本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序/指令,该计算机程序/指令被处理器执行时实现如本发明实施例公开的一种移动目标的活动规律确定方法中的步骤。
本发明实施例还提供了一种计算机程序产品,所述计算机程序产品在电子设备上运行时,使处理器执行时实现本发明实施例公开的一种移动目标的活动规律确定方法中的步骤。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本发明实施例是参照根据本发明实施例的方法、装置、电子设备和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的一种移动目标的活动规律确定方法、装置、设备和介质,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种移动目标的活动规律确定方法,其特征在于,所述方法包括:
获取多个移动目标的时空动向信息,所述时空动向信息用于描述每个所述移动目标参与的多个时空动向事件;
根据所述多个移动目标的时空动向信息,确定每对所述移动目标的相似度,所述相似度表示该对移动目标在时空特征上的重叠程度;
以每个所述移动目标为节点,连接每对相似度高于阈值的移动目标,构建时空特征网络;
根据所述时空特征网络,获取每个所述移动目标的嵌入向量;
根据所述嵌入向量在表征空间中的分布情况,将所述嵌入向量确定为低活跃向量或高活跃向量,确定各个所述嵌入向量对应的移动目标属于低活跃度集合或高活跃度集合;
根据所述移动目标所在的活跃度集合,和该移动目标的目标事件项,生成该移动目标的候选序列集,所述事件项表示该移动目标参与的一种活动事件类型;
根据所述移动目标所在的活跃度集合,将所述候选序列集输入对应的序列模式挖掘模型,得到频繁序列模式集;
根据所述频繁序列模式集,确定所述移动目标参与所述目标事件项的活动规律。
2.根据权利要求1所述的活动规律确定方法,其特征在于,根据所述多个移动目标的时空动向信息,确定每对所述移动目标的相似度,包括:
根据每个所述移动目标的时空动向信息,确定该移动目标的轨迹序列,所述轨迹序列表示该移动目标先后到访的时间和空间序列;
根据所述轨迹序列,确定每对所述移动目标的最长公共子序列,所述最长公共子序列表示该对移动目标的轨迹序列之间的相同片段的组合;
根据所述最长公共子序列的长度,确定该对移动目标的相似度。
3.根据权利要求1所述的活动规律确定方法,其特征在于,根据所述时空特征网络,获取每个所述移动目标的嵌入向量,包括:
以所述节点为起点,在所述时空特征网络中进行随机游走,得到节点序列;
将所述节点序列输入skip-gram模型,得到所述节点对应的嵌入向量。
4.根据权利要求1所述的活动规律确定方法,其特征在于,根据所述嵌入向量在表征空间中的分布情况,将所述嵌入向量确定为低活跃向量或高活跃向量,确定各个所述嵌入向量对应的移动目标属于低活跃度集合或高活跃度集合,包括:
随机选取两个所述嵌入向量,作为两个聚类中心;
随机选择另一所述嵌入向量,计算该嵌入向量在所述表征空间中分别与所述两个聚类中心的距离;
将所述嵌入向量分配给距离更近的所述聚类中心,更新所述聚类中心;
重复上述过程,直至所述两个聚类中心不再发生变化;
根据所述两个聚类中心,将所述嵌入向量分为两类,将数量多的一类所述嵌入向量确定为所述低活跃向量,将数量少的一类所述嵌入向量确定为所述高活跃向量;
将所述低活跃向量对应的移动目标确定为属于低活跃度集合的移动目标,将所述高活跃向量对应的移动目标确定为属于高活跃度集合的移动目标。
5.根据权利要求1所述的活动规律确定方法,其特征在于,根据所述移动目标所在的活跃度集合,和该移动目标的目标事件项,生成该移动目标的候选序列集,包括:
根据所述多个移动目标的时空动向信息,获取多个事件项数据,每个所述事件项数据至少包括:参与该事件的移动目标信息,事件类型信息和发生时间信息;
将所述多个事件项数据按照时间顺序进行排序,得到事件项数据集;
根据所述目标事件项的事件类型,从所述事件项数据集中确定出符合所述事件类型的多个候选事件项数据;
在所述移动目标属于所述低活跃度集合的情况下,针对每个候选事件项数据,从所述事件项数据集中提取所述候选事件项数据之前的多个事件项数据和之后的多个事件项数据,与该候选事件项数据组成一条低活跃度候选序列;
针对所述多个候选事件项数据,重复上一步骤,得到低活跃度候选序列集。
6.根据权利要求5所述的活动规律确定方法,其特征在于,在所述移动目标属于所述高活跃度集合的情况下,根据所述移动目标所在的活跃度集合,和该移动目标的目标事件项,生成该移动目标的候选序列集,包括:
将所述事件项数据集按照预设时间段进行划分,得到多个子事件项数据集;
针对每个所述子事件项数据集,根据所述目标事件项的事件类型,从所述事件项数据集中确定出符合所述事件类型的多个候选事件项数据;
从所述子事件项数据集中提取所述候选事件项数据的前1个事件项数据和后1个事件项数据,与该候选事件项数据组成一条短序列;
针对每个所述子事件项数据集中得到的所述短序列,按照时间顺序进行拼接,得到高活跃度候选序列;
针对所述多个子事件项数据集,重复上一步骤,得到高活跃度候选序列集。
7.根据权利要求6所述的活动规律确定方法,其特征在于,根据所述移动目标所在的活跃度集合,将所述候选序列集输入对应的序列模式挖掘模型,得到频繁序列模式集,包括:
在所述移动目标属于所述低活跃度集合的情况下,将所述低活跃度候选序列集和支持度阈值一并输入PrefixSpan模型,得到该移动目标的低活跃度频繁序列模式集;
在所述移动目标属于所述高活跃度集合的情况下,将所述高活跃度候选序列集输入Spade模型,得到该移动目标的高活跃度频繁序列模式集,所述高活跃度频繁序列模式集中的频繁序列模式按照支持度大小进行排序。
8.一种移动目标的活动规律确定装置,其特征在于,所述装置包括:
获取模块,用于获取多个移动目标的时空动向信息,所述时空动向信息用于描述每个所述移动目标参与的多个时空动向事件;
相似度确定模块,用于根据所述多个移动目标的时空动向信息,确定每对所述移动目标的相似度,所述相似度表示该对移动目标在时空特征上的重叠程度;
时空特征网络构建模块,用于以每个所述移动目标为节点,连接每对相似度高于阈值的移动目标,构建时空特征网络;
嵌入向量获取模块,用于根据所述时空特征网络,获取每个所述移动目标的嵌入向量;
活跃度划分模块,用于根据所述嵌入向量在表征空间中的分布情况,将所述嵌入向量确定为低活跃向量或高活跃向量,确定各个所述嵌入向量对应的移动目标属于低活跃度集合或高活跃度集合;
候选序列生成模块,用于根据每个所述移动目标所在的活跃度集合,和该移动目标的目标事件项,生成该移动目标的候选序列集,所述事件项表示该移动目标参与的一种活动事件类型;
序列模式挖掘模块,用于根据所述移动目标所在的活跃度集合,将所述候选序列集输入对应的序列模式挖掘模型,得到频繁序列模式集;
确定模块,用于根据所述频繁序列模式集,确定所述移动目标参与所述目标事件项的活动规律。
9.一种电子设备,其特征在于,包括:处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如权利要求1-7任一项所述的移动目标的活动规律确定方法中的步骤。
10.一种可读存储介质,其特征在于,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如权利要求1-7任一项所述的移动目标的活动规律确定方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310042929.XA CN116049690B (zh) | 2023-01-28 | 2023-01-28 | 一种移动目标的活动规律确定方法、装置、设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310042929.XA CN116049690B (zh) | 2023-01-28 | 2023-01-28 | 一种移动目标的活动规律确定方法、装置、设备和介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116049690A true CN116049690A (zh) | 2023-05-02 |
CN116049690B CN116049690B (zh) | 2023-06-09 |
Family
ID=86116348
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310042929.XA Active CN116049690B (zh) | 2023-01-28 | 2023-01-28 | 一种移动目标的活动规律确定方法、装置、设备和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116049690B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7962483B1 (en) * | 2002-12-20 | 2011-06-14 | Oracle International Corporation | Association rule module for data mining |
CN108170834A (zh) * | 2018-01-12 | 2018-06-15 | 南京理工大学 | 一种移动目标关联共现模式的确定方法 |
CN109409393A (zh) * | 2018-06-20 | 2019-03-01 | 苏州大学 | 一种使用轨迹嵌入对用户活动轨迹建模的方法 |
CN111695046A (zh) * | 2020-04-23 | 2020-09-22 | 清华大学 | 基于时空移动数据表征学习的用户画像推断方法及装置 |
CN113901165A (zh) * | 2021-10-25 | 2022-01-07 | 青岛中科曙光科技服务有限公司 | 轨迹数据的处理方法、装置、终端及存储介质 |
CN115203480A (zh) * | 2022-05-10 | 2022-10-18 | 中国人民解放军91977部队 | 一种基于深层关联分析的目标群编成隶属关系挖掘方法 |
-
2023
- 2023-01-28 CN CN202310042929.XA patent/CN116049690B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7962483B1 (en) * | 2002-12-20 | 2011-06-14 | Oracle International Corporation | Association rule module for data mining |
CN108170834A (zh) * | 2018-01-12 | 2018-06-15 | 南京理工大学 | 一种移动目标关联共现模式的确定方法 |
CN109409393A (zh) * | 2018-06-20 | 2019-03-01 | 苏州大学 | 一种使用轨迹嵌入对用户活动轨迹建模的方法 |
CN111695046A (zh) * | 2020-04-23 | 2020-09-22 | 清华大学 | 基于时空移动数据表征学习的用户画像推断方法及装置 |
CN113901165A (zh) * | 2021-10-25 | 2022-01-07 | 青岛中科曙光科技服务有限公司 | 轨迹数据的处理方法、装置、终端及存储介质 |
CN115203480A (zh) * | 2022-05-10 | 2022-10-18 | 中国人民解放军91977部队 | 一种基于深层关联分析的目标群编成隶属关系挖掘方法 |
Non-Patent Citations (2)
Title |
---|
谢彬;张琨;蔡颖;蒋彤彤;麻孟越;: "移动目标关联共现规则挖掘算法研究", 计算机工程, no. 08 * |
闵圣捷: "面向多元时空轨迹的社交网络分析算法研究", 《中国优秀博士学位论文全文数据库》, pages 3 - 5 * |
Also Published As
Publication number | Publication date |
---|---|
CN116049690B (zh) | 2023-06-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhao et al. | Predictive task assignment in spatial crowdsourcing: a data-driven approach | |
Zhou et al. | A method for real-time trajectory monitoring to improve taxi service using GPS big data | |
Chen et al. | A system for destination and future route prediction based on trajectory mining | |
Chen et al. | Constructing and comparing user mobility profiles | |
CN104462190A (zh) | 一种基于海量空间轨迹挖掘的在线的位置预测方法 | |
Huang et al. | A bimodal Gaussian inhomogeneous Poisson algorithm for bike number prediction in a bike-sharing system | |
CN109697512B (zh) | 基于贝叶斯网络的个人数据分析方法及计算机存储介质 | |
CN113763700A (zh) | 信息处理方法、装置、计算机设备及存储介质 | |
WO2020086336A1 (en) | Space utilization measurement and modeling using artificial intelligence | |
Huang et al. | Modeling herds and their evolvements from trajectory data | |
Pang et al. | Development of people mass movement simulation framework based on reinforcement learning | |
CN105205052A (zh) | 一种数据挖掘方法及装置 | |
CN110275911A (zh) | 基于频繁序列模式的私家车出行热点路径挖掘方法 | |
CN112364176A (zh) | 一种人员行动轨迹的构建方法、设备及*** | |
Bahuleyan et al. | Arterial path-level travel-time estimation using machine-learning techniques | |
Yang et al. | Feature selection in conditional random fields for map matching of GPS trajectories | |
CN116010722A (zh) | 一种基于网格时空知识图谱的动态多目标时空问题的查询方法 | |
Li et al. | Toward translating raw indoor positioning data into mobility semantics | |
CN116049690B (zh) | 一种移动目标的活动规律确定方法、装置、设备和介质 | |
Cui et al. | Mining spatial-temporal correlation of sensory data for estimating traffic volumes on highways | |
Zhang et al. | An Algorithm for Mining Gradual Moving Object Clusters Pattern From Trajectory Streams. | |
Al-Molegi et al. | Regions-of-interest discovering and predicting in smartphone environments | |
Yu et al. | Map‐Matching on Low Sampling Rate Trajectories through Frequent Pattern Mining | |
Winter | Towards a probabilistic time geography | |
Jensen et al. | Vehicle data activity quantification using spatio-temporal GIS on modelling smart cities |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |