CN112749209B - 面向时空数据的移动行为图谱构建方法 - Google Patents

面向时空数据的移动行为图谱构建方法 Download PDF

Info

Publication number
CN112749209B
CN112749209B CN202011629525.3A CN202011629525A CN112749209B CN 112749209 B CN112749209 B CN 112749209B CN 202011629525 A CN202011629525 A CN 202011629525A CN 112749209 B CN112749209 B CN 112749209B
Authority
CN
China
Prior art keywords
mobile behavior
nodes
node
behavior pattern
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011629525.3A
Other languages
English (en)
Other versions
CN112749209A (zh
Inventor
袁晓洁
潘璇
蔡祥睿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nankai University
Original Assignee
Nankai University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nankai University filed Critical Nankai University
Priority to CN202011629525.3A priority Critical patent/CN112749209B/zh
Publication of CN112749209A publication Critical patent/CN112749209A/zh
Application granted granted Critical
Publication of CN112749209B publication Critical patent/CN112749209B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Economics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Animal Behavior & Ethology (AREA)
  • Remote Sensing (AREA)
  • Computing Systems (AREA)
  • Fuzzy Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明属于数据挖掘技术领域,更具体地,基于位置服务的社交网络中的时空数据,构建符合用户出行规律的移动行为图谱表示方法。图谱的构建主要由三个部分组成,第一部分是移动行为图谱的构建,该部分先对原始用户签到数据进行预处理操作,然后建立移动行为图谱;第二部分是基于移动行为图谱的门控图神经网络的构建,这部分提出将图谱的节点和边融合至节点向量和节点更新函数的方法;第三部分是基于图谱向量化表示的位置预测网络的构建,这部分提出将更新后的节点向量用于位置预测网络的方法。通过基于移动行为图谱的位置预测模型能从多角度、全方位地覆盖时空数据属性,能够更准确地捕捉用户移动特征,从而提高了位置预测的准确性。

Description

面向时空数据的移动行为图谱构建方法
技术领域
本发明属于数据挖掘技术领域,更具体地,基于位置服务的社交网络中的时空数据,构建符合用户出行规律的移动行为图谱表示方法。
背景技术
随着移动智能设备的飞速普及和发展,移动互联网已渗透至人们生活中的方方面面。通过带有GPS、WiFi等传感器的智能移动终端,人们可以随时随地在社交网络上分享和获取信息。在许多移动终端应用中,如外卖、打车、餐饮和购物等等,都需要用户提供位置信息,因此基于位置服务的社交网络中积累了大量的包含时空属性的用户数据,这些数据反映了丰富的人群移动信息,被用于轨迹挖掘、智慧交通和城市计算等许多研究和应用领域。时空数据携带的语义信息反映出用户在移动过程中的活动目的,即用户在不同地点间移动背后的驱动因素。因此掌握和建模这些活动目的的变化规律可以帮助我们预测位置移动模式,进而优化位置服务与应用,如地点推荐、路径规划、用户行为分析和公共卫生防疫等。
位置预测是时空数据挖掘的一个重要任务,它是通过用户历史签到记录,捕捉多种多样的移动行为模式和个体偏好,以此来判断用户未来可能访问的位置的一类问题。然而,时空数据的多源异构性、分布稀疏性以及个体移动模式中的复杂性,使位置预测的效果不甚理想。在现有的位置预测模型中,仍存在时间或空间属性的利用程度不高、挖掘程度不足的问题,例如数据特征无法完全体现在预测模型中,或多个特征之间融合程度不高,导致模型输入的数据结构无法完整展现用户移动规律,从而直接影响预测效果。因此时空数据属性的深度利用,仍然是一个不容忽视的重要问题。
数据的图谱化表示能通过图结构展现数据不同属性信息之间直接或间接的关联,因此利用图谱表示时空数据,即以一种有着高度连结性的数据组织结构作为位置预测模型的输入是一种可行的技术手段。然而目前现有的相关成果中,图表示下的时空数据仍存在属性利用不完全、用户移动特征表示不充分的问题。因此进一步改进数据特征的组织方式,以全面而彻底地展示用户移动行为为目的来组织时空数据具有非常重要的研究意义。
综上所述,将时空数据复杂属性进行深度挖掘与融合,形成合理有序的数据组织方式来提高位置预测效果,是一个合理而可行的创新角度,具有重要的研究意义和应用价值。
发明内容
本发明的目的是从位置服务应用中的位置预测任务实际需求出发,针对时空数据多源异质与极度稀疏的特点,提出一种融合多角度时空属性的移动行为图谱构建方法,进而实现时空数据的深度利用与挖掘,最终达到提高预测用户未来访问位置准确率的目的。
移动行为图谱的构建旨在通过时空数据属性的全面覆盖与表示,进而提高位置预测模型的预测准确率。图谱的构建方法由三部分组成,首先将地理社交网络中的时空数据形成融合多元属性的图谱表示;然后将图谱作为门控图神经网络的输入进行图谱节点向量的表示学习;最后利用图谱的向量化表示实现用户位置预测。
为实现上述目的,本发明采用如下技术方案:
面向时空数据的移动行为图谱构建方法,它包括以下步骤:
步骤S1、获取用户位置信息等数据,并对数据进行预处理;
步骤S2、基于处理后的用户数据构建移动行为图谱;
步骤S3、移动行为图谱放入到门控图神经网络和位置预测网络中,实现位置预测。
本技术方案进一步的优化,所述步骤S1中数据是从基于位置服务的社交网络数据库中获得。
本技术方案进一步的优化,所述步骤S1中数据包括用户ID、地点ID及时间。
本技术方案进一步的优化,所述步骤S2移动行为图谱的节点采用(ti,pi)表示,其中ti为绝对时间,pi为绝对位置;移动行为图谱的边为有向边,其时间槽靠前的节点指向靠后的节点。
本技术方案更进一步的优化,所述移动行为图谱的边还包括两两节点之间的相对关系,每条边记录着每对节点之间相对时间与相对位置信息,其中相对时间以两个节点对应时间槽的间隔时长进行表示,相对位置以两个节点对应的位置距离进行表示。
本技术方案进一步的优化,所述步骤S3包括移动行为图谱构建后,采用门控图神经网络生成图谱的向量化表示。
本技术方案更进一步的优化,所述门控图神经网络生成图谱的向量化具体包括:
步骤S3.1移动行为图谱节点的向量表示方法
定义1:移动行为图谱节点的嵌入向量,向量表示节点中的地点信息,向量/>表示节点中的时间槽,向量/>表示节点中的地理网格,其中dp、dt和dr分别为三种向量的维数,因此图谱节点v的向量表示如下:
其中表示向量的连接,hv表示节点v的嵌入向量;
步骤S3.2移动行为图谱边在门控图神经网络中的表示方法
定义2:地点转移矩阵其中|V|为图谱中节点个数,Atr用于表示地点之间的转移关系;
定义3:时间间隔矩阵Aiv用于表示图谱中所有被边关联的节点对之间的时间间隔信息,对于每个出现在图谱中的节点对(vi,vj),其相对时间相关度表示为:
其中η∈[0,1]作为控制相关性的衰减速率的预设参数,|tsi-tsj|为两个节点绝对时间tsi和tsj的时间间隔,值越大,说明两个节点间的时间相关度越高;
定义4:位置距离矩阵Adt用于表示图谱中所有被边关联的节点对之间的位置距离信息,矩阵的值通过径向基核函数确定,即每一节点对的位置相关度可通过核函数的值表示,具体可表示为:
其中δ>0作为权衡相对距离的预设参数,ci和cj为节点对(vi,vj)的坐标信息,由节点所在位置的经度和纬度组成,值越大,说明两个节点间的位置相关度越高;
步骤3.3移动行为图谱节点向量在门控图神经网络中的表示学习方法
节点集合向量hv、地点转移矩阵Atr、时间间隔矩阵Aiv和位置距离矩阵Adt以如下方式融合至网络的循环函数中:
以上计算描述的是图谱节点集合向量hv在t-1时刻的一次更新,其中为第i个节点在t-1时刻的嵌入向量,btr、biv和bdt为可训练偏置参数,/>Uz、/> Ur、W和U为可训练线性权重参数,zv和rv分别作为门控图神经网络中的更新门和重置门,σ和tanh分别为网络中的激活函数Sigmoid和Tanh,⊙代表矩阵的点乘运算,节点集合向量hv经过t次循环函数的更新后,形成嵌入向量/>本技术方案更进一步的优化,所述经过循环函数更新后的图谱节点向量,首先在每个节点中赋予图谱所有节点的注意力,然后将所有图谱节点通过线性神经网络进行累加,具体如下:
其中vn为图谱中所有涉及节点的嵌入向量集合,vi为图谱中第i个节点,|V|为图谱中节点个数,σ为Sigmoid激活函数,W1、W2和bg为可训练神经网络参数,得到图谱节点累加向量g后,将其和所有地点向量相乘并利用Softmax函数得到位置预测的概率分布,具体如下:
利用Cross-entropy作为整体网络的目标函数,具体如下:
其中k为一个移动行为图谱对应的真实值个数,即该移动行为图谱对应的所有后续到访的地点的数量;为模型预测值的概率分布;yi为真实值的独热向量。
本技术方案更进一步的优化,所述时间间隔矩阵的值通过牛顿冷却定律确定。
本技术方案更进一步的优化,所述时间间隔矩阵定义中当存在相同的两个节点在同一图谱中存在多种时间间隔的情况,保留其中最短的时间间隔。
本技术方案进一步的优化,所述步骤S1中预处理的数据包括用户ID、地点ID、时间槽ID、地理网格ID、经度和纬度。
本发明提出一个全新的处理位置预测任务的方法,即通过建立用户的移动行为图谱的方式推断用户未来可能到访的地点;图谱的构建实现了时空数据复杂属性的多方位、多角度利用,全面深入地体现用户移动规律,有助于更加准确地描述用户移动行为模式,进而达到提高位置预测的效果。
相对于目前现有技术,本发明具有如下优点:
1)相比以往将签到记录以离散形式或序列形式建模位置预测模型的输入,本发明利用图结构组织与表示时空数据,能进一步提高用户签到记录之间的关联性表示;
2)本发明分别针对时间与空间的绝对和相对两个方面分别融合至图谱的表示中,比以往模型在属性的覆盖方面更加全面,用户移动行为的刻画程度也更加深入和准确;
3)本发明在以往以邻接记录序列化处理的方法的基础之上,进一步实现了非邻接签到记录之间的关系挖掘,进而更为完整地捕捉到用户于不同位置间的转移模式;
4)利用移动行为图谱建模门控图神经网络和相应的位置预测模型,实现了图谱元素的完整融合,相关实验证明了该模型提高了位置预测的准确度。
附图说明
图1为移动行为图谱示意图;
图2为基于移动行为图谱的位置预测模型框架图;
图3为基于移动行为图谱的位置预测方法处理流程图;
图4为用户签到序列转化地点转移矩阵示例图;
图5为两种位置服务数据集Gowalla和Foursquare的用户数据情况示意图;
图6为基于Gowalla和Foursquare两个数据集的位置预测结果比较示意图。
具体实施方式
为详细说明技术方案的技术内容、构造特征、所实现目的及效果,以下结合具体实施例并配合附图详予说明。
移动行为图谱的构建主要包括两个部分,一是利用时空数据的构建用户移动行为的图谱表示,参阅图1所示,为移动行为图谱示意图;二是构建基于移动行为图谱的位置预测模型,该模型由门控图神经网络和位置预测网络两部分组成,模型的框架如图2所示,为基于移动行为图谱的位置预测模型框架图。从时空数据的收集直至最后位置预测结果的生成一共分为4个步骤,其流程图如图3所示,为基于移动行为图谱的位置预测方法处理流程图,以下结合具体数据集对本专利的实现流程做进一步说明。
步骤S1:位置服务数据的预处理
1.1数据采集
以地理社交网络Gowalla和Foursquare中的数据作为网络训练和预测对象,提取其用户签到记录作为构建移动行为图谱的基本数据。其中Gowalla数据选取斯坦福大学提供的公开数据集,该数据集提供了从2009年2月至2010年10月的用户签到数据;Foursquare数据使用的是Dingqi Yang等人提供的数据集,涉及从2012年4月至2013年9月美国地区的数据。参阅图5所示,为两种位置服务数据集Gowalla和Foursquare的用户数据情况示意图。两个数据集均采用Yiding Liu等人提出的过滤和划分方法,其中对于Gowalla数据集,过滤访问地点少于15个的用户和访问用户少于10人的地点,最终得到的用户数量为18737,地点数量为32510,签到记录数量为1278274。对于Foursquare数据集,过滤访问地点少于10个的用户和访问用户少于10人的地点,最终得到的用户数量为24941,地点数量为28593,签到记录数量为1196248。两个数据集中,训练集、验证集和测试集的比例分别为70%、10%和20%,并且为了保障预测未来访问地点的任务需求,出现在验证集和测试集中的访问记录,其地点未出现在训练集中,并且访问时间均在训练集之后。
1.2数据处理
由于移动行为图谱是以用户为单位构建的,因此签到记录需以用户ID分组。签到时间按照选取的粒度划分成不同的时间区间,即时间槽,每个具体时间能映射到相应的时间槽中,最终以时间槽ID表示签到的具体时间。签到地点所在的位置信息以地理网格表示,根据获取到数据中全部签到地点涉及的经纬度范围,分别将经度和纬度划分成多个子区间,进而形成地理网格。再根据签到记录中地点ID的经纬度信息映射至对应的网格中,最终以地理网格ID表示位置信息。经过预处理后的签到记录涉及的属性信息包括:用户ID、地点ID、时间槽ID、地理网格ID、经度和纬度。
两个数据集中,按照上述的方法划分时间槽和地理网格,具体方式为将时间均以周为一个周期划分成24*7=168个时间槽,将用户签到记录中的具体访问时间映射至时间槽中,以对应的时间槽ID表示签到时间息;根据数据集中签到记录位置的经纬度范围,将经度和纬度分别划分成150和50个子区间,最终形成7500个地理网格,根据用户签到记录中地点所在具***置映射至相应的网格中,以对应的地理网格ID表示位置信息。因为用户对应签到记录时间跨度不一,为了便于图谱和预测模型的建立,将用户所有的签到记录按一定的时间跨度划分成数个子区间,然后在步骤S2中,为每一区间建立对应的移动行为图谱,通过模型调试,最终确定Gowalla图谱时间跨度为1周,Foursquare图谱时间跨度为2周。
步骤S2:移动行为图谱的构建
每个用户对应一组行为图谱,按照步骤S1的设置,Gowalla数据集中每个用户的每张图谱是通过1周的签到记录组成,而对于Foursquare数据集,每张图谱是由2周的签到记录组成。
2.1融合多元时空属性的移动行为图谱表示方法
2.1.1移动行为图谱的节点表示方法
由于时空数据中,时间与空间分别存在绝对与相对的概念。图谱中的每一节点代表一个包含时间与位置绝对信息的签到地点,即节点信息由签到地点ID、时间槽ID和位置ID三部分信息组成,如图1图谱示意图右侧的节点展开图所示。比如用户分别上传了两个签到记录,记录1的时间槽ID与地点ID信息为(t1,p1),记录2为(t2,p2),其中t1和t2为绝对时间,p1和p2为绝对位置;而t1与t2的间隔长为相对时间,p1与p2的距离为相对位置。移动行为图谱的节点用于表示时空数据中的绝对信息,每个节点中用户访问的地点ID作为基本信息,此外节点中还包含该访问记录对应的时间槽ID,以及地理网格信息ID。因而每个节点代表的时空语义为“某时刻下位于某网格区域中的地点X”。
2.1.2移动行为图谱的边表示方法
移动行为图谱不同于以往作为位置预测模型输入常用到的序列数据结构,而是以图的方式关联用户签到记录,图谱中任何存在访问先后顺序的两两节点之间均以边关联。图谱的边为有向边,其时间槽靠前的节点指向靠后的节点。此外,图谱的边还包含两两节点之间的相对关系,如图1的图谱示意图所示,每条边记录着每对节点之间相对时间与相对位置信息,其中相对时间以两个节点对应时间槽的间隔时长进行表示;相对位置以两个节点对应的位置距离进行表示。
图谱的边同时关联签到记录中存在先后访问关系的邻接与非邻接的签到记录,边的方向由被关联的两个节点签到时间的先后顺序决定,靠前的节点指向靠后的节点;此外每条边包含被关联节点对的相对时间与位置信息,即节点对的时间间隔和位置距离。
2.2移动行为图谱的节点向量表示学习方法
移动行为图谱构建后,利用位置预测模型实现预测结果的生成,该模型的框架图如图2所示。其中以图谱作为输入,先采用门控图神经网络进行向量化表示,然后进行节点更新,最终经由位置预测网络输出结果,整体处理流程如图3所示。因此为了通过网络训练学习得到图谱节点向量,需按照如下流程构造图神经网络结构:
2.2.1图谱节点的向量表示方法
定义1:移动行为图谱节点的嵌入向量,定义如下:
向量表示节点中的地点信息;向量/>表示节点中的时间槽;向量表示节点中的地理网格,其中dp、dt和dr分别为三种向量的维数。因此图谱节点v的向量表示如下:
其中表示向量的连接,hv表示节点v的嵌入向量。
2.2.2图谱边的在门控图神经网络中的表示方法
定义2:地点转移矩阵其中|V|为图谱中节点个数。Atr用于表示地点之间的转移关系。该矩阵由两个邻接的子矩阵组成,两个子矩阵中的值代表边的连接权重,描述图谱节点之间的有向关系,其值通过由边连接的节点之间的出与入的情况决定,与现实中用户在不同地点之间的转移行为一致。以签到序列[V1,V4,V2,V3,V4,V2]举例说明,通过节点之间的转移关系构建的地点转移矩阵,如图4所示。
定义3:时间间隔矩阵Aiv用于表示图谱中所有被边关联的“节点对”之间的时间间隔信息。矩阵的值通过牛顿冷却定律确定。具体将该定律中用于计算目标物体的温度的指数衰减函数,转化成节点对之间基于时间间隔的相关性函数。对于每个出现在图谱中的节点对(vi,vj),其相对时间相关度表示为:
其中η∈[0,1]作为控制相关性的衰减速率的预设参数。|tsi-tsj|为两个节点绝对时间tsi和tsj的时间间隔。值越大,说明两个节点间的时间相关度越高。当存在相同的两个节点在同一图谱中存在多种时间间隔的情况,保留其中最短的时间间隔,以达到最大化节点相关性的目的。
定义4:位置距离矩阵Adt用于表示图谱中所有被边关联的节点对之间的位置距离信息。矩阵的值通过径向基核函数确定,即每一节点对的位置相关度可通过核函数的值表示,具体可表示为:
其中δ>0作为权衡相对距离的预设参数。ci和cj为节点对(vi,vj)的坐标信息,由节点所在位置的经度和纬度组成。值越大,说明两个节点间的位置相关度越高。
2.2.3图谱节点向量在门控图神经网络中的表示学习方法
移动行为图谱的节点和边通过2.1和2.2的方法被定义后,其各自的向量表示和矩阵表示放入到门控图神经网络和位置预测网络中,通过模型迭代训练,使节点向量最终实现根据移动行为图谱进行位置预测的目的。其中节点集合向量hv、地点转移矩阵Atr、时间间隔矩阵Aiv和位置距离矩阵Adt以如下方式融合至网络的循环函数中:
以上计算描述的是图谱节点集合向量hv在t-1时刻的一次更新,其中为第i个节点在t-1时刻的嵌入向量;btr、biv和bdt为可训练偏置参数;/>Uz、/> Ur、W和U为可训练线性权重参数;zv和rv分别作为门控图神经网络中的更新门和重置门,σ和tanh分别为网络中的激活函数Sigmoid和Tanh;⊙代表矩阵的点乘运算。节点向量经过t次循环函数的更新后,形成嵌入向量/>之后被用于后续位置预测网络中。
步骤S3:基于门控图神经网络的位置预测模型的构建
按照2.2.1中的定义1,移动行为图谱的节点通过3种嵌入向量拼接构成,分别为地点向量、时间槽向量和地理网格向量。边及其包含的信息通过3类矩阵进行描述,分别为地点转移矩阵、时间间隔矩阵和位置距离矩阵,其中按照2.2.2中定义2,地点转移矩阵描述图谱中所有向边的关联权重信息,该矩阵通过所有节点的出边权重矩阵和入边权重矩阵衔接而形成。按照2.2.2中定义3,时间间隔矩阵描述图谱中所有存在边相连的节点对之间的时间间隔信息,矩阵的值由两个节点的时间槽的间隔时长确定,其中根据牛顿冷却定律,间隔时间越长,时间相关度衰减的就越多,其中衰减参数设置为0.03。按照2.2.2中定义4,位置距离矩阵描述图谱中所有存在边相连的节点对之间的位置距离信息,矩阵的值由两个节点的经纬度信息确定,根据径向基核函数,距离越近的节点对,位置相关度就越高,其中核函数参数设置为60。节点向量和边信息矩阵设置完成后,按照2.2.3中门控图神经网络中的循环函数更新节点向量信息,而3类矩阵作为节点之间交换信息的渠道,引入至节点更新过程中。
步骤S4:位置预测结果的生成
经过循环函数更新后的图谱节点向量,首先在每个节点中赋予图谱所有节点的注意力,然后将所有图谱节点通过线性神经网络进行累加,具体如下:
其中vn为图谱中所有涉及节点的嵌入向量集合;vi为图谱中第i个节点;|V|为图谱中节点个数;σ为Sigmoid激活函数;W1、W2和bg为可训练神经网络参数。得到图谱节点累加向量g后,将其和所有地点向量相乘并利用Softmax函数得到位置预测的概率分布,具体如下:
利用Cross-entropy作为整体网络的目标函数,具体如下:
其中k为一个移动行为图谱对应的真实值个数,即该图谱对应的所有后续到访的地点的数量;为模型预测值的概率分布;yi为真实值的独热向量。
在预测阶段,每个用户的历史签到记录首先被转化为一到多个移动行为图谱;然后将图谱作为门控图神经网络的输入,经过循环函数和位置预测网络,最终得到地点的概率分布作为位置预测结果。
更新后的节点向量进一步作为位置预测网络的输入,按照上述方法,先对每个图谱节点向量添加包含图谱所有节点的注意力信息,然后所有的图谱节点累加起来作为图谱整体向量表示,之后分别与所有地点向量相乘,其乘积最后通过Softmax函数生成地点的概率分布作为位置预测结果。
模型在训练阶段,对于每一个用户对应的签到记录,将训练数据中的签到时间发生在构建图谱记录之后的所有记录的地点作为真实值,以独热向量的方式表示。因此一个图谱对应一至多个真实值。整体模型利用Cross-entropy作为目标函数。本发明提出的位置预测模型在Gowalla和Foursquare数据集中对比了6种位置预测模型,其预测结果通过精确率、召回率、平均精度均值和归一化折扣累计收益4种评估指标评估。结果比较如图6所示,每行对应一种评估指标,其中左边为Gowalla数据集的结果,右边为Foursquare数据集的结果。每个结果对应的模型如图例所示,其中前六种分别表示比较模型MGMPFM,IRenMF,GeoMF,RankGeoFM,GeoPFM和SAE_NAD,最后一种表示本发明提出的基于移动行为图谱的位置预测模型。从图中可以看出,本发明提出的模型的性能表现均优于比较模型,印证了本发明提高了位置预测任务上的预测效果。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括……”或“包含……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的要素。此外,在本文中,“大于”、“小于”、“超过”等理解为不包括本数;“以上”、“以下”、“以内”等理解为包括本数。
尽管已经对上述各实施例进行了描述,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改,所以以上所述仅为本发明的实施例,并非因此限制本发明的专利保护范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围之内。

Claims (8)

1.一种面向时空数据的移动行为图谱构建方法,其特征在于,它包括以下步骤:
步骤S1、获取用户位置信息数据,并进行预处理;
步骤S2、基于处理后的用户位置信息数据构建移动行为图谱;
步骤S3、移动行为图谱放入到门控图神经网络和位置预测网络中,实现位置预测;所述步骤S3包括移动行为图谱构建后,采用门控图神经网络生成移动行为图谱的向量化表示;
所述门控图神经网络生成移动行为图谱的向量化具体包括:
步骤S3.1移动行为图谱节点的向量表示方法
定义1:移动行为图谱节点的嵌入向量,向量表示节点中的地点信息,向量表示节点中的时间槽,向量/>表示节点中的地理网格,其中dp、dt和dr分别为三种向量的维数,因此移动行为图谱节点集合v的向量表示如下:
其中表示向量的连接,hv表示移动行为图谱节点集合v的嵌入向量;
步骤S3.2移动行为图谱边在门控图神经网络中的表示方法
定义2:地点转移矩阵其中|V|为移动行为图谱中节点个数,Atr用于表示地点之间的转移关系;
定义3:时间间隔矩阵Aiv用于表示移动行为图谱中所有被边关联的节点对之间的时间间隔信息,对于每个出现在移动行为图谱中的节点对(vi,vj),其相对时间相关度表示为:
其中η∈[0,1]作为控制相关性的衰减速率的预设参数,|tsi-tsj|为两个节点绝对时间tsi和tsj的时间间隔,值越大,说明两个节点间的时间相关度越高;
定义4:位置距离矩阵Adt用于表示移动行为图谱中所有被边关联的节点对之间的位置距离信息,矩阵的值通过径向基核函数确定,即每一节点对的位置相关度可通过核函数的值表示,具体可表示为:
其中δ>0作为权衡相对距离的预设参数,ci和cj为节点对(vi,vj)的坐标信息,由节点所在位置的经度和纬度组成,值越大,说明两个节点间的位置相关度越高;
步骤3.3移动行为图谱节点向量在门控图神经网络中的表示学习方法
节点集合向量hv、地点转移矩阵Atr、时间间隔矩阵Aiv和位置距离矩阵Adt以如下方式融合至门控图神经网络的循环函数中:
以上计算描述的是移动行为图谱节点集合向量hv在t-1时刻的一次更新,其中为第i个节点在t-1时刻的嵌入向量,btr、biv和bdt为可训练偏置参数,/>UzUr、W和U为可训练线性权重参数,zv和rv分别作为门控图神经网络中的更新门和重置门,σ和tanh分别为门控图神经网络中的激活函数Sigmoid和Tanh,⊙代表矩阵的点乘运算,节点集合向量hv经过t次循环函数的更新后,形成嵌入向量/>
2.如权利要求1所述的面向时空数据的移动行为图谱构建方法,其特征在于,所述步骤S1中用户位置信息数据是从基于位置服务的社交网络数据库中获得。
3.如权利要求1所述的面向时空数据的移动行为图谱构建方法,其特征在于,所述步骤S1中用户位置信息数据包括用户ID、地点ID及时间。
4.如权利要求1所述的面向时空数据的移动行为图谱构建方法,其特征在于,所述步骤S2移动行为图谱的节点采用(ti,pi)表示,其中ti为绝对时间,pi为绝对位置;移动行为图谱的边为有向边,其时间槽靠前的节点指向靠后的节点。
5.如权利要求4所述的面向时空数据的移动行为图谱构建方法,其特征在于,所述移动行为图谱的边还包括两两节点之间的相对关系,每条边记录着每对节点之间相对时间与相对位置信息,其中相对时间以两个节点对应时间槽的间隔时长进行表示,相对位置以两个节点对应的位置距离进行表示。
6.如权利要求1所述的面向时空数据的移动行为图谱构建方法,其特征在于,所述经过循环函数更新后的移动行为图谱节点向量,首先在每个节点中赋予移动行为图谱所有节点的注意力,然后将所有移动行为图谱节点通过线性神经网络进行累加,具体如下:
其中vn为移动行为图谱中所有涉及节点的嵌入向量集合,vi为移动行为图谱中第i个节点,|V|为移动行为图谱中节点个数,σ为Sigmoid激活函数,W1、W2和bg为可训练神经网络参数,得到移动行为图谱节点累加向量g后,将其和所有地点向量相乘并利用Softmax函数得到位置预测的概率分布,具体如下:
利用Cross-entropy作为整体网络的目标函数,具体如下:
其中k为一个移动行为图谱对应的真实值个数,即该移动行为图谱对应的所有后续到访的地点的数量;为模型预测值的概率分布;yi为真实值的独热向量。
7.如权利要求1所述的面向时空数据的移动行为图谱构建方法,其特征在于,所述时间间隔矩阵的值通过牛顿冷却定律确定。
8.如权利要求1所述的面向时空数据的移动行为图谱构建方法,其特征在于,所述时间间隔矩阵定义中当存在相同的两个节点在同一移动行为图谱中存在多种时间间隔的情况,保留其中最短的时间间隔。
CN202011629525.3A 2020-12-31 2020-12-31 面向时空数据的移动行为图谱构建方法 Active CN112749209B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011629525.3A CN112749209B (zh) 2020-12-31 2020-12-31 面向时空数据的移动行为图谱构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011629525.3A CN112749209B (zh) 2020-12-31 2020-12-31 面向时空数据的移动行为图谱构建方法

Publications (2)

Publication Number Publication Date
CN112749209A CN112749209A (zh) 2021-05-04
CN112749209B true CN112749209B (zh) 2023-08-29

Family

ID=75650743

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011629525.3A Active CN112749209B (zh) 2020-12-31 2020-12-31 面向时空数据的移动行为图谱构建方法

Country Status (1)

Country Link
CN (1) CN112749209B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107194011A (zh) * 2017-06-23 2017-09-22 重庆邮电大学 一种基于社交网络的位置预测***及方法
CN111400620A (zh) * 2020-03-27 2020-07-10 东北大学 基于时空嵌入Self-Attention的用户轨迹位置预测方法
CN112153221A (zh) * 2020-09-16 2020-12-29 北京邮电大学 一种基于社交网络图计算的通信行为识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10268646B2 (en) * 2017-06-06 2019-04-23 Facebook, Inc. Tensor-based deep relevance model for search on online social networks

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107194011A (zh) * 2017-06-23 2017-09-22 重庆邮电大学 一种基于社交网络的位置预测***及方法
CN111400620A (zh) * 2020-03-27 2020-07-10 东北大学 基于时空嵌入Self-Attention的用户轨迹位置预测方法
CN112153221A (zh) * 2020-09-16 2020-12-29 北京邮电大学 一种基于社交网络图计算的通信行为识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于GGNN的栓母对知识图谱构建与应用;赵振兵等;《电网技术》;第[1]-[7]页 *

Also Published As

Publication number Publication date
CN112749209A (zh) 2021-05-04

Similar Documents

Publication Publication Date Title
Feng et al. Learning to simulate human mobility
CN110399565B (zh) 基于时空周期注意力机制的递归神经网络兴趣点推荐方法
Shi et al. Predicting origin-destination flow via multi-perspective graph convolutional network
Lv et al. Blind travel prediction based on obstacle avoidance in indoor scene
CN115578852B (zh) 一种基于dstgcn的交通预测方法
CN110414732A (zh) 一种出行未来轨迹预测方法、装置、储存介质及电子设备
Zhao et al. Incorporating spatio-temporal smoothness for air quality inference
CN113139140A (zh) 基于时空感知gru并结合用户关系偏好的旅游景点推荐方法
CN115545758A (zh) 城市服务设施自适应增量选址的方法和***
CN111242352A (zh) 基于车辆轨迹的停等聚集效应预测方法
CN116108984A (zh) 基于流量-poi因果关系推理的城市流量预测方法
Vahidnia et al. Modeling the spread of spatio-temporal phenomena through the incorporation of ANFIS and genetically controlled cellular automata: a case study on forest fire
CN115952355A (zh) 基于时空幂律注意力的下一兴趣点推荐***
Zhang et al. Gof-tte: Generative online federated learning framework for travel time estimation
CN112883133B (zh) 基于时序数据和功能演变数据的流量预测方法
Yang et al. Predicting and optimizing city-scale road traffic dynamics using trajectories of individual vehicles
CN116884222B (zh) 一种卡口节点的短时交通流预测方法
CN106600053B (zh) 一种基于时空轨迹和社会网络的用户属性预测***
Quan et al. An optimized task assignment framework based on crowdsourcing knowledge graph and prediction
CN117271899A (zh) 一种基于时空感知的兴趣点推荐方法
CN112749209B (zh) 面向时空数据的移动行为图谱构建方法
CN115510333A (zh) 一种基于时空感知并结合局部和全局偏好的poi预测方法
Luan et al. An efficient target tracking approach through mobile crowdsensing
Zhang et al. Cross‐Modal Travel Route Recommendation Algorithm Based on Internet of Things Awareness
CN113971496A (zh) 活动影响下的城市交通路网状态演化趋势预测方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant