CN112148825B - 用户轨迹数据的处理方法、装置、电子设备及存储介质 - Google Patents

用户轨迹数据的处理方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN112148825B
CN112148825B CN202011018814.XA CN202011018814A CN112148825B CN 112148825 B CN112148825 B CN 112148825B CN 202011018814 A CN202011018814 A CN 202011018814A CN 112148825 B CN112148825 B CN 112148825B
Authority
CN
China
Prior art keywords
data
road
user
sample
processed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011018814.XA
Other languages
English (en)
Other versions
CN112148825A (zh
Inventor
刘雨亭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202011018814.XA priority Critical patent/CN112148825B/zh
Publication of CN112148825A publication Critical patent/CN112148825A/zh
Application granted granted Critical
Publication of CN112148825B publication Critical patent/CN112148825B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/20Instruments for performing navigational calculations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Remote Sensing (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Radar, Positioning & Navigation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Automation & Control Theory (AREA)
  • Navigation (AREA)

Abstract

本申请实施例提供了一种用户轨迹数据的处理方法、装置、电子设备及存储介质,该方法涉及人工智能及地图技术领域,该方法可以包括:获取待处理道路数据,待处理道路数据包括待处理用户轨迹数据;确定待处理用户轨迹数据对应的用户路线数据,用户路线数据包括待处理用户轨迹数据经过的各道路的道路数据;根据用户路线数据和道路特征向量集合,确定待处理道路数据对应的道路特征向量,其中,道路特征向量集合是基于样本道路数据对特征嵌入模型进行训练得到的;根据道路特征向量进行相应的处理。在本申请实施例中,由于道路特征向量集合嵌入了用户行为信息,具有更丰富的“语义信息”,进而所得到的处理结果贴近用户行为、符合实际需求。

Description

用户轨迹数据的处理方法、装置、电子设备及存储介质
技术领域
本申请涉及人工智能及地图技术领域,具体而言,本申请涉及一种用户轨迹数据的处理方法、装置、电子设备及存储介质。
背景技术
随着城市的变化与发展,对于城市中的道路(即link)进行关系量化则变为满足用户实际需求的基础与核心。目前,在对于城市中各道路间关系量化的研究主要分为机器学习以及数据挖掘两大类。但是经研究发现,基于数据挖掘的方法得到的结果是道路间共现的概率或者条件概率,但是概率所能够表达的信息具有局限性;而基于机器学习方法,需要对大量的训练数据进行标注,进而存在训练效率较低的问题,并且基于机器学习方法所得到结果不具备向量间四则运算的基础,无法进行向量间间的四则运算,无法满足实际需求。
发明内容
本申请的目的旨在至少能解决上述的技术缺陷之一。
一方面,本申请实施例提供了一种用户轨迹数据的处理方法,该方法包括:
获取待处理道路数据,待处理道路数据包括待处理用户轨迹数据;
确定待处理用户轨迹数据对应的用户路线数据,用户路线数据包括待处理用户轨迹数据经过的各道路的道路数据;
根据用户路线数据和道路特征向量集合,确定待处理道路数据对应的道路特征向量,其中,道路特征向量集合是基于样本道路数据对初始特征嵌入模型进行训练得到的;
根据道路特征向量进行相应的处理。
另一方面,本申请实施例提供了一种用户轨迹数据的处理装置,该装置包括:
道路数据获取模块,用于获取待处理道路数据,待处理道路数据包括待处理用户轨迹数据;
路线数据确定模块,用于确定待处理用户轨迹数据对应的用户路线数据,用户路线数据包括待处理用户轨迹数据经过的各道路的道路数据;
特征向量确定模块,用于根据用户路线数据和道路特征向量集合,确定待处理道路数据对应的道路特征向量,其中,道路特征向量集合是基于样本道路数据对初始特征嵌入模型进行训练得到的;
处理模块,用于根据道路特征向量进行相应的处理
再一方面,本申请实施例提供了一种电子设备,包括处理器以及存储器:存储器被配置用于存储计算机程序,计算机程序在由处理器执行时,使得处理器执行上述中用户轨迹数据的处理方法中的任一项。
又一方面,本申请实施例提供了一种计算机可读存储介质,计算机可读存储介质用于存储计算机程序,当计算机程序在计算机上运行时,使得计算机可以执行上述中用户轨迹数据的处理方法中的任一项。
本申请实施例提供的技术方案带来的有益效果是:
在本申请实施例中,在获取到待处理道路数据时,可以确定其对应的用户路线数据,并基于道路特征向量集合,确定待处理道路数据对应的道路特征向量,然后基于得到的道路特征向量进行处理,由于该道路特征向量集合是基于样本道路数据对初始特征嵌入模型进行训练得到的,此时基于该道路特征向量集合所确定的道路特征向量嵌入了用户行为信息,具有更丰富的“语义信息”描述,进而基于道路特征向量所得到的处理结果可以更加的贴近用户行为,更符合用户的实际需求;进一步的,在本申请实施例中,所得到的道路特征向量具备了四则运算意义,因此在根据道路特征向量进行处理时,处理方式可以更加的多样化,更加的便捷,提升了处理效率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。
图1为本申请实施例提供的一种用户轨迹数据的处理方法的流程示意图;
图2为本申请实施例提供的一种同义道路示意图;
图3为本申请实施例提供的一种同义路线示意图;
图4为本申请实施例提供的一种路线聚类结果示意图;
图5a为本申请实施例提供的一种正样本示意图;
图5b为本申请实施例提供的一种负样本示意图;
图6为本申请实施例提供的一种Skip-gram模型的结构示意图;
图7为本申请实施例提供的一种得到道路特征向量集合的流程示意图;
图8为本申请实施例提供的一种用户轨迹数据的处理装置的结构示意图;
图9为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
随着城市的变化与发展,对于城市中各道路进行关系量化变的尤为重要,目前业内对于道路间关系量化的研究,主要分为数据挖掘方案和机器学习两大类。其中,数据挖掘方案也称为数据统计方案,其主要思想是基于大量的用户的路线数据,进行道路间共现关系的挖掘。例如:可以基于大量的用户路线数据,挖掘路口处的车辆分流概率,或者基于大量的用户路线数据,挖掘在起终点约束下的路口处的车辆分流概率等;而机器学习可以包括隐含马尔科夫模型(Hidden Markov Model,HMM)的概率描述统计模型,其通过输入的用户路线数据优化模型中的隐含未知参数,得到一个近似描述训练集的马尔科夫过程,能够对拓扑相连的道路转移概率进行估计;还可以包括基于长短期记忆网络(Long short-termmemory,LSTM)及其相关改进方案的循环神经网络(Recurrent Neural Network,RNN)的深度学习方法,该模型能够在一定长度的上下文区间,估计道路间共现的概率。
但是经研究发现,基于数据挖掘的方法得到的结果是道路间共现的概率或者条件概率,但是概率所能够表达的信息具有局限性;而基于机器学习方法存在训练效率较低且无法进行向量间间的四则运算的问题,无法满足实际应用需求。
基于此,本申请实施例提供一种用户轨迹数据的处理方法,旨在解决上述中的部分或全部技术问题。其中,在该方法中可以基于人工智能中的机器学习技术得到道路特征向量集合,在对待处理道路数据进行道路处理时,可以根据该道路特征向量集合确定待处理道路数据对应的道路特征向量,然后基于得到的道路特征向量进行相应的道路处理。
其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
而机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
另外,本申请实施例中所涉及的数据处理/计算,可以指的是基于云服务器的云计算。其中,该云计算(cloud computing)指IT基础设施的交付和使用模式,指通过网络以按需、易扩展的方式获得所需资源;广义云计算指服务的交付和使用模式,指通过网络以按需、易扩展的方式获得所需服务。这种服务可以是IT和软件、互联网相关,也可是其他服务。云计算是网格计算(Grid Computing)、分布式计算(DistributedComputing)、并行计算(Parallel Computing)、效用计算(Utility Computing)、网络存储(NetworkStorageTechnologies)、虚拟化(Virtualization)、负载均衡(Load Balance)等传统计算机和网络技术发展融合的产物。随着互联网、实时数据流、连接设备多样化的发展,以及搜索服务、社会网络、移动商务和开放协作等需求的推动,云计算迅速发展起来。不同于以往的并行分布式计算,云计算的产生从理念上将推动整个互联网模式、企业管理模式发生革命性的变革
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。
首先对本申请涉及的几个名词进行介绍和解释:
Link:可以称为道路或者道路段,描述道路的最小数据单元,是一组结构化数据,包含但不限于link的长度、宽度、道路等级等属性。
用户轨迹:可以由用户GPS(Global Positioning System,全球定位***)数据组成的一条用户导航轨迹,该GPS数据包含用户行驶时每个时刻的时间戳,经纬度,速度,海拔,方向角度。
轨迹匹配:将用户轨迹GPS数据,根据路网形态使用轨迹匹配算法,与路网中的link一一对应,即将用户轨迹GPS数据转换为一组有序的link序列。
下面将结合附图,对本申请实施例所提供的一种用户轨迹数据的处理方法进行详细描述。图1示出了本申请实施例中所提供的一种用户轨迹数据的处理方法的流程示意图。该方法可以由终端设备或服务器执行,该服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式***,还可以是提供云计算服务的云服务器。该终端设备可以是平板电脑、笔记本电脑、台式计算机等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
具体的,如图1所示,该方法可以包括:
步骤S101,获取待处理道路数据,待处理道路数据包括待处理用户轨迹数据。
其中,待处理道路数据的来源本申请实施例不限定,该数据可以是任一需要进行处理的道路数据。可选的,该待处理道路数据除了包括待处理用户轨迹数据之外,还可以包括其他一些与该道路数据的待处理用户轨迹数据相关的数据,如可以为该待处理用户轨迹数据对应的一些数据标识,如城市标识、用户标识等,其中,城市标识用于表示待处理道路数据中的道路所属于的城市,用户标识用于标识该待处理道路数据所对应的用户。
可选的,上述待处理道路数据可以是通过定位装置(导航装置)获取到的数据,在实际应用中,用户在进行道路导航时,可以以一定的时间间隔(如1秒)向服务器上传当前的位置信息以形成GPS数据,当用户结束导航后,在导航状态下所形成的GPS数据集合可以称为用户轨迹数据。可选的,待处理道路数据包括的待处理用户轨迹数据可以指的是导航状态下所形成的GPS数据。
步骤S102,确定待处理用户轨迹数据对应的用户路线数据,用户路线数据包括待处理用户轨迹路线经过的各道路的道路数据。
可选的,对于获取到的待处理用户轨迹数据,可以基于轨迹匹配算法将用户轨迹数据中的位置信息与路网中的道路(即link)一一对应,确定待处理用户轨迹路线经过的各道路的道路数据,并将待处理用户轨迹路线经过的各道路的道路数据作为对应的用户路线数据,此时所得到的用户路线数据可以视为一组有序的道路序列。其中,待处理用户轨迹路线经过的各道路指的是路网中的最小道路单元(即link),而为了描述方便,下文中描述的各道路的特征表示信息(或特征向量)即指的是用户轨迹路线经过的各道路的道路数据的特征表示信息(或特征向量),即指的是路网中的最小道路单元(即link),下文中便不再一一对应描述。
步骤S103,根据用户路线数据和道路特征向量集合,确定待处理道路数据对应的道路特征向量,其中,道路向量集合是基于样本道路数据对特征嵌入模型(Embedding)进行训练得到的。
其中,道路特征向量集合中包括有各道路的特征表示信息(也就是道路的特征向量)。当得到待处理用户路线数据时,可以基于该道路特征向量集合知晓待处理用户路线数据所包括的每条道路所对应的特征表示信息;相应的,在知晓该待处理用户路线数据所包括的每条道路所对应的特征表示信息后,可以将待处理用户路线数据所包括的每条道路所对应的特征表示信息组合,得到待处理道路数据对应的道路特征向量。
其中,基于道路特征向量集合确定待处理用户路线数据所包括的每条道路所对应的特征表示信息的具体实现方式可以预先配置,本申请实施例不限定。例如,在得到道路特征向量集合时,可以建立每一道路的道路标识与其对应的特征表示信息的映射关系,即道路特征向量集合中所包含的每一个特征表示信息都具有对应的道路标识;相应的,在确定待处理道路数据对应的道路特征向量时,可以根据该待处理道路数据对应的用户路线数据中所包含的每条道路的标识、以及上述映射关系确定出每条道路的特征表示信息,从而基于该用户路线数据中的每条道路的特征表示信息,得到待处理道路数据对应的道路特征向量,如基于该用户路线数据中所包含的每条道路的经过顺序和每条道路的特征表示信息,得到对应的特征向量矩阵,该矩阵即可以作为待处理道路数据对应的道路特征向量,例如,矩阵中的一行或一列对应一条道路的特征标识信息,行或列之间的顺序表征了对应的道路的经过顺序。
可选的,得到该道路特征向量集合的一种可选方式为:获取样本道路数据以及特征嵌入模型,然后可以基于样本道路数据对该特征嵌入模型进行训练得到训练后的特征嵌入模型,该特征嵌入模型中包括有模型参数,进一步的,可以基于该训练后的特征嵌入模型包括的模型参数得到道路特征向量集合。
可选的,获取样本道路数据时,可以将地图业务中不同用户的导航数据作为样本道路数据,由于地图业务中不同用户的导航数据大量都是无标注的,因此本申请实施例中在对该特征嵌入模型进行时,可以不对道路数据进行标注,相比于现有技术中需要对大量的训练数据进行标注,可以有效的减少了数据处理工作,提升了模型训练效率。
在本申请可选的实施例中,道路特征向量集合是基于训练后的特征嵌入模型的隐藏层的模型参数得到的,或者是基于训练后的特征嵌入模型的隐藏层和输出层的模型参数得到的。
在实际应用中,训练后的特征嵌入模型中包括有隐藏层和输出层,此时可以直接将隐藏层的模型参数作为该道路特征向量集合,又或者可以将隐藏层的模型参数和输出层的模型参数进行融合,得到融合模型参数,然后将融合模型参数作为道路特征向量集合。
其中,在通过特征嵌入模型生成特征表示时,输入信息是经过训练后的模型中的隐藏层进行特征提取,再经过输出层处理后输出的,而隐藏层进行特征提取,实质上是将隐藏层的输入数据经过该层的模型参数(包括权重参数)进行数据加权融合计算,而输出层通常是将隐藏层的输出数据进行归一化或者其他的一些数据处理,因此,隐藏层的权重参数,或者,隐藏层和输出层的模型参数均是可以用于表征模型的输入数据的特征表示信息的,因此,可以将训练后的特征嵌入模型的隐藏层的模型参数作为该道路特征向量集合,或者是将训练后的特征嵌入模型的隐藏层的模型参数和输出层的模型参数进行融合,将融合后的融合模型参数作为该道路特征向量集合,其中,上述融合可以是权重相乘或其他融合处理方式,本申请实施例对此不限定。
步骤S104,根据道路特征向量进行相应的处理。
具体的,在得到待处理道路数据对应的道路特征向量后,可以基于该道路特征向量进行相应的处理,由于所得到的道路特征向量是基于样本道路数据对初始特征嵌入模型得到的,此时所得到的道路特征向量可以被“嵌入”更加丰富的“语义信息”、包含了更加多样化的道路间关系,进而在基于该道路特征向量进行处理时,所得到的处理结果可以更加准确。
在本申请可选的实施例中,根据道路特征向量进行相应的处理,包括以下至少一项:
根据道路特征向量确定同义道路;
根据道路特征向量确定同义路线;
根据道路特征向量进行路线聚类处理;
基于道路特征向量进行神经网络模型的训练。
在实际应用中,可以基于得到的道路特征向量进行不同场景下的处理,而具体可以包括哪些处理方式本申请实施例不限定。下面对可应用的几种处理方式进行举例说明。
1、根据道路特征向量确定同义道路:
其中,同义道路可理解为道路特征相同或相似的道路,当两个道路为同义道路时,两个道路的道路特征向量在高维空间中的距离应该是小于预设距离阈值的。因此,在实际应用中,当确定两条道路是否为同义道路时,可以确定两条道路的道路特征向量,然后确定两条道路的道路特征向量的距离是小于预设距离阈值,若小于预设距离阈值,则确定该两条道路为同义道路。可选的,在确定出哪些道路为同义道路后,可以基于确定的同义道路在地图个性化场景下进行道路预测、道路分流概率近似计算等。例如,如图2所示,图中箭头所指道路为目标道路,其余道路为路网中与目标道路在高维空间中距离小于预设距离阈值的道路(即同义道路)。
2、根据道路特征向量确定同义路线:
其中,同义路线可理解为路线特征相同或相似的路线,当两个路线为同义路线时,两个路线的路线特征向量在高维空间中的距离应该是小于预设距离阈值的。可选的,当确定两条路线是否为同义路线时,可以将每条路线包括的各道路特征向量进行融合,得到每条路线对应的路线特征向量,然后确定两条路线的路线特征向量的距离是否小于预设距离阈值,若小于预设距离阈值,则确定该路线的为同义路线。例如,如图3中的路线1和路线2即为同义路线,该两条路线的特征向量的空间距离小于预设距离阈值,在将这两个路线可视化展示时,虽然两个路线在局部路段存在方案差异,但仅限于主路与辅路的区别。
3、根据道路特征向量进行路线聚类处理:
具体的,在得到各条路线包括的道路的道路特征向量后,可以对各道路的路特征向量进行融合,得到各路线的路线特征向量,然后基于得到的各路线特征向量对路线进行聚类处理。例如,如图4所示的4条路线(路线1~路线4),而在对该4条路线进行路线聚类时,可以先基于路线1包括的A路段的道路特征向量和B路段的道路特征向量,得到路线1的路线特征向量,基于路线2包括的D路段的道路特征向量和E路段的道路特征向量,得到路线2的路线特征向量,基于路线3包括的D路段的道路特征向量、F路段的道路特征向量和B路段的道路特征向量,得到路线3的路线特征向量,以及基于路线4包括的C路段的道路特征向量和B路段的道路特征向量,得到路线4的路线特征向量,然后根据该4条路线的路线特征向量进行路线聚类,得到路线结果。可以理解的是,在本示例中,由于该4条路线对应于同一个起点和终点,此时该4条路线可以被聚类为同一类别。
4、基于道路特征向量进行神经网络模型的训练:
具体的,在得到各道路的道路特征向量时,可以对各道路的路特征向量进行融合,得到各路线的路线特征向量,然后将得到的各路线的路线特征向量作为神经网络模型训练时的特征。例如,各道路的道路特征向量可以用于地图领域中ETA((Event Tree Analysis,事件树分析)预估、路线召回、路线排序、GPS吸附、轨迹匹配等业务的神经网络模型的训练。
可选的,以路线排序为例,在一次请求当中,可以基于各道路的道路特征向量分别生成路线特征向量,并加入现有特征对排序模型训练。经分析发现,训练得到的排序模型中各特征所提供的信息中,道路特征向量所提供的信息占所有特征的近10%。
可以理解的是,上述中的几种处理方式以及应用场景只是举例说明,在实际应用中,基于本申请实施例所提供的方法得到的道路特征向量所能够应用的处理方式以及应用场景包括但不限于上述中的处理方式和应用场景。
在本申请实施例中,在获取到待处理道路数据时,可以确定其对应的用户路线数据,并基于道路特征向量集合,确定待处理道路数据对应的道路特征向量,然后基于得到的道路特征向量进行处理,由于该道路特征向量集合是基于样本道路数据对初始特征嵌入模型进行训练得到的,此时基于该道路特征向量集合所确定的道路特征向量嵌入了用户行为信息,具有更丰富的“语义信息”描述,进而在进行处理时,基于道路特征向量所得到的处理结果可以更加的贴近用户行为,更符合用户的实际需求;进一步的,在本申请实施例中,所得到的道路特征向量具备了四则运算意义,因此在根据道路特征向量进行处理时,处理方式可以更加的多样化,更加的便捷,提升了处理效率。
在本申请可选的实施例中,道路特征向量集合中包含各道路的道路数据的特征表示信息,根据用户路线数据和道路特征向量集合,确定待处理道路数据对应的道路特征向量,包括:
根据用户路线数据和道路特征向量,确定待处理用户轨迹数据经过的各道路的道路数据的特征表示信息;
根据各道路的经过顺序、以及各道路的道路数据的特征表示信息,得到待处理道路数据对应的道路特征向量。
其中,道路特征向量集合中包含各道路的特征表示信息(即道路的道路特征向量)。可选的,在确定待处理道路数据对应的道路特征向量时,可以从道路特征向量集合中查询得到待处理道路数据包括的待处理用户轨迹数据经过的各道路所对应的特征表示信息,然后可以根据各道路的经过顺序,依次将所确定的各道路所对应的特征表示信息进行组合,得到待处理道路数据对应的道路特征向量。
在本申请可选的实施例中,待处理道路数据还包括待处理用户轨迹数据对应的数据标识信息,数据标识信息包括城市标识信息或用户标识信息中的至少一项。
可选的,在待处理道路数据包括待处理用户轨迹数据时,待处理数据中还包括与待处理用户轨迹数据对应的数据标识信息,该数据标识信息用于标识与待处理用户轨迹数据相关联的附加数据。其中,该附加数据可以包括待处理用户轨迹数据经过的各道路所属于的城市、或者待处理用户轨迹数据所对应的用户中的至少一项,相应的,该数据标识信息则也可以包括有城市标识信息或用户标识信息中的至少一项。例如,当数据标识信息包括有城市标识信息或用户标识信息时,此时的待处理道路数据如表1所示,其可以包括用户路线数据、以及用户路线数据对应的城市标识信息和用户路线数据对应的用户标识信息。
表1
城市标识信息 用户标识信息 用户路线数据
在本申请可选的实施例中,道路特征向量集合中还包括各数据标识信息对应的特征表示信息;相应的,该方法还可以包括:
根据待处理用户轨迹数据对应的数据标识信息和道路特征向量集合,确定待处理用户轨迹数据对应的数据标识信息的特征表示信息;
根据各道路的经过顺序、以及各道路的道路数据的特征表示信息,得到待处理道路数据对应的道路特征向量,包括:
根据待处理用户轨迹数据对应的数据标识信息的特征表示信息、各道路的经过顺序、以及各道路的道路数据的特征表示信息,得到待处理道路数据对应的道路特征向量。
其中,道路特征向量集合中还可以包括各数据标识信息对应的特征表示信息。例如,当数据标识信息包括城市标识信息和用户标识信息时,此时道路特征向量集合中还包括各城市标识信息对应的特征表示信息、以及各用户标识信息对应的特征表示信息。
可选的,当待处理道路数据中还包括有待处理用户轨迹数据对应的数据标识信息时,此时还可以从该道路特征向量集合中查询得到待处理用户轨迹数据对应的各数据标识信息的特征表示信息,然后根据待处理用户轨迹数据对应的数据标识信息的特征表示信息、以及确定的各道路的特征表示信息,得到该待处理用户轨迹数据对应的道路特征向量。
在一示例中,假设待处理道路数据包括待处理用户轨迹数据、以及待处理用户轨迹数据对应的城市标识信息和用户信息标识信息,该待处理用户轨迹数据经过的各道路依次分别道路A、道路B和道路C,城市标识信息用于标识城市N,用户信息标识信息用于标识用户M,即待处理道路数据为用户M在城市N中的一条路线,该路线起始于道路A、然后经过道路B、最后到达道路C;此时在确定该待处理道路数据对应的道路特征向量时,可以依次从道路特征向量集合中得到道路A的特征表示信息、道路B的特征表示信息和道路C的特征表示信息,以及从道路特征向量集合中得到城市标识N的特征表示信息和用户标识M的特征表示信息,然后可以将道路A的特征表示信息、道路B的特征表示信息和道路C的特征表示信息,以及城市N的特征表示信息和用户M的特征表示信息进行组合,得到该待处理道路数据对应的道路特征向量。
在本申请可选的实施例中,道路特征向量集合是通过以下方式得到的:
获取各样本道路数据,该样本道路数据包括样本用户轨迹数据;
对于每个样本道路数据,确定样本用户轨迹数据对应的样本路线数据;
基于每个样本道路数据对应的样本路线数据,确定每个样本道路数据对应的初始特征向量;
基于各初始特征向量对特征嵌入模型进行训练,直至符合预设的训练结束条件;
基于训练结束时的特征嵌入模型的模型参数,得到道路特征向量集合。
其中,样本道路数据指的是用于训练初始嵌入模型的数据,该样本道路数据可以包括样本用户轨迹数据,而对于每个样本道路数据,可以确定每个样本用户轨迹数据对应的样本路线数据,即确定出每个样本道路数据所经过的各道路。可选的,对于该样本道路数据的获取方式本申请实施例不限定,例如可以获取不同用户的GPS数据,然后基于特有的轨迹匹配算法将获取到的各GPS数据匹配到路网中,然后将匹配得到的各用户路线作为各样本道路数据。
可选的,在实际应用中,所获取到的GPS数据可能会存在一些异常数据,例如,该异常数据可能包括用户无目的漫游时的GPS数据、或错过路口导致绕远的GPS数据、又或者存在违反交通规则等行为的GPS数据,对于此类异常数据,在本申请实施例中可以基于一些特定方式将异常数据从获取到的样本道路数据中过滤掉。例如,对于用户无目的漫游时的数据,可以通过基于终点的道路转移概率挖掘方式过滤;对于错过路口导致绕远的数据,由于通常情况下,非正常的路线中道路的联合转移概率较低,此时,可以计算获取到的每个GPS数据中道路的联合转移概率,将概率小于设定值的GPS数据过滤;而对于存在违反交通规则等行为的道路数据,则可以通过制定交通规则策略,对存在违反交通规则等行为的道路数据进行过滤。可以理解是,上述中的几种异常数据、以及对于异常数据的过滤方式只是举例说明,在实际应用中,异常数据、以及对于异常数据的过滤方式包括但不限于上述中的举例说明。
可选的,在得到每个样本道路数据对应的样本路线数据后,可以确定每个样本道路数据对应的初始特征向量,然后将各初始特征向量输入至初始特征嵌入模型进行训练,直至初始特征嵌入模型的输出结果符合预设的训练结束条件,然后可以将训练结束时的特征嵌入模型的模型参数,作为上述中的道路特征向量集合。
其中,基于每个样本道路数据对应的样本路线数据,确定每个样本道路数据对应的初始特征向量之前还可以对每个样本道路数据中经历的各道路进行初始化,得到所经历的各道路对应的初始化特征向量,然后基于所经历的各道路对应的初始化特征向量,确定每个样本道路数据对应的初始特征向量。其中,初始化的具体实现方式可以预先配置,本申请实施例对此不进行限定。例如,可以采用随机初始化的方式对每个样本道路数据中经历的各道路进行初始化,得到各道路所对应的初始特征化向量。
在本申请可选的实施例中,样本道路数据还包括样本用户轨迹数据所对应的数据标识信息,数据标识信息包括城市标识信息或用户标识信息中的至少一项;
基于每个样本道路数据对应的样本路线数据,确定每个样本道路数据对应的初始特征向量,包括:
基于每个样本用户轨迹数据所对应的数据标识信息和样本路线数据,确定每个样本道路数据对应的初始特征向量。
可选的,所获取到的样本道路数据中不仅仅包括样本用户轨迹数据,还可以包括与样本用户轨迹数据对应的附加数据的数据标识信息,如该附加数据可以包括时间戳、通行时间、城市标识信息和用户标识信息等,此时可以将每个样本用户轨迹数据对应的部分附加数据的数据标识信息删除。例如,样本用户轨迹数据所对应的数据标识信息可以仅保留城市标识信息或用户标识信息中的至少一项,以减少后续的数据处理量。
可选的,当某个附加数据的数据标识信息在样本道路数据中的出现概率小于一定阈值时,可以将该附加数据的数据标识信息删除,然后基于每个样本道路数据中经历的各道路以及保留的附加数据的数据标识信息,确定每个样本道路数据对应的初始特征向量。其中,为了描述方便,对于一个样本道路数据,下文中将一个样本道路数据中经历的各道路、城市标识信息和用户标识信息称之为该样本道路数据包括的各信息。
相应的,在样本道路数据中还包括与样本用户轨迹数据对应的附加数据的数据标识信息时,还可以对包括的每个附加数据的数据标识信息进行初始化,得到每个数据标识信息对应的初始化特征向量,然后基于每个样本道路数据中经历的各道路对应的初始化特征向量、以及每个数据标识信息对应的初始化特征向量,确定每个样本道路数据对应的初始特征向量。
在本申请可选的实施例中,特征嵌入模型为Skip-gram模型,基于每个样本道路数据对应的样本路线数据,确定每个样本道路数据的初始特征向量,包括:
对于一个样本道路数据,基于该样本道路数据对应的样本路线数据进行独热编码,得到该样本道路数据的初始特征向量;
基于各初始特征向量对特征嵌入模型进行训练,包括:
将各初始特征向量输入至Skip-gram模型中,得到各初始特征向量中待优化信息的预测上下文信息;
基于各初始特征向量中待优化信息的预测上下文信息与各初始特征向量中待优化信息对应的真实上下文信息对Skip-gram模型进行训练。
其中,特征嵌入模型的具体类型本申请实施例不限定,如该特征嵌入模型可以为word2vec(word to vector,词向量)中的Continuous Bag-Of-Words Model(CBOW模型,连续词袋模型)或Continuous Skip-gram Model(Skip-gram模型,连续跳字模型)等,此时可以采用Hierarchical Softmax(层次软分类)和Negative Sampling(负采样)两种不同的优化方法对该特征嵌入模型进行训练。可选的,下面以特征嵌入模型为Skip-gram模型,优化方法Negative Sampling为例对如何得到道路特征向量集合的方式进行说明。
其中,对于Skip-gram模型,在训练Skip-gram模型之前需要确定训练时的滑动窗口大小(可以用C表示),初始特征向量中处于滑动窗口中心位置的信息即为待优化信息,可命名为ID_target,而初始特征向量中待优化信息周围的上下文信息(即处于滑动窗口范围内的除待优化信息之外的其它信息)与待优化信息可以构成正样本对。在Skip-gram模型的训练过程中,会尽可能做到通过ID_target预测出其上下文ID(即上下文信息)。可选的,滑动窗口的大小可以根据实际需求预先配置,本申请实施例不限定。可选的,考虑到用户路线的平均道路长度在100个道路左右,此时可以滑动窗口的大小设置为10个道路(即10个信息)。在实际应用中,若滑动窗口的大小设置过小,道路间的关系蔓延范围相对小,反之道路间的关系蔓延范围相更大,也就是说,滑动窗口的大小越大,可以令ID_target对拓扑相连更远的道路产生影响。
其中,在基于Skip-gram模型对每个待优化信息进行优化时,可以基于该待优化信息的正负样本对Skip-gram模型进行训练,此时可以将各将初始特征向量中处于待优化信息周围的上下文信息作为待优化信息的正样本,将初始特征向量中除待优化信息的上下文信息之外的其它信息作为待优化信息的负样本。可以理解的是,在实际训练中,可以仅选取一定比例的负样本与正样本构成针对待优化信息的训练样本集合,以减少数据处理量,提升效率。
在一示例,假设所有样本数据中包括的道路为道路A和道路B、包括的城市标识信息为城市A和城市B的标识信息、包括的用户标识信息为A用户和B用户的标识信息,某样本道路数据为A用户经过城市A的A道路,本次训练待优化信息为城市A的标识信息,滑动窗口的大小C为2;此时如图5a所示,A用户的标识信息和A道路为正样本,而道路B、城市B的标识信息和B用户的标识信息即可视为负样本,具体可以如图5b所示。
具体的,对于每个样本道路数据,可以基于该样本道路数据对应的样本路线数据进行独热编码(即one-hot编码),或者在样本道路数据还包括样本路线数据对应的数据标识信息时,根据该样本道路数据对应的样本路线数据、以及对应的数据标识信息进行独热编码,得到该样本道路数据的初始特征向量,该初始特征向量的维度数量与所有样本道路数据中包括的道路数量、城市标识信息的数量以及用户标识信息的数量的总和相同,并且该初始特征向量中的每个维度对应于一条道路、一个城市标识信息或一个城市标识信息中的一个,不同维度代表的含义不同。可选的,在确定每个样本道路数据的初始特征向量时,可以确定样本道路数据中需要被训练的信息(即前文中的待优化信息),此时可以将对应于待优化信息的维度的值设置为1,其它维度的值设置为0,即可得到初始特征向量。
在一示例中,假设所有样本数据中包括的道路为道路A和道路B、包括的城市标识信息为城市A和城市B的标识信息、包括的用户标识信息为用户A和用户B的标识信息,此时初始特征向量的维度为则6,假设一样本数据为用户A经过城市A的A道路,本次待优化的信息为城市A的标识信息(即本次对初始Skip-gram模型进行训练时,滑动窗口中心位置的信息为城市A的标识信息),此时可以对该样本数据对进行独热编码得到的初始特征向量为[001000],其中,该初始特征向量中取值为1的维度对应于城市A的标识信息,其它维度则分别对应于用户A的标识信息、用户B的标识信息、城市B的标识信息、用户A的标识信息和用户B的标识信息。
进一步的,在得到各初始特征向量后,可以将各初始特征向量输入至Skip-gram模型中,得到每个初始特征向量中待优化信息的预测上下文信息,然后确定每个初始特征向量对应的预测上下文信息与初始特征向量中待优化信息对应的真实上下文信息是否相同,若不相同则可以调整初始Skip-gram模型中的模型参数,得到调整后的Skip-gram模型,然后再将各初始特征向量输入至Skip-gram模型中,得到每个初始特征向量中待优化信息的预测上下文信息,直至初始特征向量对应的预测特征向量与待优化信息对应的真实上下文信息相同,则结束训练,此时可以根据结束时的初始Skip-gram模型中的模型参数得到道路特征向量集合。
可选的,Skip-gram模型的结构可以如图6所示,该Skip-gram模型包括了输入层(Input layer)、隐藏层(Hidden layer,图像中的hi)以及输出层(Output layer),隐藏层的模型参数为WV×N,输出层的模型参数为W′N×V。其中,xk表示输入的第k个初始特征向量,V的取值与所有样本道路数据中包括的所有信息数量相同(即V的取值为所有样本道路数据对应的用户路线数据中包含的道路的数量,或者包含的道路的数量和数据标识的数量之和,对应于word-vector中词表中的词的个数),N(图中所示的N和N-dim)为模型训练超参数向量的长度(也就是隐藏层输出的向量的长度/维度),其可以根据实际需要预先设置。其中,V-dim(即V)表示输入输入层的向量的宽度(也就是初始特征向量(如one-hot向量)的向量长度/维度),C×V-dim表示输出层输出C个(Skip-gram模型的滑动窗口的窗口大小)宽度为V-dim的向量。
具体的,当初始特征向量x输入至Skip-gram模型后,该初始特征向量x乘以模型参数WV×N的转置矩阵WT,得到隐藏层向量h,得到本次待优化信息的权重向量
Figure BDA0002700001770000181
即,
Figure BDA0002700001770000182
进一步的,隐藏层向量h乘以W′N×V的转置矩阵W′T,得到C个预测上下文信息Y,C个预测上下文信息以y1j…yCj表示,即,
Figure BDA0002700001770000191
其中,Vj ′T为矩阵W′T中对应于第j个上下文信息的行向量。
可选的,Skip-gram模型的输出层可以包括分类网络,如可以为softmax,此时输出层的输出结果为每个预测上下文信息为初始特征向量中待优化信息的上下文信息的概率,此时可以将概率最大的预测上下文信息作为本次输出的预测上下文信息,然后判断输出的预测上下文信息是否满足预设的训练结束条件,若满足训练结束条件,则结束训练,否则继续训练,直至输出得到的预测上下文信息满足预设的训练结束条件。可选的,该训练结束条件可以为输出的预测上下文信息趋近于初始特征向量中待优化信息真实对应的上下文信息等,本申请实施例对此不限定。
也就是说,本申请实施例中是通过待优化信息的正负样本监督信息基于链式法则的反向传播算法,使得softmax(yj)尽可能逼近监督信息,得到训练后的Skip-gram模型。即,
Figure BDA0002700001770000192
其中,softmax(yj)表示输出的预测上下文信息,P(xj|xtarget)表示输出的预测上下文信息为输入的初始特征向量中待优化信息对应的真实上下文信息的概率,uj表示第j个预测上下文信息,ui表示第i个待优化信息,Vi ′T表示矩阵W′T中对应于第i个待优化信息对应的行向量。
为了更好地理解本申请实施例中得到道路特征向量集合的方式,下面结合图7进行详细说明。具体的,
步骤S701,获取各样本道路数据,样本道路数据包括样本用户轨迹数据以及样本用户轨迹数据所对应的数据标识信息;
步骤S702,将各样本用户轨迹数据匹配至路网,得到样本用户轨迹数据对应的样本路线数据;
步骤S703,基于各样本道路数据包括的样本用户轨迹数据以及样本用户轨迹数据所对应的数据标识信息对Skip-gram模型进行训练,直至符合预设的训练结束条件,得到训练后的Skip-gram模型;
步骤S704,基于训练后的Skip-gram模型的模型参数,得到的道路特征向量集合;
步骤S705,基于道路特征向量集合进行相应的处理。
可选的,基于道路特征向量集合进行相应的处理包括但不限于以下应用场景。
(1)基于道路特征向量确定GPS数据与道路的关联性,此时得到关联准确性更高,即可通过道路特征向量提升吸附的准确率。例如:通过已走过道路的道路特征向量,判断目前GPS位置更可能位于哪一条拓扑相连的道路中。
(2)基于通行能力、路网拓扑结构,通过道路特征向量定量计算道路间的相似度,查找“语义相关”的道路,以及将道路特征向量融合为路线特征向量,然后作为特征加入负相关业务机器学习模型进行训练,如可以基于道路特征向量融合得到路线特征向量,然后基于路线特征向量对ETA预测,路线召回,路线排序等业务的机器学习模型进行训练。
(3)基于道路特征向量的高维空间距离,计算各路线之间的近似分流概率,可以提升召回路线合理率。
(4)通过道路特征向量确定城市与道路、用户与道路、用户与城市间关系的定量描述,以及对道路特征向量进行累加、均值等计算,确定用户常走路线等。
(5)可以将道路特征向量融合得到POI(Point of Interest,兴趣点)向量,即将与POI相连的路网的道路特征向量通过适合的方法进行融合,得到POI的向量。
(6)基于道路特征向量,通过机器学习方法预测删除道路出现在给定路线中的概率。
本申请实施例提供了一种用户轨迹数据的处理装置,如图8所示,该用户轨迹数据的处理装置60可以包括:道路数据获取模块601、路线数据确定模块602、特征向量确定模块603以及处理模块604,其中,
道路数据获取模块601,用于获取待处理道路数据,待处理道路数据包括待处理用户轨迹数据;
路线数据确定模块602,用于确定待处理用户轨迹数据对应的用户路线数据,用户路线数据包括待处理用户轨迹数据经过的各道路的道路数据;
特征向量确定模块603,用于根据用户路线数据和道路特征向量集合,确定待处理道路数据对应的道路特征向量,其中,道路特征向量集合是基于样本道路数据对特征嵌入模型进行训练得到的;
处理模块604,用于根据道路特征向量进行相应的处理。
可选的,道路特征向量集合中包含各道路的道路数据的特征表示信息,特征向量确定模块在根据用户路线数据和道路特征向量集合,确定待处理道路数据对应的道路特征向量时,具体用于:
根据用户路线数据和道路特征向量集合,确定待处理用户轨迹路线经过的各道路的道路数据的特征表示信息;
根据各道路的经过顺序、以及各道路的道路数据的特征表示信息,得到待处理道路数据对应的道路特征向量。
可选的,待处理道路数据还包括待处理用户轨迹数据对应的数据标识信息,数据标识信息包括城市标识信息或用户标识信息中的至少一项。
可选的,道路特征向量集合中还包括各数据标识信息对应的特征表示信息;
特征向量确定模块还用于:
根据待处理用户轨迹数据对应的数据标识信息和道路特征向量集合,确定待处理用户轨迹数据对应的数据标识信息的特征表示信息;
特征向量确定模块在根据各道路的经过顺序、以及各道路的道路数据的特征表示信息,得到待处理道路数据对应的道路特征向量时,具体用于:
根据待处理用户轨迹数据对应的数据标识信息的特征表示信息、各道路的经过顺序、以及各道路的道路数据的特征表示信息,得到待处理道路数据对应的道路特征向量。
可选的,处理模块在根据道路特征向量进行相应的处理时,具体包括以下至少一项:
根据道路特征向量确定同义道路;
根据道路特征向量确定同义路线;
根据道路特征向量进行路线聚类处理;
基于道路特征向量进行神经网络模型的训练。
可选的,道路特征向量集合是基于训练后的特征嵌入模型的隐藏层的模型参数得到的,或者是基于训练后的特征嵌入模型的隐藏层和输出层的模型参数得到的。
可选的,该装置还包括道路特征向量集合获取模块,具体用于通过以下方式得到道路特征向量集合:
获取各样本道路数据,样本道路数据包括样本用户轨迹数据;
对于每个样本数据,确定样本用户轨迹数据对应的样本路线数据;
基于每个样本道路数据对应的样本路线数据,确定每个样本道路数据对应的初始特征向量;
基于各初始特征向量对特征嵌入模型进行训练,直至符合预设的训练结束条件;
基于训练结束时的特征嵌入模型的模型参数,得到道路特征向量集合。
可选的,样本道路数据还包括样本用户轨迹数据所对应的数据标识信息,数据标识信息包括城市标识信息或用户标识信息中的至少一项;
道路特征向量集合获取模块在基于每个样本道路数据对应的样本路线数据,确定每个样本道路数据对应的初始特征向量时,具体用于:
基于每个样本用户轨迹数据所对应的数据标识信息和样本路线数据,确定每个样本道路数据对应的初始特征向量。
可选的,特征嵌入模型包括Skip-gram模型,道路特征向量集合获取模块在基于每个样本道路数据对应的样本路线数据,确定每个样本道路数据的初始特征向量时,具体用于:
对于一个样本道路数据,基于该样本道路数据对应的样本路线数据进行独热编码,得到该样本道路数据的初始特征向量;
基于各初始特征向量对特征嵌入模型进行训练,包括:
将各初始特征向量输入至Skip-gram模型中,得到各初始特征向量中待优化信息的预测上下文信息;
基于各初始特征向量中待优化信息的预测上下文信息与各初始特征向量中待优化信息对应的真实上下文信息对Skip-gram模型进行训练。
本申请实施例的用户轨迹数据的处理装置可执行本申请实施例提供的一种用户轨迹数据的处理方法,其实现原理相类似,此处不再赘述。该
本申请实施例提供了一种电子设备,如图9所示,图9所示的电子设备2000包括:处理器2001和存储器2003。其中,处理器2001和存储器2003相连,如通过总线2002相连。可选地,电子设备2000还可以包括收发器2004。需要说明的是,实际应用中收发器2004不限于一个,该电子设备2000的结构并不构成对本申请实施例的限定。
其中,处理器2001应用于本申请实施例中,用于实现图8所示的各模块的功能。
处理器2001可以是CPU,通用处理器,DSP,ASIC,FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器2001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线2002可包括一通路,在上述组件之间传送信息。总线2002可以是PCI总线或EISA总线等。总线2002可以分为地址总线、数据总线、控制总线等。为便于表示,图9中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器2003可以是ROM或可存储静态信息和计算机程序的其他类型的静态存储设备,RAM或者可存储信息和计算机程序的其他类型的动态存储设备,也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储或以数据结构形式的期望的计算机程序并能够由计算机存取的任何其他介质,但不限于此。
存储器2003用于存储执行本申请方案的应用程序的计算机程序,并由处理器2001来控制执行。处理器2001用于执行存储器2003中存储的应用程序的计算机程序,以实现图8所示实施例提供的用户轨迹数据的处理装置的动作。
本申请实施例提供了一种电子设备,包括处理器以及存储器:存储器被配置用于存储计算机程序,计算机程序在由处理器执行时,使得处理器上述实施例中的任一项方法。
本申请实施例提供了一种计算机可读存储介质,计算机可读存储介质用于存储计算机程序,当计算机程序在计算机上运行时,使得计算机可以执行上述实施例中的任一项方法。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种可选实现方式中提供的方法。
本申请中的一种计算机可读存储介质所涉及的名词及实现原理具体可以参照本申请实施例中的一种用户轨迹数据的处理方法,在此不再赘述。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (10)

1.一种用户轨迹数据的处理方法,其特征在于,包括:
获取待处理道路数据,所述待处理道路数据包括待处理用户轨迹数据和所述待处理用户轨迹数据对应的数据标识信息,所述数据标识信息包括用户标识信息;
确定所述待处理用户轨迹数据对应的用户路线数据,所述用户路线数据包括所述待处理用户轨迹数据经过的各道路的道路数据;
根据所述用户路线数据、所述数据标识信息和道路特征向量集合,确定所述待处理用户轨迹数据经过的各道路的道路数据的特征表示信息,以及所述待处理用户轨迹数据对应的数据标识信息的特征表示信息;
根据所述待处理用户轨迹数据对应的数据标识信息的特征表示信息、所述各道路的经过顺序、以及所述各道路的道路数据的特征表示信息,得到所述待处理道路数据对应的道路特征向量;根据所述道路特征向量进行相应的处理;
其中,所述道路特征向量集合中包含各道路的道路数据的特征表示信息和各数据标识信息对应的特征表示信息,该集合是通过以下方式得到的:
获取各样本道路数据,所述样本道路数据包括样本用户轨迹数据和所述样本用户轨迹数据所对应的数据标识信息;
对于每个所述样本道路数据,确定所述样本用户轨迹数据对应的样本路线数据;基于每个所述样本道路数据对应的样本路线数据和数据标识信息,确定每个所述样本道路数据对应的初始特征向量;
基于各所述初始特征向量对初始特征嵌入模型进行训练,直至符合预设的训练结束条件;
基于训练结束时的所述特征嵌入模型的模型参数,得到所述道路特征向量集合。
2.根据权利要求1所述的方法,其特征在于,所述数据标识信息还包括城市标识信息。
3.根据权利要求1或2所述的方法,其特征在于,所述根据所述道路特征向量进行相应的处理,包括以下至少一项:
根据所述道路特征向量确定同义道路;
根据所述道路特征向量确定同义路线;
根据所述道路特征向量进行路线聚类处理;
基于所述道路特征向量进行神经网络模型的训练。
4.根据权利要求1或2所述的方法,其特征在于,所述道路特征向量集合是基于训练后的所述特征嵌入模型的隐藏层的模型参数得到的,或者是基于训练后的所述特征嵌入模型的隐藏层和输出层的模型参数得到的。
5.根据权利要求4所述的方法,其特征在于,所述特征嵌入模型包括连续跳字Skip-gram模型,所述基于每个所述样本道路数据对应的样本路线数据和数据标识信息,确定每个所述样本道路数据对应的初始特征向量,包括:
对于一个所述样本道路数据,基于该样本道路数据对应的样本路线数据和数据标识信息进行独热编码,得到该样本道路数据的初始特征向量;
所述基于各所述初始特征向量对所述初始特征嵌入模型进行训练,包括:
将各所述初始特征向量输入至Skip-gram模型中,得到各所述初始特征向量中待优化信息的预测上下文信息;
基于各所述初始特征向量中待优化信息的预测上下文信息与各所述初始特征向量中待优化信息对应的真实上下文信息对所述Skip-gram模型进行训练。
6.一种用户轨迹数据的处理装置,其特征在于,包括:
道路数据获取模块,用于获取待处理道路数据,所述待处理道路数据包括待处理用户轨迹数据和所述待处理用户轨迹数据对应的数据标识信息,所述数据标识信息包括用户标识信息;
路线数据确定模块,用于确定所述待处理用户轨迹数据对应的用户路线数据,所述用户路线数据包括所述待处理用户轨迹数据经过的各道路的道路数据;
特征向量确定模块,用于根据所述用户路线数据、所述数据标识信息和道路特征向量集合,确定所述待处理用户轨迹数据经过的各道路的道路数据的特征表示信息,以及所述待处理用户轨迹数据对应的数据标识信息的特征表示信息,根据所述待处理用户轨迹数据对应的数据标识信息的特征表示信息、所述各道路的经过顺序、以及所述各道路的道路数据的特征表示信息,得到所述待处理道路数据对应的道路特征向量;
处理模块,用于根据所述道路特征向量进行相应的处理;
其中,所述道路特征向量集合中包含各道路的道路数据的特征表示信息和各数据标识信息对应的特征表示信息,该集合是通过以下方式得到的:
获取各样本道路数据,所述样本道路数据包括样本用户轨迹数据和所述样本用户轨迹数据所对应的数据标识信息;
对于每个所述样本道路数据,确定所述样本用户轨迹数据对应的样本路线数据;基于每个所述样本道路数据对应的样本路线数据和数据标识信息,确定每个所述样本道路数据对应的初始特征向量;
基于各所述初始特征向量对初始特征嵌入模型进行训练,直至符合预设的训练结束条件;
基于训练结束时的所述特征嵌入模型的模型参数,得到所述道路特征向量集合。
7.根据权利要求6所述的装置,其特征在于,所述数据标识信息还包括城市标识信息。
8.根据权利要求6或7所述的装置,其特征在于,所述道路特征向量集合是基于所述特征嵌入模型的隐藏层的模型参数得到的,或者是基于所述特征嵌入模型的隐藏层和输出层的模型参数得到的。
9.一种电子设备,其特征在于,包括处理器以及存储器:
所述存储器被配置用于存储计算机程序,所述计算机程序在由所述处理器执行时,使得所述处理器执行权利要求1-5任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储计算机程序,当所述计算机程序在计算机上运行时,使得计算机可以执行上述权利要求1-5中任一项所述的方法。
CN202011018814.XA 2020-09-24 2020-09-24 用户轨迹数据的处理方法、装置、电子设备及存储介质 Active CN112148825B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011018814.XA CN112148825B (zh) 2020-09-24 2020-09-24 用户轨迹数据的处理方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011018814.XA CN112148825B (zh) 2020-09-24 2020-09-24 用户轨迹数据的处理方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN112148825A CN112148825A (zh) 2020-12-29
CN112148825B true CN112148825B (zh) 2022-03-11

Family

ID=73896815

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011018814.XA Active CN112148825B (zh) 2020-09-24 2020-09-24 用户轨迹数据的处理方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN112148825B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109685109A (zh) * 2018-11-26 2019-04-26 浙江工业大学 一种基于孪生神经网络的基站标号轨迹分类方法
CN110798805A (zh) * 2018-08-02 2020-02-14 北京四维图新科技股份有限公司 基于gps轨迹的数据处理方法、装置及存储介质
CN110929882A (zh) * 2019-11-21 2020-03-27 腾讯科技(深圳)有限公司 一种基于人工智能的特征向量计算方法和相关装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109815993B (zh) * 2019-01-03 2023-05-23 西北大学 基于gps轨迹的区域特征提取、数据库建立及路口识别方法
CN110738370B (zh) * 2019-10-15 2023-10-03 南京航空航天大学 一种新颖的移动对象目的地预测算法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110798805A (zh) * 2018-08-02 2020-02-14 北京四维图新科技股份有限公司 基于gps轨迹的数据处理方法、装置及存储介质
CN109685109A (zh) * 2018-11-26 2019-04-26 浙江工业大学 一种基于孪生神经网络的基站标号轨迹分类方法
CN110929882A (zh) * 2019-11-21 2020-03-27 腾讯科技(深圳)有限公司 一种基于人工智能的特征向量计算方法和相关装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
利用词向量模型分析城市道路交通空间相关性;刘康等;《测绘学报》;20171231;第46卷(第12期);2032-2039 *

Also Published As

Publication number Publication date
CN112148825A (zh) 2020-12-29

Similar Documents

Publication Publication Date Title
CN104462190B (zh) 一种基于海量空间轨迹挖掘的在线的位置预测方法
Liu et al. Joint representation learning for multi-modal transportation recommendation
Huang et al. An efficient passenger-hunting recommendation framework with multitask deep learning
CN113505204B (zh) 召回模型训练方法、搜索召回方法、装置和计算机设备
Liu et al. Behavior2vector: Embedding users’ personalized travel behavior to vector
Sun et al. Road network metric learning for estimated time of arrival
Yin et al. A multi-task learning framework for road attribute updating via joint analysis of map data and GPS traces
Wang et al. Abnormal trajectory detection based on geospatial consistent modeling
Huang et al. Hierarchical destination prediction based on GPS history
CN113888867A (zh) 一种基于lstm位置预测的车位推荐方法及***
CN112148825B (zh) 用户轨迹数据的处理方法、装置、电子设备及存储介质
Xiao et al. Graph Neural Network-Based Design Decision Support for Shared Mobility Systems
Wu et al. Online map-matching assisted by object-based classification of driving scenario
Liu et al. MCT‐TTE: Travel Time Estimation Based on Transformer and Convolution Neural Networks
CN115687764A (zh) 车辆轨迹评估模型的训练方法、车辆轨迹评估方法和装置
Groves et al. A framework for predicting trajectories using global and local information
CN112417260B (zh) 本地化推荐方法、装置及存储介质
CN103577486A (zh) 一种对搜索结果进行排序的方法和设备
Liu et al. TTDM: A travel time difference model for next location prediction
CN111797183A (zh) 挖掘信息点的道路属性的方法、装置及电子设备
Kim et al. Personalized POI embedding for successive POI recommendation with large-scale smart card data
Li et al. Map matching for taxi GPS data with extreme learning machine
CN117132958B (zh) 道路要素识别方法及相关装置
CN110781283A (zh) 连锁品牌词库生成方法、装置以及电子设备
CN113283184B (zh) 一种出行推荐方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40036259

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant