CN105138590A - 轨迹预测方法和装置 - Google Patents

轨迹预测方法和装置 Download PDF

Info

Publication number
CN105138590A
CN105138590A CN201510464596.5A CN201510464596A CN105138590A CN 105138590 A CN105138590 A CN 105138590A CN 201510464596 A CN201510464596 A CN 201510464596A CN 105138590 A CN105138590 A CN 105138590A
Authority
CN
China
Prior art keywords
classification type
departure place
destination information
place information
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510464596.5A
Other languages
English (en)
Inventor
卢海阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Didi Infinity Technology and Development Co Ltd
Original Assignee
Beijing Didi Infinity Technology and Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Didi Infinity Technology and Development Co Ltd filed Critical Beijing Didi Infinity Technology and Development Co Ltd
Priority to CN201510464596.5A priority Critical patent/CN105138590A/zh
Publication of CN105138590A publication Critical patent/CN105138590A/zh
Priority to EP16742766.5A priority patent/EP3252704B1/en
Priority to GB1712010.6A priority patent/GB2550309A/en
Priority to US15/546,657 priority patent/US10458806B2/en
Priority to SG11201706149XA priority patent/SG11201706149XA/en
Priority to CA2975002A priority patent/CA2975002C/en
Priority to KR1020177023933A priority patent/KR20180006875A/ko
Priority to NZ751377A priority patent/NZ751377B2/en
Priority to JP2017539550A priority patent/JP6637054B2/ja
Priority to MYPI2017001096A priority patent/MY193639A/en
Priority to PCT/CN2016/072357 priority patent/WO2016119704A1/zh
Priority to BR112017016064-1A priority patent/BR112017016064B1/pt
Priority to AU2016212530A priority patent/AU2016212530A1/en
Priority to PH12017501345A priority patent/PH12017501345A1/en
Priority to HK18104998.4A priority patent/HK1245955A1/zh
Priority to US16/569,632 priority patent/US11156470B2/en
Priority to AU2019101806A priority patent/AU2019101806A4/en
Priority to AU2019236639A priority patent/AU2019236639A1/en
Priority to JP2019228967A priority patent/JP6918087B2/ja
Priority to US17/448,717 priority patent/US11892312B2/en
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Traffic Control Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种轨迹预测方法及装置,所述方法包括:针对待预测轨迹的用户设备UE,获取打车平台在预设时间段内记录的UE发出打车请求的出发地信息和目的地信息;根据预先建立的分类模型,对所有的出发地信息和/或目的地信息进行分类处理,确定所述UE在预设时间段内的分类类型,该分类类型为属于预设的POI分类类型中的一种或多种;根据所述UE在预设时间段内的分类类型,预测所述UE的轨迹。本发明能够根据从用户打车***中获取的打车数据获取用户的兴趣点,进而预测用户的出行轨迹。

Description

轨迹预测方法和装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种轨迹预测方法和装置。
背景技术
POI(Pointofinterest,兴趣点)是地理信息***中收集的地理信息表现形式,可以是一栋建筑物、一个商家、一个医院、一个邮筒或者一个公交站等。由于POI标识了兴趣点,那么可以根据用户的POI刻画用户的出行目的或出行轨迹。
当前随着智能设备,特别是智能导航、智能手机的普及,给人们的出行带来了极大的便利。随着城市的发展,打车需求已经是社会各个阶层人士的普遍需求。如何利用打车***中用户的打车数据,获取用户的POI,从而预测用户的出行目的或出行轨迹成为一项有意义的研究。
发明内容
针对现有技术的缺陷,本发明提供一种轨迹预测方法和装置,能够根据从用户打车***中获取的打车数据获取用户的兴趣点,进而预测用户的出行轨迹。
第一方面,本发明提供了一种轨迹预测方法,所述方法包括:
针对待预测轨迹的用户设备UE,获取打车平台在预设时间段内记录的UE发出打车请求的出发地信息和目的地信息;
根据预先建立的分类模型,对所有的出发地信息和/或目的地信息进行分类处理,确定所述UE在预设时间段内的分类类型,该分类类型为属于预设的POI分类类型中的一种或多种;
根据所述UE在预设时间段内的分类类型,预测所述UE的轨迹。
进一步地,在根据预先建立的分类模型,对所有的出发地信息和/或目的地信息进行分类处理,确定所述UE在预设时间段内的分类类型之前,所述方法还包括:建立分类模型;
所述建立分类模型包括:
获取多个已知POI分类类型的文本地址数据;
采用预设的分词算法对所述多个已知POI分类类型的文本地址数据进行分词处理,得到多个特征文本;
将所述多个特征文本作为训练数据,采用贝叶斯算法对所述训练数据进行训练,得到所述分类模型。
进一步地,根据预先建立的分类模型,对所有的出发地信息和/或目的地信息进行分类处理,确定所述UE在预设时间段内的分类类型包括:
针对每个出发地信息和/或目的地信息,根据所述分类模型对所述出发地信息和/或目的地信息进行分类处理,获取所述出发地信息和/或目的地信息属于每种POI分类类型的概率,
以及,确定最大概率值对应的POI分类类型作为该出发地信息和/或目的地信息对应的POI分类类型;
将所有的出发地信息和/或目的地信息对应的POI分类类型中的一种或多种作为所述UE在预设时间段内的分类类型。
进一步地,根据预先建立的分类模型,对所有的出发地信息和/或目的地信息进行分类处理,确定所述UE在预设时间段内的分类类型包括:
针对每个出发地信息和/或目的地信息,根据所述分类模型对所述出发地信息和/或目的地信息进行分类处理,获取所述出发地信息和/或目的地信息属于每种POI分类类型的概率,按照概率值从大到小依次排布分别为P1,P2,...,Pn
若P1>z*P2,则确定最大概率值P1对应的POI分类类型作为该出发地信息和/或目的地信息对应的POI分类类型,否则,不对该出发地信息和/或目的地信息进行分类;
将所有的出发地信息和/或目的地信息对应的POI分类类型中的一种或多种作为所述UE在预设时间段内的分类类型。
进一步地,根据所述分类模型对每个出发地信息和/或目的地信息进行分类处理,获取所述出发地信息和/或目的地信息属于每种POI分类类型的概率,包括:
针对每个出发地信息和/或目的地信息,采用预设的分词算法对所述出发地信息和/或目的地信息进行分词处理,得到属于该出发地信息和/或目的地信息的多个特征文本;
针对每个出发地信息和/或目的地信息,根据下述分类模型对所述出发地信息和/或目的地信息进行分类处理,获取所述出发地信息和/或目的地信息属于每种POI分类类型的概率Pk
P k = P ( Y | X ) = P ( X | Y ) * P ( Y ) P ( X ) = Π i m P ( x i | Y = y k ) * P ( Y = y k ) P ( X ) ;
其中,X=(x1,x2,x3,…,xm),xi是所述出发地信息和/或目的地信息进行分词处理后得到的特征文本,m为所述出发地信息和/或目的地信息进行分词处理后得到的特征文本的总数;Y=(y1,y2,y3,…,yn),n为预设的POI分类类型的总数;P(Y=yk)是根据训练数据训练得到的POI分类类型yk出现的概率,P(xi|Y=yk)是根据训练数据训练得到的POI分类类型yk中特征文本xi出现的概率,P(X)是所述出发地信息和/或目的地信息出现的概率。
进一步地,在采用预设的分词算法对所述多个已知POI分类类型的文本地址数据进行分词处理,得到多个特征文本之后,所述方法还包括:
去除该多个特征文本中长度小于预设阈值的特征文本;
相应地,在采用预设的分词算法对所述出发地信息和/或目的地信息进行分词处理,得到属于该出发地信息和/或目的地信息的多个特征文本之后,所述方法还包括:
去除该多个特征文本中长度小于预设阈值的特征文本。
进一步地,在获取多个已知POI分类类型的文本地址数据之后,所述方法还包括:
对所述多个已知POI分类类型的文本地址数据进行样本均衡:
根据所述已知POI分类类型的文本地址数据的数量,以及根据所述已知POI分类类型的文本地址数据确定的POI分类类型的数量,确定每个POI分类类型拥有的平均文本地址数据的数量;
若某一POI分类类型实际拥有的文本地址数据的数量小于所述平均文本地址数据的数量,则增加若干该POI分类类型的文本地址数据;
若某一POI分类类型实际拥有的文本地址数据的数量大于所述平均文本地址数据的数量,则减少若干该POI分类类型的文本地址数据。
第二方面,本发明提供了一种轨迹预测装置,所述装置包括:
获取单元,用于针对待预测轨迹的用户设备UE,获取打车平台在预设时间段内记录的UE发出打车请求的出发地信息和目的地信息;
确定单元,用于根据预先建立的分类模型,对所述获取单元获取的所有出发地信息和/或目的地信息进行分类处理,确定所述UE在预设时间段内的分类类型,该分类类型为属于预设的POI分类类型中的一种或多种;
预测单元,用于根据所述UE在预设时间段内的分类类型,预测所述UE的轨迹。
进一步地,所述装置还包括分类模型建立单元,用于建立分类模型;
所述分类模型建立单元包括获取模块、分词模块和训练模块;
所述获取模块,用于获取多个已知POI分类类型的文本地址数据;
所述分词模块,用于采用预设的分词算法对所述多个已知POI分类类型的文本地址数据进行分词处理,得到多个特征文本;
所述训练模块,用于将所述多个特征文本作为训练数据,采用贝叶斯算法对所述训练数据进行训练,得到所述分类模型。
进一步地,所述确定单元包括概率获取模块、第一分类模块和第二分类模块;
所述概率获取模块,用于针对每个出发地信息和/或目的地信息,根据所述分类模型对所述出发地信息和/或目的地信息进行分类处理,获取所述出发地信息和/或目的地信息属于每种POI分类类型的概率;
所述第一分类模块用于将所述概率获取模块中获取的最大概率值对应的POI分类类型作为该出发地信息和/或目的地信息对应的POI分类类型;
所述第二分类模块用于将所有的出发地信息和/或目的地信息对应的POI分类类型中的一种或多种作为所述UE在预设时间段内的分类类型。
进一步地,所述确定单元包括概率获取模块、判断模块、第三分类模块和第四分类模块;
所述概率获取模块,用于针对每个出发地信息和/或目的地信息,根据所述分类模型对所述出发地信息和/或目的地信息进行分类处理,获取所述出发地信息和/或目的地信息属于每种POI分类类型的概率,按照概率值从大到小依次排布分别为P1,P2,...,Pn
所述判断模块,用于判断P1是否大于z*P2
所述第三分类模块,用于在所述判断模块确定P1大于z*P2时,将最大概率值P1对应的POI分类类型作为该出发地信息和/或目的地信息对应的POI分类类型;
所述第三分类模块,还用于在所述判断模块确定P1不大于z*P2时,不对该出发地信息和/或目的地信息进行分类;
所述第四分类模块,用于将所有的出发地信息和/或目的地信息对应的POI分类类型中的一种或多种作为所述UE在预设时间段内的分类类型。
进一步地,所述概率获取模块包括分词子模块和概率计算子模块;
所述分词子模块用于针对每个出发地信息和/或目的地信息,采用预设的分词算法对所述出发地信息和/或目的地信息进行分词处理,得到属于该出发地信息和/或目的地信息的多个特征文本;
所述概率计算子模块用于针对每个出发地信息和/或目的地信息,根据下述分类模型对所述出发地信息和/或目的地信息进行分类处理,获取所述出发地信息和/或目的地信息属于每种POI分类类型的概率Pk
P k = P ( Y | X ) = P ( X | Y ) * P ( Y ) P ( X ) = Π i m P ( x i | Y = y k ) * P ( Y = y k ) P ( X ) ;
其中,X=(x1,x2,x3,…,xm),xi是所述出发地信息和/或目的地信息进行分词处理后得到的特征文本,m为所述出发地信息和/或目的地信息进行分词处理后得到的特征文本的总数;Y=(y1,y2,y3,…,yn),n为预设的POI分类类型的总数;P(Y=yk)是根据训练数据训练得到的POI分类类型yk出现的概率,P(xi|Y=yk)是根据训练数据训练得到的POI分类类型yk中特征文本xi出现的概率,P(X)是所述出发地信息和/或目的地信息出现的概率。
进一步地,所述分类模型建立单元还包括冗余去除模块;
所述冗余去除模块,用于去除所述分词模块得到的多个特征文本中长度小于预设阈值的特征文本;
相应地,所述概率获取模块还包括冗余去除子模块;
所述冗余去除子模块,用于去除所述分词子模块得到的多个特征文本中长度小于预设阈值的特征文本。
进一步地,所述分类模型建立单元还包括样本均衡模块;
所述样本均衡模块,包括计算子模块、判断子模块、添加子模块和删除子模块;
所述计算子模块,用于根据所述获取模块获取的已知POI分类类型的文本地址数据的数量,以及根据所述已知POI分类类型的文本地址数据确定的POI分类类型的数量,计算每个POI分类类型拥有的平均文本地址数据的数量;
所述判断子模块,用于根据所述获取模块获取的已知POI分类类型的文本地址数据,判断某一POI分类类型实际拥有的文本地址数据的数量是否小于所述平均文本地址数据的数量;
所述添加子模块,用于在所述判断子模块确定某一POI分类类型实际拥有的文本地址数据的数量小于所述平均文本地址数据的数量时,添加若干该POI分类类型的文本地址数据;
所述删除子模块,用于在所述判断子模块确定某一POI分类类型实际拥有的文本地址数据的数量大于所述平均文本地址数据的数量时,删除若干该POI分类类型的文本地址数据。
由上述技术方案可知,本发明提供的轨迹预测方法,通过对从打车***中获取的出发地信息和目的地信息进行地址明文分类,得到出发地信息和目的地信息对应的POI分类结果,从而获得用户的兴趣点,进而实现挖掘用户出行目的,刻画用户行动轨迹的作用。
由于现有技术中,一般都是通过获取GPS坐标获得用户的兴趣点,这种方式的缺点是采集难度较大、时间较长。本发明利用从打车***中获取的地址明文信息,进行POI分类,从而获取用户的兴趣点。相对于传统的通过获取GPS坐标获得用户兴趣点的方法,具有效率高、覆盖面广等优点,且在一定条件下可以保证兴趣点获取结果的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些图获得其他的附图。
图1是本发明第一个实施例提供的轨迹预测方法的流程图;
图2是本发明第七个实施例提供的对于每个出发地信息和/或目的地信息进行POI分类的分类过程示意图;
图3是本发明第八个实施例提供的轨迹预测装置的结构示意图;
图4是本发明第九个实施例提供的轨迹预测装置的结构示意图;
图5是本发明第十个实施例提供的轨迹预测装置的结构示意图;
图6是本发明第十一个实施例提供的轨迹预测装置的结构示意图;
图7是本发明第十二个实施例提供的轨迹预测装置的结构示意图;
图8是本发明第十三个实施例提供的轨迹预测装置的结构示意图。
具体实施方式
下面将结合本公开实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
以下对本发明实施例中提及的部分词语进行举例说明。
本发明实施例中提及的用户设备(UserEquipment,简称UE)是指服务需求方,如交通工具叫车服务中的乘客所使用的移动电话或固定电话或其他具有信息传输功能的设备。本发明实施例中提及的打车平台是指打车***及其相应的后台服务器。其中,打车***为一个预设的智能管理***,其用于根据接收的UE的打车请求为UE提供相应的服务。其中,UE的打车请求中包含有出发地信息和目的地信息。
图1示出了本发明第一个实施例提供的轨迹预测方法的流程图。如图1所示,本实施例提供的轨迹预测方法包括如下步骤:
步骤101:针对待预测轨迹的用户设备UE,获取打车平台在预设时间段内记录的UE发出打车请求的出发地信息和目的地信息。
在本步骤中,针对待预测轨迹的某个UE,从打车平台中获取7月20至7月26记录的该UE发出的打车请求中的出发地信息和目的地信息,比如获取的出发地信息为:北京上地地铁站、尚美家园、中关村大厦、中关村港丽餐厅、中关村鹿港小镇、五道口辣尚瘾烤鱼店;目的地信息为:尚美家园、中关村大厦、北京上地地铁站。
步骤102:根据预先建立的分类模型,对所有的出发地信息和/或目的地信息进行分类处理,确定所述UE在预设时间段内的分类类型。
在本步骤中,所述分类类型为属于预设的POI(Pointofinterest,兴趣点)分类类型中的一种或多种;所述分类模型为根据已知POI分类类型的文本地址数据,通过贝叶斯算法或线性回归模型训练获取的。
其中所述线性回归模型还包括逻辑斯特回归模型和支持向量机模型。在本实施例中利用所述贝叶斯算法或线性回归模型进行多目标分类的训练。当然,本发明所述分类模型的获取方法并不限于此,根据实际需要也可以采取其他算法或模型对所述已知POI分类类型的文本地址数据进行训练。或者不经过数据训练而直接根据经验数值建立的分类模型也属于本发明的保护范围。
根据预先建立的分类模型,对所有的出发地信息和/或目的地信息进行分类处理,确定所述UE在预设时间段内的分类类型。例如,分别对上述出发地信息和目的地信息:“北京上地地铁站、尚美家园、中关村大厦、中关村港丽餐厅、中关村鹿港小镇、五道口辣尚瘾烤鱼店;目的地信息为:尚美家园、中关村大厦、北京上地地铁站”进行分类处理。得到北京上地地铁站对应的POI分类类型为“交通设施”、尚美家园对应的POI分类类型为“房产小区”,中关村大厦对应的POI分类类型为“办公区”,“中关村港丽餐厅”对应的POI分类类型为“餐饮美食”、“中关村鹿港小镇”对应的POI分类类型为“餐饮美食”,“五道口辣尚瘾烤鱼店”对应的POI分类类型为“餐饮美食”。
在确定完所述出发地信息和目的地信息对应的POI分类类型之后,将所有的出发地信息和/或目的地信息对应的POI分类类型中的一种或多种作为所述UE在预设时间段内的分类类型。例如,将“餐饮美食”和“房产小区”作为所述UE在预设时间段内的分类类型。
步骤103:根据所述UE在预设时间段内的分类类型,预测所述UE的轨迹。
在本步骤中,根据所述UE在预设时间段内的分类类型“餐饮美食”和“房产小区”,预测该UE所属的用户在预设时间段内主要在居住地和餐厅之间走动。从而可以推知,该UE所属的用户在这段时间内更倾向于饮食消费。
本实施例提供的轨迹预测方法,通过对从打车***中获取的出发地信息和目的地信息进行地址明文分类,得到出发地信息和目的地信息对应的POI分类结果,从而获得用户的兴趣点,进而实现挖掘用户出行目的,刻画用户行动轨迹的作用。
由于现有技术中,一般都是通过获取GPS坐标获得用户的兴趣点,这种方式的缺点是采集难度较大、时间较长。本实施例利用从打车***中获取的地址明文信息,进行POI分类,从而获取用户的兴趣点。相对于传统的通过获取GPS坐标获得用户兴趣点的方法,具有效率高、覆盖面广等优点,且在一定条件下可以保证用户兴趣点获取结果的准确性。
在本发明的第二个实施例中,在所述步骤102之前,所述方法还包括:
步骤102’:建立分类模型。
在本步骤中,采用贝叶斯算法建立上述分类模型,具体包括下述步骤S1-S3。
S1:获取多个已知POI分类类型的文本地址数据。
S2:采用预设的分词算法对所述多个已知POI分类类型的文本地址数据进行分词处理,得到多个特征文本。
在本步骤中,进行分词处理的目的是得到分类特征,便于进行文本分类,分词处理是将文本地址数据进行切词,如某个文本地址数据为“北京上地地铁站”时,分词结果为集合[北京、上地、地铁站],其中,“北京”、“上地”、“地铁站”即为得到的多个特征文本。
S3:将所述多个特征文本作为训练数据,采用贝叶斯算法对所述训练数据进行训练,得到所述分类模型。
在本步骤中,优选采用朴素贝叶斯算法进行模型训练。朴素贝叶斯算法是贝叶斯算法中最基础的一种分类算法,所述贝叶斯算法还包括权重贝叶斯算法等其他算法,为了简化分类模型的建立过程,本步骤采用朴素贝叶斯算法进行模型训练。当然,根据需要也可以变换其他类型的贝叶斯算法进行模型训练。
具体地,把每个已知POI分类类型的文本地址数据进行分词处理后得到的多个特征文本看作为一个向量,即x=(x1,x2,x3,…,xp),x的集合记为X,称为属性集。POI分类类型用集合Y=(y1,y2,…,yq)表示。采用朴素贝叶斯算法分类时对X和Y的每一种组合学习后验概率P(Y|X),然后选取最大后验概率所对应的分类作为x所属分类。根据贝叶斯公式,后验概率为P(Y|X)=P(X|Y)*P(Y)/P(X)。模型训练时要求的是先验概率P(Y)和条件概率P(xi|Y=yj),训练过程基于数据统计,训练得到P(Y=yj)和P(xi|Y=yj)。P(Y=yj)是样本集合中分类yj所占比例,P(xi|Y=yj)是POI分类yj中包含xi的样本数占比。
如基于统计,得到的部分先验概率:POI分类类型“酒店宾馆”的概率为0.2,“房产小区”的概率为0.3。又如得到的部分条件概率:特征文本“宾馆”的条件概率P(宾馆|poi=酒店宾馆)为0.6,特征文本“地铁站”的条件概率P(地铁站|poi=交通设施)为0.2。
本发明第三个实施例建立在上述第二个实施例基础之上。在本发明第三个实施例中,上述步骤102包括如下A1-A3子步骤。
步骤A1:针对上述步骤101得到的每个出发地信息和/或目的地信息,根据所述分类模型对所述出发地信息和/或目的地信息进行分类处理,获取所述出发地信息和/或目的地信息属于每种POI分类类型的概率。
在本步骤中,所述出发地信息和/或目的地信息属于每种POI分类类型的概率,按照概率值从大到小依次排布分别为P1,P2,...,Pn
步骤A2:确定最大概率值对应的POI分类类型作为该出发地信息和/或目的地信息对应的POI分类类型。
在本步骤中,确定最大概率值P1对应的POI分类类型作为该出发地信息和/或目的地信息对应的POI分类类型。例如某一目的地信息“北京上地地铁站”对应POI分类类型“交通设施”的概率最大,P1=0.6,因此将“交通设施”作为该目的地信息对应的POI分类类型。
步骤A3:将所有的出发地信息和/或目的地信息对应的POI分类类型中的一种或多种作为所述UE在预设时间段内的分类类型。
为了确保POI分类结果的可信度,在本发明第四个实施例中,上述步骤102包括如下B1-B3子步骤。本发明第四个实施例建立在上述第二个实施例基础之上。
步骤B1:针对上述步骤101得到的每个出发地信息和/或目的地信息,根据所述分类模型对所述出发地信息和/或目的地信息进行分类处理,获取所述出发地信息和/或目的地信息属于每种POI分类类型的概率,按照概率值从大到小依次排布分别为P1,P2,...,Pn
步骤B2:判断P1是否大于z*P2,若是,则确定最大概率值P1对应的POI分类类型作为该出发地信息和/或目的地信息对应的POI分类类型,否则,不对该出发地信息和/或目的地信息进行分类。
在本实施中,只有当某种POI分类类型的概率相对其他分类类型的概率具有明显优势时才认为该分类结果的可信度较高,所以在本步骤中,判断P1是否大于z*P2,若是,则认为该分类结果是可信的,否则不对该出发地信息和/或目的地信息进行预测。其中,z是一个系数因子,一般取值为3~5。
步骤B3:将所有的出发地信息和/或目的地信息对应的POI分类类型中的一种或多种作为所述UE在预设时间段内的分类类型。
在上述第二个实施例和第三个实施例中,对于步骤A1或B1,均包括如下子步骤a和b。
步骤a:针对每个出发地信息和/或目的地信息,采用预设的分词算法对所述出发地信息和/或目的地信息进行分词处理,得到属于该出发地信息和/或目的地信息的多个特征文本;
步骤b:针对每个出发地信息和/或目的地信息,根据下述分类模型对所述出发地信息和/或目的地信息进行分类处理,获取所述出发地信息和/或目的地信息属于每种POI分类类型的概率Pk
P k = P ( Y | X ) = P ( X | Y ) * P ( Y ) P ( X ) = Π i m P ( x i | Y = y k ) * P ( Y = y k ) P ( X ) ;
其中,X=(x1,x2,x3,…,xm),xi是所述出发地信息和/或目的地信息进行分词处理后得到的特征文本,m为所述出发地信息和/或目的地信息进行分词处理后得到的特征文本的总数;Y=(y1,y2,y3,…,yn),n为预设的POI分类类型的总数;P(Y=yk)是根据训练数据训练得到的POI分类类型yk出现的概率,P(xi|Y=yk)是根据训练数据训练得到的POI分类类型yk中特征文本xi出现的概率,P(X)是所述出发地信息和/或目的地信息出现的概率。
由于特征文本作为文本分类的特征使用,由于短文本在分类时特征不明显,因此为了减少不必要的数据处理量以及提高分类准确率,需要将分词处理后得到的特征文本中过短的特征文本抛弃。
在本发明第五个实施例中,在上述步骤102’建立分类模型的过程中,在步骤S2采用预设的分词算法对所述多个已知POI分类类型的文本地址数据进行分词处理,得到多个特征文本之后,所述步骤102’还包括步骤S3’。
步骤S3’:去除步骤S2得到的多个特征文本中长度小于预设阈值的特征文本。
在本步骤中,例如,对于文本地址数据“我在北京西二旗地铁站”进行分词处理,得到多个特征文本“我”、“在”、“北京”、“西二旗”和“地铁站”,由于“我”和“在”的长度较短,在分类时特征不明显,因此,去除冗余特征文本“我”和“在”。一般地,所述预设阈值为2,即去除长度小于2的特征文本。
在执行完步骤S3’后,继续执行步骤S3,即将冗余处理后的特征文本作为训练数据,采用贝叶斯算法对所述训练数据进行训练,得到所述分类模型。
相对应地,上述步骤a之后还包括步骤b’。
步骤b’:去除步骤a得到的多个特征文本中长度小于预设阈值的特征文本。
在执行完步骤b’之后,利用冗余处理后的特征文本继续执行步骤b。
为了避免POI分类样本不均衡对训练结果的影响,在将训练数据应用于模型训练前,需要进行样本均衡。
在本发明第六个实施例中,在上述步骤102’建立分类模型的过程中,在步骤S1获取多个已知POI分类类型的文本地址数据之后,所述步骤102’还包括步骤S2’。
步骤S2’:对所述多个已知POI分类类型的文本地址数据进行样本均衡。
在本步骤S2’中,根据所述已知POI分类类型的文本地址数据的数量,以及根据所述已知POI分类类型的文本地址数据确定的POI分类类型的数量,确定每个POI分类类型拥有的平均文本地址数据的数量;
若某一POI分类类型实际拥有的文本地址数据的数量小于所述平均文本地址数据的数量,则增加若干该POI分类类型的文本地址数据;
若某一POI分类类型实际拥有的文本地址数据的数量大于所述平均文本地址数据的数量,则减少若干该POI分类类型的文本地址数据。
在执行完步骤S2’之后,继续执行步骤S2,即采用预设的分词算法对所述样本均衡后的多个已知POI分类类型的文本地址数据进行分词处理,得到多个特征文本。
本实施例中,在进行样本均衡时,可以采取“有放回抽样”的样本均衡方法,首先遍历一遍训练数据集,统计出根据所述已知POI分类类型的文本地址数据确定的POI分类类型的数量type_total和已知POI分类类型的文本地址数据的数量records,然后得到每个POI分类类型拥有的平均文本地址数据的数量average=type_total/records。然后再对每个POI分类类型进行“有放回抽样”,如POI分类类型yi的样本(文本地址数据)数目为N,则当N小于average时,则通过抽样补充POI分类类型yi的样本数目至N,当N大于average时,则适当降低POI分类类型yi的样本数目,如只抽取数目的样本作为该POI分类类型yi的训练样本。
在本发明的第七个实施例中,给出了一个具体例子对上述实施例提供的轨迹预测方法进行解释说明。
其中对于每个出发地信息和/或目的地信息进行POI分类的分类过程可参见图2所示。
首先,建立的分类模型。获取已知POI分类类型的文本地址数据作为训练样本,然后对样本进行均衡处理,使得每个POI分类类型的文本地址数据的数量不要相差太大。采用预设的分词算法对均衡处理后的样本进行分词处理,得到多个特征文本。根据得到的特征文本,基于统计的方法,分别统计每个POI分类类型的先验概率和每个特征文本的条件概率,如POI分类类型“酒店宾馆”的概率为0.2,“房产小区”的概率为0.3,特征文本“宾馆”的条件概率P(宾馆|poi=酒店宾馆)为0.6,特征文本“地铁站”的条件概率P(地铁站|poi=交通设施)为0.2。
其次,对于待预测轨迹的UE,从打车平台中获取在预设时间段内记录的UE发出打车请求的出发地信息和目的地信息。比如从打车平台中获取7月20至7月26记录的UE发出打车请求的出发地信息和目的地信息,比如出发地信息为:北京上地地铁站、尚美家园、中关村大厦、中关村港丽餐厅、中关村鹿港小镇、五道口辣尚瘾烤鱼店;目的地信息为:尚美家园、中关村大厦、北京上地地铁站。
然后,利用建立好的分类模型,对所有的出发地信息和/或目的地信息进行分类处理,确定所述UE在预设时间段内的分类类型。
比如,对于从打车平台中获取的目的地信息“北京上地地铁站”,首先将“北京上地地铁站”进行分词处理,分为“北京”、“上地”、“地铁站”,然后利用建立的POI分类模型,使用贝叶斯公式进行换算,得到该目的地信息“北京上地地铁站”对应每一种POI分类类型的概率,如该目的地信息对应POI分类类型“交通设施”和“地址地名”的概率最大,对应其他POI分类类型的概率均较小。例如该目的地信息对应POI分类类型“交通设施”的概率为0.6,对应POI分类类型“地址地名”的概率为0.1。由于该目的地信息对应POI分类类型“交通设施”的概率相对其他POI分类类型的概率优势很明显(0.6>3*0.1),所以可以判定该目的地信息对应的POI分类类型为“交通设施”。
按照上述相同的方式分别对从打车平台中获取的出发地信息和目的地信息如尚美家园、中关村大厦、中关村港丽餐厅、中关村鹿港小镇和五道口辣尚瘾烤鱼店进行POI分类,分别确定所述出发地信息和目的地信息对应的POI分类类型。例如尚美家园对应的POI分类类型为“房产小区”,中关村大厦对应的POI分类类型为“办公区”,“中关村港丽餐厅”对应的POI分类类型为“餐饮美食”、“中关村鹿港小镇”对应的POI分类类型为“餐饮美食”,“五道口辣尚瘾烤鱼店”对应的POI分类类型为“餐饮美食”。
在确定完所述出发地信息和目的地信息对应的POI分类类型之后,将所有的出发地信息和/或目的地信息对应的POI分类类型中的一种或多种作为所述UE在预设时间段内的分类类型。例如,将“餐饮美食”和“房产小区”作为所述UE在预设时间段内的分类类型。
最后,根据所述UE在预设时间段内的分类类型“餐饮美食”和“房产小区”,预测该UE所属的用户在预设时间段内主要在居住地和餐厅之间走动。从而可以推知,该UE所属的用户在这段时间内更倾向于饮食消费。
图3示出了本发明第八个实施例提供的轨迹预测装置的结构示意图,如图3所示,本实施例提供的轨迹预测装置,包括:
获取单元11,用于针对待预测轨迹的用户设备UE,获取打车平台在预设时间段内记录的UE发出打车请求的出发地信息和目的地信息;
确定单元12,用于根据预先建立的分类模型,对所述获取单元11获取的所有出发地信息和/或目的地信息进行分类处理,确定所述UE在预设时间段内的分类类型,该分类类型为属于预设的POI分类类型中的一种或多种;所述分类模型为根据已知POI分类类型的文本地址数据,通过贝叶斯算法或线性回归模型训练获取的;
预测单元13,用于根据所述UE在预设时间段内的分类类型,预测所述UE的轨迹。
在本发明第九个实施例中,参见图4,所述装置还包括分类模型建立单元14,用于建立分类模型;
所述分类模型建立单元14包括获取模块141、分词模块142和训练模块143;
所述获取模块141,用于获取多个已知POI分类类型的文本地址数据;
所述分词模块142,用于采用预设的分词算法对所述多个已知POI分类类型的文本地址数据进行分词处理,得到多个特征文本;
所述训练模块143,用于将所述多个特征文本作为训练数据,采用贝叶斯算法对所述训练数据进行训练,得到所述分类模型。
在本发明第十个实施例中,参见图5,所述确定单元12包括概率获取模块121、第一分类模块122和第二分类模块123;
所述概率获取模块121,用于针对每个出发地信息和/或目的地信息,根据所述分类模型对所述出发地信息和/或目的地信息进行分类处理,获取所述出发地信息和/或目的地信息属于每种POI分类类型的概率;
所述第一分类模块122用于将所述概率获取模块121中获取的最大概率值对应的POI分类类型作为该出发地信息和/或目的地信息对应的POI分类类型;
所述第二分类模块123用于将所有的出发地信息和/或目的地信息对应的POI分类类型中的一种或多种作为所述UE在预设时间段内的分类类型。
在本发明第十一个实施例中,参见图6,所述确定单元12包括概率获取模块121、判断模块124、第三分类模块125和第四分类模块126;
所述概率获取模块121,用于针对每个出发地信息和/或目的地信息,根据所述分类模型对所述出发地信息和/或目的地信息进行分类处理,获取所述出发地信息和/或目的地信息属于每种POI分类类型的概率,按照概率值从大到小依次排布分别为P1,P2,...,Pn
所述判断模块124,用于判断P1是否大于z*P2
所述第三分类模块125,用于在所述判断模块124确定P1大于z*P2时,将最大概率值P1对应的POI分类类型作为该出发地信息和/或目的地信息对应的POI分类类型;
所述第三分类模块125,还用于在所述判断模块124确定P1不大于z*P2时,不对该出发地信息和/或目的地信息进行分类;
所述第四分类模块126,用于将所有的出发地信息和/或目的地信息对应的POI分类类型中的一种或多种作为所述UE在预设时间段内的分类类型。
其中,在上述第十个实施例和第十一个实施例中,所述概率获取模块121进一步包括分词子模块1211和概率计算子模块1212;
所述分词子模块1211用于针对每个出发地信息和/或目的地信息,采用预设的分词算法对所述出发地信息和/或目的地信息进行分词处理,得到属于该出发地信息和/或目的地信息的多个特征文本;
所述概率计算子模块1212用于针对每个出发地信息和/或目的地信息,根据下述分类模型对所述出发地信息和/或目的地信息进行分类处理,获取所述出发地信息和/或目的地信息属于每种POI分类类型的概率Pk
P k = P ( Y | X ) = P ( X | Y ) * P ( Y ) P ( X ) = Π i m P ( x i | Y = y k ) * P ( Y = y k ) P ( X ) ;
其中,X=(x1,x2,x3,…,xm),xi是所述出发地信息和/或目的地信息进行分词处理后得到的特征文本,m为所述出发地信息和/或目的地信息进行分词处理后得到的特征文本的总数;Y=(y1,y2,y3,…,yn),n为预设的POI分类类型的总数;P(Y=yk)是根据训练数据训练得到的POI分类类型yk出现的概率,P(xi|Y=yk)是根据训练数据训练得到的POI分类类型yk中特征文本xi出现的概率,P(X)是所述出发地信息和/或目的地信息出现的概率。
在本发明第十二个实施例中,参见图7,上述分类模型建立单元14还包括冗余去除模块144;
所述冗余去除模块144,用于去除所述分词模块142得到的多个特征文本中长度小于预设阈值的特征文本。
相应地,上述概率获取模块121还包括冗余去除子模块1213;
所述冗余去除子模块1213,用于去除所述分词子模块1211得到的多个特征文本中长度小于预设阈值的特征文本。
在本发明第十三个实施例中,参见图8,所述分类模型建立单元14还包括样本均衡模块145;
所述样本均衡模块145,包括计算子模块1451、判断子模块1452、添加子模块1453和删除子模块1454;
所述计算子模块1451,用于根据所述获取模块141获取的已知POI分类类型的文本地址数据的数量,以及根据所述已知POI分类类型的文本地址数据确定的POI分类类型的数量,计算每个POI分类类型拥有的平均文本地址数据的数量;
所述判断子模块1452,用于根据所述获取模块141获取的已知POI分类类型的文本地址数据,判断某一POI分类类型实际拥有的文本地址数据的数量是否小于所述平均文本地址数据的数量;
所述添加子模块1453,用于在所述判断子模块1452确定某一POI分类类型实际拥有的文本地址数据的数量小于所述平均文本地址数据的数量时,添加若干该POI分类类型的文本地址数据;
所述删除子模块1454,用于在所述判断子模块1452确定某一POI分类类型实际拥有的文本地址数据的数量大于所述平均文本地址数据的数量时,删除若干该POI分类类型的文本地址数据。
本实施例所述的轨迹预测装置可以用于执行上述实施例所述轨迹预测方法,其实现原理和技术效果类似,此处不再详述。
本领域普通技术人员可以理解:实现上述方法实施例的全部或者部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储在计算机可读取的存储介质中,该程序在执行时,执行包括上述方法实施例的步骤。
本发明的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解;其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (14)

1.一种轨迹预测方法,其特征在于,所述方法包括:
针对待预测轨迹的用户设备UE,获取打车平台在预设时间段内记录的UE发出打车请求的出发地信息和目的地信息;
根据预先建立的分类模型,对所有的出发地信息和/或目的地信息进行分类处理,确定所述UE在预设时间段内的分类类型,该分类类型为属于预设的POI分类类型中的一种或多种;
根据所述UE在预设时间段内的分类类型,预测所述UE的轨迹。
2.根据权利要求1所述的方法,其特征在于,在根据预先建立的分类模型,对所有的出发地信息和/或目的地信息进行分类处理,确定所述UE在预设时间段内的分类类型之前,所述方法还包括:建立分类模型;以及,
所述建立分类模型包括:
获取多个已知POI分类类型的文本地址数据;
采用预设的分词算法对所述多个已知POI分类类型的文本地址数据进行分词处理,得到多个特征文本;
将所述多个特征文本作为训练数据,采用贝叶斯算法对所述训练数据进行训练,得到所述分类模型。
3.根据权利要求2所述的方法,其特征在于,根据预先建立的分类模型,对所有的出发地信息和/或目的地信息进行分类处理,确定所述UE在预设时间段内的分类类型包括:
针对每个出发地信息和/或目的地信息,根据所述分类模型对所述出发地信息和/或目的地信息进行分类处理,获取所述出发地信息和/或目的地信息属于每种POI分类类型的概率,以及,
确定最大概率值对应的POI分类类型作为该出发地信息和/或目的地信息对应的POI分类类型;
将所有的出发地信息和/或目的地信息对应的POI分类类型中的一种或多种作为所述UE在预设时间段内的分类类型。
4.根据权利要求2所述的方法,其特征在于,根据预先建立的分类模型,对所有的出发地信息和/或目的地信息进行分类处理,确定所述UE在预设时间段内的分类类型包括:
针对每个出发地信息和/或目的地信息,根据所述分类模型对所述出发地信息和/或目的地信息进行分类处理,获取所述出发地信息和/或目的地信息属于每种POI分类类型的概率,按照概率值从大到小依次排布分别为P1,P2,...,Pn
若P1>z*P2,则确定最大概率值P1对应的POI分类类型作为该出发地信息和/或目的地信息对应的POI分类类型,否则,不对该出发地信息和/或目的地信息进行分类;
将所有的出发地信息和/或目的地信息对应的POI分类类型中的一种或多种作为所述UE在预设时间段内的分类类型。
5.根据权利要求3或4所述的方法,其特征在于,根据所述分类模型对每个出发地信息和/或目的地信息进行分类处理,获取所述出发地信息和/或目的地信息属于每种POI分类类型的概率,包括:
针对每个出发地信息和/或目的地信息,采用预设的分词算法对所述出发地信息和/或目的地信息进行分词处理,得到属于该出发地信息和/或目的地信息的多个特征文本;
针对每个出发地信息和/或目的地信息,根据下述分类模型对所述出发地信息和/或目的地信息进行分类处理,获取所述出发地信息和/或目的地信息属于每种POI分类类型的概率Pk
P k = P ( Y | X ) = P ( X | Y ) * P ( Y ) P ( X ) = Π i m P ( x i | Y = y k ) * P ( Y = y k ) P ( X ) ;
其中,X=(x1,x2,x3,…,xm),xi是所述出发地信息和/或目的地信息进行分词处理后得到的特征文本,m为所述出发地信息和/或目的地信息进行分词处理后得到的特征文本的总数;Y=(y1,y2,y3,…,yn),n为预设的POI分类类型的总数;P(Y=yk)是根据训练数据训练得到的POI分类类型yk出现的概率,P(xi|Y=yk)是根据训练数据训练得到的POI分类类型yk中特征文本xi出现的概率,P(X)是所述出发地信息和/或目的地信息出现的概率。
6.根据权利要求5所述的方法,其特征在于,在采用预设的分词算法对所述多个已知POI分类类型的文本地址数据进行分词处理,得到多个特征文本之后,所述方法还包括:
去除该多个特征文本中长度小于预设阈值的特征文本;
相应地,在采用预设的分词算法对所述出发地信息和/或目的地信息进行分词处理,得到属于该出发地信息和/或目的地信息的多个特征文本之后,所述方法还包括:
去除该多个特征文本中长度小于预设阈值的特征文本。
7.根据权利要求2~4任一所述的方法,其特征在于,在获取多个已知POI分类类型的文本地址数据之后,所述方法还包括:
对所述多个已知POI分类类型的文本地址数据进行样本均衡:
根据所述已知POI分类类型的文本地址数据的数量,以及根据所述已知POI分类类型的文本地址数据确定的POI分类类型的数量,确定每个POI分类类型拥有的平均文本地址数据的数量;
若某一POI分类类型实际拥有的文本地址数据的数量小于所述平均文本地址数据的数量,则增加若干该POI分类类型的文本地址数据;
若某一POI分类类型实际拥有的文本地址数据的数量大于所述平均文本地址数据的数量,则减少若干该POI分类类型的文本地址数据。
8.一种轨迹预测装置,其特征在于,包括:
获取单元,用于针对待预测轨迹的用户设备UE,获取打车平台在预设时间段内记录的UE发出打车请求的出发地信息和目的地信息;
确定单元,用于根据预先建立的分类模型,对所述获取单元获取的所有出发地信息和/或目的地信息进行分类处理,确定所述UE在预设时间段内的分类类型,该分类类型为属于预设的POI分类类型中的一种或多种;
预测单元,用于根据所述UE在预设时间段内的分类类型,预测所述UE的轨迹。
9.根据权利要求8所述的装置,其特征在于,还包括分类模型建立单元,用于建立分类模型;
所述分类模型建立单元包括获取模块、分词模块和训练模块;
所述获取模块,用于获取多个已知POI分类类型的文本地址数据;
所述分词模块,用于采用预设的分词算法对所述多个已知POI分类类型的文本地址数据进行分词处理,得到多个特征文本;
所述训练模块,用于将所述多个特征文本作为训练数据,采用贝叶斯算法对所述训练数据进行训练,得到所述分类模型。
10.根据权利要求9所述的装置,其特征在于,所述确定单元包括概率获取模块、第一分类模块和第二分类模块;
所述概率获取模块,用于针对每个出发地信息和/或目的地信息,根据所述分类模型对所述出发地信息和/或目的地信息进行分类处理,获取所述出发地信息和/或目的地信息属于每种POI分类类型的概率;
所述第一分类模块用于将所述概率获取模块中获取的最大概率值对应的POI分类类型作为该出发地信息和/或目的地信息对应的POI分类类型;
所述第二分类模块用于将所有的出发地信息和/或目的地信息对应的POI分类类型中的一种或多种作为所述UE在预设时间段内的分类类型。
11.根据权利要求9所述的装置,其特征在于,所述确定单元包括概率获取模块、判断模块、第三分类模块和第四分类模块;
所述概率获取模块,用于针对每个出发地信息和/或目的地信息,根据所述分类模型对所述出发地信息和/或目的地信息进行分类处理,获取所述出发地信息和/或目的地信息属于每种POI分类类型的概率,按照概率值从大到小依次排布分别为P1,P2,...,Pn
所述判断模块,用于判断P1是否大于z*P2
所述第三分类模块,用于在所述判断模块确定P1大于z*P2时,将最大概率值P1对应的POI分类类型作为该出发地信息和/或目的地信息对应的POI分类类型;
所述第三分类模块,还用于在所述判断模块确定P1不大于z*P2时,不对该出发地信息和/或目的地信息进行分类;
所述第四分类模块,用于将所有的出发地信息和/或目的地信息对应的POI分类类型中的一种或多种作为所述UE在预设时间段内的分类类型。
12.根据权利要求10或11所述的装置,其特征在于,所述概率获取模块包括分词子模块和概率计算子模块;
所述分词子模块用于针对每个出发地信息和/或目的地信息,采用预设的分词算法对所述出发地信息和/或目的地信息进行分词处理,得到属于该出发地信息和/或目的地信息的多个特征文本;
所述概率计算子模块用于针对每个出发地信息和/或目的地信息,根据下述分类模型对所述出发地信息和/或目的地信息进行分类处理,获取所述出发地信息和/或目的地信息属于每种POI分类类型的概率Pk
P k = P ( Y | X ) = P ( X | Y ) * P ( Y ) P ( X ) = Π i m P ( x i | Y = y k ) * P ( Y = y k ) P ( X ) ;
其中,X=(x1,x2,x3,…,xm),xi是所述出发地信息和/或目的地信息进行分词处理后得到的特征文本,m为所述出发地信息和/或目的地信息进行分词处理后得到的特征文本的总数;Y=(y1,y2,y3,…,yn),n为预设的POI分类类型的总数;P(Y=yk)是根据训练数据训练得到的POI分类类型yk出现的概率,P(xi|Y=yk)是根据训练数据训练得到的POI分类类型yk中特征文本xi出现的概率,P(X)是所述出发地信息和/或目的地信息出现的概率。
13.根据权利要求12所述的装置,其特征在于,所述分类模型建立单元还包括冗余去除模块;
所述冗余去除模块,用于去除所述分词模块得到的多个特征文本中长度小于预设阈值的特征文本;
相应地,所述概率获取模块还包括冗余去除子模块;
所述冗余去除子模块,用于去除所述分词子模块得到的多个特征文本中长度小于预设阈值的特征文本。
14.根据权利要求9~11任一所述的装置,其特征在于,所述分类模型建立单元还包括样本均衡模块;
所述样本均衡模块,包括计算子模块、判断子模块、添加子模块和删除子模块;
所述计算子模块,用于根据所述获取模块获取的已知POI分类类型的文本地址数据的数量,以及根据所述已知POI分类类型的文本地址数据确定的POI分类类型的数量,计算每个POI分类类型拥有的平均文本地址数据的数量;
所述判断子模块,用于根据所述获取模块获取的已知POI分类类型的文本地址数据,判断某一POI分类类型实际拥有的文本地址数据的数量是否小于所述平均文本地址数据的数量;
所述添加子模块,用于在所述判断子模块确定某一POI分类类型实际拥有的文本地址数据的数量小于所述平均文本地址数据的数量时,添加若干该POI分类类型的文本地址数据;
所述删除子模块,用于在所述判断子模块确定某一POI分类类型实际拥有的文本地址数据的数量大于所述平均文本地址数据的数量时,删除若干该POI分类类型的文本地址数据。
CN201510464596.5A 2015-01-27 2015-07-31 轨迹预测方法和装置 Pending CN105138590A (zh)

Priority Applications (20)

Application Number Priority Date Filing Date Title
CN201510464596.5A CN105138590A (zh) 2015-07-31 2015-07-31 轨迹预测方法和装置
AU2016212530A AU2016212530A1 (en) 2015-01-27 2016-01-27 Methods and systems for providing information for an on-demand service
JP2017539550A JP6637054B2 (ja) 2015-01-27 2016-01-27 オン・デマンドサービスの情報を提供する方法及びシステム
PCT/CN2016/072357 WO2016119704A1 (zh) 2015-01-27 2016-01-27 一种为按需服务提供信息的方法及***
US15/546,657 US10458806B2 (en) 2015-01-27 2016-01-27 Methods and systems for providing information for an on-demand service
SG11201706149XA SG11201706149XA (en) 2015-01-27 2016-01-27 Methods And Systems For Providing Information For An On-Demand Service
CA2975002A CA2975002C (en) 2015-01-27 2016-01-27 Methods and systems for providing information for an on-demand service
KR1020177023933A KR20180006875A (ko) 2015-01-27 2016-01-27 주문형 서비스를 위한 정보를 제공하는 방법들 및 시스템들
NZ751377A NZ751377B2 (en) 2015-01-27 2016-01-27 Methods and systems for providing information for an on-demand service
EP16742766.5A EP3252704B1 (en) 2015-01-27 2016-01-27 Information providing method and system for on-demand service
MYPI2017001096A MY193639A (en) 2015-01-27 2016-01-27 Methods and systems for providing information for an on-demand service
GB1712010.6A GB2550309A (en) 2015-01-27 2016-01-27 Information providing method and system for on-demand service
BR112017016064-1A BR112017016064B1 (pt) 2015-02-10 2016-01-27 Métodos e sistemas para fornecer informação para um serviço por demanda
PH12017501345A PH12017501345A1 (en) 2015-01-27 2017-07-27 Methods and systems for providing information for an on-demand service
HK18104998.4A HK1245955A1 (zh) 2015-01-27 2018-04-18 按需服務信息提供方法和系統
US16/569,632 US11156470B2 (en) 2015-01-27 2019-09-12 Methods and systems for providing information for an on-demand service
AU2019101806A AU2019101806A4 (en) 2015-01-27 2019-09-24 Methods and systems for providing information for an on-demand service
AU2019236639A AU2019236639A1 (en) 2015-01-27 2019-09-24 Methods and systems for providing information for an on-demand service
JP2019228967A JP6918087B2 (ja) 2015-01-27 2019-12-19 オン・デマンドサービスの情報を提供する方法及びシステム
US17/448,717 US11892312B2 (en) 2015-01-27 2021-09-24 Methods and systems for providing information for an on-demand service

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510464596.5A CN105138590A (zh) 2015-07-31 2015-07-31 轨迹预测方法和装置

Publications (1)

Publication Number Publication Date
CN105138590A true CN105138590A (zh) 2015-12-09

Family

ID=54723939

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510464596.5A Pending CN105138590A (zh) 2015-01-27 2015-07-31 轨迹预测方法和装置

Country Status (1)

Country Link
CN (1) CN105138590A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105488597A (zh) * 2015-12-28 2016-04-13 中国民航信息网络股份有限公司 旅客目的地预测方法及***
WO2016119704A1 (zh) * 2015-01-27 2016-08-04 北京嘀嘀无限科技发展有限公司 一种为按需服务提供信息的方法及***
CN106767835A (zh) * 2017-02-08 2017-05-31 百度在线网络技术(北京)有限公司 定位方法和装置
CN106919993A (zh) * 2015-12-25 2017-07-04 滴滴(中国)科技有限公司 一种基于历史数据的高准确性默认目的地预测方法及装置
CN107038620A (zh) * 2017-02-15 2017-08-11 阿里巴巴集团控股有限公司 基于用户打车偏好的信息推送及装置
CN107093326A (zh) * 2016-02-17 2017-08-25 滴滴(中国)科技有限公司 导航轨迹的播报方法及***
CN108885726A (zh) * 2016-03-14 2018-11-23 北京嘀嘀无限科技发展有限公司 服务时间点预测***和方法
CN109313036A (zh) * 2017-04-27 2019-02-05 北京嘀嘀无限科技发展有限公司 路线规划的***及方法
US10431071B2 (en) 2016-01-26 2019-10-01 Beijing Didi Infinity Technology And Development Co., Ltd. Systems and methods for monitoring on-route transportations
CN110796323A (zh) * 2018-08-03 2020-02-14 北京嘀嘀无限科技发展有限公司 车辆的调度方法、装置、终端及计算机可读存储介质
CN110832284A (zh) * 2017-08-24 2020-02-21 北京嘀嘀无限科技发展有限公司 用于目的地预测的***和方法
CN111833153A (zh) * 2020-07-17 2020-10-27 深圳市活力天汇科技股份有限公司 一种购买高铁票时推荐航班的方法

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2550309A (en) * 2015-01-27 2017-11-15 Beijing Didi Infinity Tech And Dev Co Ltd Information providing method and system for on-demand service
WO2016119704A1 (zh) * 2015-01-27 2016-08-04 北京嘀嘀无限科技发展有限公司 一种为按需服务提供信息的方法及***
US11892312B2 (en) 2015-01-27 2024-02-06 Beijing Didi Infinity Technology And Development Co., Ltd. Methods and systems for providing information for an on-demand service
US11156470B2 (en) 2015-01-27 2021-10-26 Beijing Didi Infinity Technology And Development Co., Ltd. Methods and systems for providing information for an on-demand service
US10458806B2 (en) 2015-01-27 2019-10-29 Beijing Didi Infinity Technology And Development Co., Ltd. Methods and systems for providing information for an on-demand service
CN106919993A (zh) * 2015-12-25 2017-07-04 滴滴(中国)科技有限公司 一种基于历史数据的高准确性默认目的地预测方法及装置
CN105488597B (zh) * 2015-12-28 2020-01-07 中国民航信息网络股份有限公司 旅客目的地预测方法及***
CN105488597A (zh) * 2015-12-28 2016-04-13 中国民航信息网络股份有限公司 旅客目的地预测方法及***
US10431071B2 (en) 2016-01-26 2019-10-01 Beijing Didi Infinity Technology And Development Co., Ltd. Systems and methods for monitoring on-route transportations
US10515537B2 (en) 2016-01-26 2019-12-24 Beijing Didi Infinity Technology And Development Co., Ltd. Systems and methods for monitoring on-route transportations
US11562642B2 (en) 2016-01-26 2023-01-24 Beijing Didi Infinity Technology And Development Co., Ltd. Systems and methods for monitoring on-route transportations
US11257351B2 (en) 2016-01-26 2022-02-22 Beijing Didi Infinity Technology And Development Co., Ltd. Systems and methods for monitoring on-route transportations
US10909837B2 (en) 2016-01-26 2021-02-02 Beijing Didi Infinity Technology And Development Co., Ltd. Systems and methods for monitoring on-route transportations
CN107093326A (zh) * 2016-02-17 2017-08-25 滴滴(中国)科技有限公司 导航轨迹的播报方法及***
CN108885726A (zh) * 2016-03-14 2018-11-23 北京嘀嘀无限科技发展有限公司 服务时间点预测***和方法
CN106767835A (zh) * 2017-02-08 2017-05-31 百度在线网络技术(北京)有限公司 定位方法和装置
CN107038620A (zh) * 2017-02-15 2017-08-11 阿里巴巴集团控股有限公司 基于用户打车偏好的信息推送及装置
CN109313036B (zh) * 2017-04-27 2022-04-15 北京嘀嘀无限科技发展有限公司 路线规划的***及方法
CN109313036A (zh) * 2017-04-27 2019-02-05 北京嘀嘀无限科技发展有限公司 路线规划的***及方法
CN110832284A (zh) * 2017-08-24 2020-02-21 北京嘀嘀无限科技发展有限公司 用于目的地预测的***和方法
CN110832284B (zh) * 2017-08-24 2023-10-10 北京嘀嘀无限科技发展有限公司 用于目的地预测的***和方法
CN110796323A (zh) * 2018-08-03 2020-02-14 北京嘀嘀无限科技发展有限公司 车辆的调度方法、装置、终端及计算机可读存储介质
CN111833153A (zh) * 2020-07-17 2020-10-27 深圳市活力天汇科技股份有限公司 一种购买高铁票时推荐航班的方法
CN111833153B (zh) * 2020-07-17 2024-03-05 深圳市活力天汇科技股份有限公司 一种购买高铁票时推荐航班的方法

Similar Documents

Publication Publication Date Title
CN105138590A (zh) 轨迹预测方法和装置
CN108320501B (zh) 基于用户手机信令的公交线路识别方法
Qin et al. Applying big data analytics to monitor tourist flow for the scenic area operation management
CN107657267B (zh) 产品***挖掘方法及装置
CN107167136B (zh) 一种面向电子地图的位置推荐方法及***
Maghrebi et al. Complementing travel diary surveys with twitter data: application of text mining techniques on activity location, type and time
US20110208425A1 (en) Mining Correlation Between Locations Using Location History
CN109688532B (zh) 一种划分城市功能区域的方法及装置
CN109872535A (zh) 一种智慧交通通行预测方法、装置及服务器
CN106778876A (zh) 基于移动用户轨迹相似性的用户分类方法和***
CN102279889B (zh) 一种基于地理信息的问题推送方法及***
CN106454729A (zh) 一种城市轨道交通站点选址规划方法和装置
CN111464950B (zh) 一种使用手机信令数据提取出行停驻点的方法
Holleczek et al. Detecting weak public transport connections from cellphone and public transport data
CN107818133A (zh) 一种基于大数据的居民区网络能力分析方法及***
EP2608144A2 (en) Mobile device user categorisation based on location statistics
CN110334289A (zh) 出行目的地的确定方法和目标用户的确定方法
CN114363842B (zh) 基于手机信令数据的公交乘客下车站点预测方法及装置
CN107529135A (zh) 基于智能设备数据的用户活动类型判别方法
Nanni et al. Transportation planning based on GSM traces: a case study on ivory coast
CN106022634A (zh) 基于大数据分析的基坑风险管理方法与***
Maghrebi et al. Transportation application of social media: Travel mode extraction
CN111104468B (zh) 一种基于语义轨迹推断用户活动的方法
CN103838861B (zh) 一种基于三维gis动态显示信息的方法和显示***
CN109255023A (zh) 线索信息处理方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20151209