CN105138590A

CN105138590A - 轨迹预测方法和装置

Info

Publication number: CN105138590A
Application number: CN201510464596.5A
Authority: CN
Inventors: 卢海阳
Original assignee: Beijing Didi Infinity Technology and Development Co Ltd
Current assignee: Beijing Didi Infinity Technology and Development Co Ltd
Priority date: 2015-07-31
Filing date: 2015-07-31
Publication date: 2015-12-09

Abstract

本发明提供了一种轨迹预测方法及装置，所述方法包括：针对待预测轨迹的用户设备UE，获取打车平台在预设时间段内记录的UE发出打车请求的出发地信息和目的地信息；根据预先建立的分类模型，对所有的出发地信息和/或目的地信息进行分类处理，确定所述UE在预设时间段内的分类类型，该分类类型为属于预设的POI分类类型中的一种或多种；根据所述UE在预设时间段内的分类类型，预测所述UE的轨迹。本发明能够根据从用户打车***中获取的打车数据获取用户的兴趣点，进而预测用户的出行轨迹。

Description

轨迹预测方法和装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种轨迹预测方法和装置。

背景技术

POI(Pointofinterest，兴趣点)是地理信息***中收集的地理信息表现形式，可以是一栋建筑物、一个商家、一个医院、一个邮筒或者一个公交站等。由于POI标识了兴趣点，那么可以根据用户的POI刻画用户的出行目的或出行轨迹。

当前随着智能设备，特别是智能导航、智能手机的普及，给人们的出行带来了极大的便利。随着城市的发展，打车需求已经是社会各个阶层人士的普遍需求。如何利用打车***中用户的打车数据，获取用户的POI，从而预测用户的出行目的或出行轨迹成为一项有意义的研究。

发明内容

针对现有技术的缺陷，本发明提供一种轨迹预测方法和装置，能够根据从用户打车***中获取的打车数据获取用户的兴趣点，进而预测用户的出行轨迹。

第一方面，本发明提供了一种轨迹预测方法，所述方法包括：

针对待预测轨迹的用户设备UE，获取打车平台在预设时间段内记录的UE发出打车请求的出发地信息和目的地信息；

根据预先建立的分类模型，对所有的出发地信息和/或目的地信息进行分类处理，确定所述UE在预设时间段内的分类类型，该分类类型为属于预设的POI分类类型中的一种或多种；

根据所述UE在预设时间段内的分类类型，预测所述UE的轨迹。

进一步地，在根据预先建立的分类模型，对所有的出发地信息和/或目的地信息进行分类处理，确定所述UE在预设时间段内的分类类型之前，所述方法还包括：建立分类模型；

所述建立分类模型包括：

获取多个已知POI分类类型的文本地址数据；

采用预设的分词算法对所述多个已知POI分类类型的文本地址数据进行分词处理，得到多个特征文本；

将所述多个特征文本作为训练数据，采用贝叶斯算法对所述训练数据进行训练，得到所述分类模型。

进一步地，根据预先建立的分类模型，对所有的出发地信息和/或目的地信息进行分类处理，确定所述UE在预设时间段内的分类类型包括：

针对每个出发地信息和/或目的地信息，根据所述分类模型对所述出发地信息和/或目的地信息进行分类处理，获取所述出发地信息和/或目的地信息属于每种POI分类类型的概率，

以及，确定最大概率值对应的POI分类类型作为该出发地信息和/或目的地信息对应的POI分类类型；

将所有的出发地信息和/或目的地信息对应的POI分类类型中的一种或多种作为所述UE在预设时间段内的分类类型。

针对每个出发地信息和/或目的地信息，根据所述分类模型对所述出发地信息和/或目的地信息进行分类处理，获取所述出发地信息和/或目的地信息属于每种POI分类类型的概率，按照概率值从大到小依次排布分别为P₁,P₂,...,P_n；

若P₁>z*P₂，则确定最大概率值P₁对应的POI分类类型作为该出发地信息和/或目的地信息对应的POI分类类型，否则，不对该出发地信息和/或目的地信息进行分类；

进一步地，根据所述分类模型对每个出发地信息和/或目的地信息进行分类处理，获取所述出发地信息和/或目的地信息属于每种POI分类类型的概率，包括：

针对每个出发地信息和/或目的地信息，采用预设的分词算法对所述出发地信息和/或目的地信息进行分词处理，得到属于该出发地信息和/或目的地信息的多个特征文本；

针对每个出发地信息和/或目的地信息，根据下述分类模型对所述出发地信息和/或目的地信息进行分类处理，获取所述出发地信息和/或目的地信息属于每种POI分类类型的概率P_k：

\begin{matrix} P_{k} = P (Y | X) = \frac{P (X | Y) * P (Y)}{P (X)} \\ = \frac{Π_{i}^{m} P (x_{i} | Y = y_{k}) * P (Y = y_{k})}{P (X)} \end{matrix};

其中，X＝(x₁，x₂，x₃，…，x_m)，x_i是所述出发地信息和/或目的地信息进行分词处理后得到的特征文本，m为所述出发地信息和/或目的地信息进行分词处理后得到的特征文本的总数；Y＝(y₁，y₂，y₃，…，y_n)，n为预设的POI分类类型的总数；P(Y＝y_k)是根据训练数据训练得到的POI分类类型y_k出现的概率，P(x_i|Y＝y_k)是根据训练数据训练得到的POI分类类型y_k中特征文本x_i出现的概率，P(X)是所述出发地信息和/或目的地信息出现的概率。

进一步地，在采用预设的分词算法对所述多个已知POI分类类型的文本地址数据进行分词处理，得到多个特征文本之后，所述方法还包括：

去除该多个特征文本中长度小于预设阈值的特征文本；

相应地，在采用预设的分词算法对所述出发地信息和/或目的地信息进行分词处理，得到属于该出发地信息和/或目的地信息的多个特征文本之后，所述方法还包括：

去除该多个特征文本中长度小于预设阈值的特征文本。

进一步地，在获取多个已知POI分类类型的文本地址数据之后，所述方法还包括：

对所述多个已知POI分类类型的文本地址数据进行样本均衡：

根据所述已知POI分类类型的文本地址数据的数量，以及根据所述已知POI分类类型的文本地址数据确定的POI分类类型的数量，确定每个POI分类类型拥有的平均文本地址数据的数量；

若某一POI分类类型实际拥有的文本地址数据的数量小于所述平均文本地址数据的数量，则增加若干该POI分类类型的文本地址数据；

若某一POI分类类型实际拥有的文本地址数据的数量大于所述平均文本地址数据的数量，则减少若干该POI分类类型的文本地址数据。

第二方面，本发明提供了一种轨迹预测装置，所述装置包括：

获取单元，用于针对待预测轨迹的用户设备UE，获取打车平台在预设时间段内记录的UE发出打车请求的出发地信息和目的地信息；

确定单元，用于根据预先建立的分类模型，对所述获取单元获取的所有出发地信息和/或目的地信息进行分类处理，确定所述UE在预设时间段内的分类类型，该分类类型为属于预设的POI分类类型中的一种或多种；

预测单元，用于根据所述UE在预设时间段内的分类类型，预测所述UE的轨迹。

进一步地，所述装置还包括分类模型建立单元，用于建立分类模型；

所述分类模型建立单元包括获取模块、分词模块和训练模块；

所述获取模块，用于获取多个已知POI分类类型的文本地址数据；

所述分词模块，用于采用预设的分词算法对所述多个已知POI分类类型的文本地址数据进行分词处理，得到多个特征文本；

所述训练模块，用于将所述多个特征文本作为训练数据，采用贝叶斯算法对所述训练数据进行训练，得到所述分类模型。

进一步地，所述确定单元包括概率获取模块、第一分类模块和第二分类模块；

所述概率获取模块，用于针对每个出发地信息和/或目的地信息，根据所述分类模型对所述出发地信息和/或目的地信息进行分类处理，获取所述出发地信息和/或目的地信息属于每种POI分类类型的概率；

所述第一分类模块用于将所述概率获取模块中获取的最大概率值对应的POI分类类型作为该出发地信息和/或目的地信息对应的POI分类类型；

所述第二分类模块用于将所有的出发地信息和/或目的地信息对应的POI分类类型中的一种或多种作为所述UE在预设时间段内的分类类型。

进一步地，所述确定单元包括概率获取模块、判断模块、第三分类模块和第四分类模块；

所述概率获取模块，用于针对每个出发地信息和/或目的地信息，根据所述分类模型对所述出发地信息和/或目的地信息进行分类处理，获取所述出发地信息和/或目的地信息属于每种POI分类类型的概率，按照概率值从大到小依次排布分别为P₁,P₂,...,P_n；

所述判断模块，用于判断P₁是否大于z*P₂；

所述第三分类模块，用于在所述判断模块确定P₁大于z*P₂时，将最大概率值P₁对应的POI分类类型作为该出发地信息和/或目的地信息对应的POI分类类型；

所述第三分类模块，还用于在所述判断模块确定P₁不大于z*P₂时，不对该出发地信息和/或目的地信息进行分类；

所述第四分类模块，用于将所有的出发地信息和/或目的地信息对应的POI分类类型中的一种或多种作为所述UE在预设时间段内的分类类型。

进一步地，所述概率获取模块包括分词子模块和概率计算子模块；

所述分词子模块用于针对每个出发地信息和/或目的地信息，采用预设的分词算法对所述出发地信息和/或目的地信息进行分词处理，得到属于该出发地信息和/或目的地信息的多个特征文本；

所述概率计算子模块用于针对每个出发地信息和/或目的地信息，根据下述分类模型对所述出发地信息和/或目的地信息进行分类处理，获取所述出发地信息和/或目的地信息属于每种POI分类类型的概率P_k：

\begin{matrix} P_{k} = P (Y | X) = \frac{P (X | Y) * P (Y)}{P (X)} \\ = \frac{Π_{i}^{m} P (x_{i} | Y = y_{k}) * P (Y = y_{k})}{P (X)} \end{matrix};

进一步地，所述分类模型建立单元还包括冗余去除模块；

所述冗余去除模块，用于去除所述分词模块得到的多个特征文本中长度小于预设阈值的特征文本；

相应地，所述概率获取模块还包括冗余去除子模块；

所述冗余去除子模块，用于去除所述分词子模块得到的多个特征文本中长度小于预设阈值的特征文本。

进一步地，所述分类模型建立单元还包括样本均衡模块；

所述样本均衡模块，包括计算子模块、判断子模块、添加子模块和删除子模块；

所述计算子模块，用于根据所述获取模块获取的已知POI分类类型的文本地址数据的数量，以及根据所述已知POI分类类型的文本地址数据确定的POI分类类型的数量，计算每个POI分类类型拥有的平均文本地址数据的数量；

所述判断子模块，用于根据所述获取模块获取的已知POI分类类型的文本地址数据，判断某一POI分类类型实际拥有的文本地址数据的数量是否小于所述平均文本地址数据的数量；

所述添加子模块，用于在所述判断子模块确定某一POI分类类型实际拥有的文本地址数据的数量小于所述平均文本地址数据的数量时，添加若干该POI分类类型的文本地址数据；

所述删除子模块，用于在所述判断子模块确定某一POI分类类型实际拥有的文本地址数据的数量大于所述平均文本地址数据的数量时，删除若干该POI分类类型的文本地址数据。

由上述技术方案可知，本发明提供的轨迹预测方法，通过对从打车***中获取的出发地信息和目的地信息进行地址明文分类，得到出发地信息和目的地信息对应的POI分类结果，从而获得用户的兴趣点，进而实现挖掘用户出行目的，刻画用户行动轨迹的作用。

由于现有技术中，一般都是通过获取GPS坐标获得用户的兴趣点，这种方式的缺点是采集难度较大、时间较长。本发明利用从打车***中获取的地址明文信息，进行POI分类，从而获取用户的兴趣点。相对于传统的通过获取GPS坐标获得用户兴趣点的方法，具有效率高、覆盖面广等优点，且在一定条件下可以保证兴趣点获取结果的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些图获得其他的附图。

图1是本发明第一个实施例提供的轨迹预测方法的流程图；

图2是本发明第七个实施例提供的对于每个出发地信息和/或目的地信息进行POI分类的分类过程示意图；

图3是本发明第八个实施例提供的轨迹预测装置的结构示意图；

图4是本发明第九个实施例提供的轨迹预测装置的结构示意图；

图5是本发明第十个实施例提供的轨迹预测装置的结构示意图；

图6是本发明第十一个实施例提供的轨迹预测装置的结构示意图；

图7是本发明第十二个实施例提供的轨迹预测装置的结构示意图；

图8是本发明第十三个实施例提供的轨迹预测装置的结构示意图。

具体实施方式

下面将结合本公开实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

以下对本发明实施例中提及的部分词语进行举例说明。

本发明实施例中提及的用户设备(UserEquipment，简称UE)是指服务需求方，如交通工具叫车服务中的乘客所使用的移动电话或固定电话或其他具有信息传输功能的设备。本发明实施例中提及的打车平台是指打车***及其相应的后台服务器。其中，打车***为一个预设的智能管理***，其用于根据接收的UE的打车请求为UE提供相应的服务。其中，UE的打车请求中包含有出发地信息和目的地信息。

图1示出了本发明第一个实施例提供的轨迹预测方法的流程图。如图1所示，本实施例提供的轨迹预测方法包括如下步骤：

步骤101：针对待预测轨迹的用户设备UE，获取打车平台在预设时间段内记录的UE发出打车请求的出发地信息和目的地信息。

在本步骤中，针对待预测轨迹的某个UE，从打车平台中获取7月20至7月26记录的该UE发出的打车请求中的出发地信息和目的地信息，比如获取的出发地信息为：北京上地地铁站、尚美家园、中关村大厦、中关村港丽餐厅、中关村鹿港小镇、五道口辣尚瘾烤鱼店；目的地信息为：尚美家园、中关村大厦、北京上地地铁站。

步骤102：根据预先建立的分类模型，对所有的出发地信息和/或目的地信息进行分类处理，确定所述UE在预设时间段内的分类类型。

在本步骤中，所述分类类型为属于预设的POI(Pointofinterest，兴趣点)分类类型中的一种或多种；所述分类模型为根据已知POI分类类型的文本地址数据，通过贝叶斯算法或线性回归模型训练获取的。

其中所述线性回归模型还包括逻辑斯特回归模型和支持向量机模型。在本实施例中利用所述贝叶斯算法或线性回归模型进行多目标分类的训练。当然，本发明所述分类模型的获取方法并不限于此，根据实际需要也可以采取其他算法或模型对所述已知POI分类类型的文本地址数据进行训练。或者不经过数据训练而直接根据经验数值建立的分类模型也属于本发明的保护范围。

根据预先建立的分类模型，对所有的出发地信息和/或目的地信息进行分类处理，确定所述UE在预设时间段内的分类类型。例如，分别对上述出发地信息和目的地信息：“北京上地地铁站、尚美家园、中关村大厦、中关村港丽餐厅、中关村鹿港小镇、五道口辣尚瘾烤鱼店；目的地信息为：尚美家园、中关村大厦、北京上地地铁站”进行分类处理。得到北京上地地铁站对应的POI分类类型为“交通设施”、尚美家园对应的POI分类类型为“房产小区”，中关村大厦对应的POI分类类型为“办公区”，“中关村港丽餐厅”对应的POI分类类型为“餐饮美食”、“中关村鹿港小镇”对应的POI分类类型为“餐饮美食”，“五道口辣尚瘾烤鱼店”对应的POI分类类型为“餐饮美食”。

在确定完所述出发地信息和目的地信息对应的POI分类类型之后，将所有的出发地信息和/或目的地信息对应的POI分类类型中的一种或多种作为所述UE在预设时间段内的分类类型。例如，将“餐饮美食”和“房产小区”作为所述UE在预设时间段内的分类类型。

步骤103：根据所述UE在预设时间段内的分类类型，预测所述UE的轨迹。

在本步骤中，根据所述UE在预设时间段内的分类类型“餐饮美食”和“房产小区”，预测该UE所属的用户在预设时间段内主要在居住地和餐厅之间走动。从而可以推知，该UE所属的用户在这段时间内更倾向于饮食消费。

本实施例提供的轨迹预测方法，通过对从打车***中获取的出发地信息和目的地信息进行地址明文分类，得到出发地信息和目的地信息对应的POI分类结果，从而获得用户的兴趣点，进而实现挖掘用户出行目的，刻画用户行动轨迹的作用。

由于现有技术中，一般都是通过获取GPS坐标获得用户的兴趣点，这种方式的缺点是采集难度较大、时间较长。本实施例利用从打车***中获取的地址明文信息，进行POI分类，从而获取用户的兴趣点。相对于传统的通过获取GPS坐标获得用户兴趣点的方法，具有效率高、覆盖面广等优点，且在一定条件下可以保证用户兴趣点获取结果的准确性。

在本发明的第二个实施例中，在所述步骤102之前，所述方法还包括：

步骤102’：建立分类模型。

在本步骤中，采用贝叶斯算法建立上述分类模型，具体包括下述步骤S1-S3。

S1：获取多个已知POI分类类型的文本地址数据。

S2：采用预设的分词算法对所述多个已知POI分类类型的文本地址数据进行分词处理，得到多个特征文本。

在本步骤中，进行分词处理的目的是得到分类特征，便于进行文本分类，分词处理是将文本地址数据进行切词，如某个文本地址数据为“北京上地地铁站”时，分词结果为集合[北京、上地、地铁站]，其中，“北京”、“上地”、“地铁站”即为得到的多个特征文本。

S3：将所述多个特征文本作为训练数据，采用贝叶斯算法对所述训练数据进行训练，得到所述分类模型。

在本步骤中，优选采用朴素贝叶斯算法进行模型训练。朴素贝叶斯算法是贝叶斯算法中最基础的一种分类算法，所述贝叶斯算法还包括权重贝叶斯算法等其他算法，为了简化分类模型的建立过程，本步骤采用朴素贝叶斯算法进行模型训练。当然，根据需要也可以变换其他类型的贝叶斯算法进行模型训练。

具体地，把每个已知POI分类类型的文本地址数据进行分词处理后得到的多个特征文本看作为一个向量，即x＝(x₁，x₂，x₃，…，x_p)，x的集合记为X，称为属性集。POI分类类型用集合Y＝(y₁，y₂，…，y_q)表示。采用朴素贝叶斯算法分类时对X和Y的每一种组合学习后验概率P(Y|X)，然后选取最大后验概率所对应的分类作为x所属分类。根据贝叶斯公式，后验概率为P(Y|X)＝P(X|Y)*P(Y)/P(X)。模型训练时要求的是先验概率P(Y)和条件概率P(x_i|Y＝y_j)，训练过程基于数据统计，训练得到P(Y＝y_j)和P(x_i|Y＝y_j)。P(Y＝y_j)是样本集合中分类y_j所占比例，P(x_i|Y＝y_j)是POI分类y_j中包含x_i的样本数占比。

如基于统计，得到的部分先验概率：POI分类类型“酒店宾馆”的概率为0.2，“房产小区”的概率为0.3。又如得到的部分条件概率：特征文本“宾馆”的条件概率P(宾馆|poi＝酒店宾馆)为0.6，特征文本“地铁站”的条件概率P(地铁站|poi＝交通设施)为0.2。

本发明第三个实施例建立在上述第二个实施例基础之上。在本发明第三个实施例中，上述步骤102包括如下A1-A3子步骤。

步骤A1：针对上述步骤101得到的每个出发地信息和/或目的地信息，根据所述分类模型对所述出发地信息和/或目的地信息进行分类处理，获取所述出发地信息和/或目的地信息属于每种POI分类类型的概率。

在本步骤中，所述出发地信息和/或目的地信息属于每种POI分类类型的概率，按照概率值从大到小依次排布分别为P₁,P₂,...,P_n。

步骤A2：确定最大概率值对应的POI分类类型作为该出发地信息和/或目的地信息对应的POI分类类型。

在本步骤中，确定最大概率值P₁对应的POI分类类型作为该出发地信息和/或目的地信息对应的POI分类类型。例如某一目的地信息“北京上地地铁站”对应POI分类类型“交通设施”的概率最大，P₁＝0.6，因此将“交通设施”作为该目的地信息对应的POI分类类型。

步骤A3：将所有的出发地信息和/或目的地信息对应的POI分类类型中的一种或多种作为所述UE在预设时间段内的分类类型。

为了确保POI分类结果的可信度，在本发明第四个实施例中，上述步骤102包括如下B1-B3子步骤。本发明第四个实施例建立在上述第二个实施例基础之上。

步骤B1：针对上述步骤101得到的每个出发地信息和/或目的地信息，根据所述分类模型对所述出发地信息和/或目的地信息进行分类处理，获取所述出发地信息和/或目的地信息属于每种POI分类类型的概率，按照概率值从大到小依次排布分别为P₁,P₂,...,P_n。

步骤B2：判断P₁是否大于z*P₂，若是，则确定最大概率值P₁对应的POI分类类型作为该出发地信息和/或目的地信息对应的POI分类类型，否则，不对该出发地信息和/或目的地信息进行分类。

在本实施中，只有当某种POI分类类型的概率相对其他分类类型的概率具有明显优势时才认为该分类结果的可信度较高，所以在本步骤中，判断P₁是否大于z*P₂，若是，则认为该分类结果是可信的，否则不对该出发地信息和/或目的地信息进行预测。其中，z是一个系数因子，一般取值为3～5。

步骤B3：将所有的出发地信息和/或目的地信息对应的POI分类类型中的一种或多种作为所述UE在预设时间段内的分类类型。

在上述第二个实施例和第三个实施例中，对于步骤A1或B1，均包括如下子步骤a和b。

步骤a：针对每个出发地信息和/或目的地信息，采用预设的分词算法对所述出发地信息和/或目的地信息进行分词处理，得到属于该出发地信息和/或目的地信息的多个特征文本；

步骤b：针对每个出发地信息和/或目的地信息，根据下述分类模型对所述出发地信息和/或目的地信息进行分类处理，获取所述出发地信息和/或目的地信息属于每种POI分类类型的概率P_k：

\begin{matrix} P_{k} = P (Y | X) = \frac{P (X | Y) * P (Y)}{P (X)} \\ = \frac{Π_{i}^{m} P (x_{i} | Y = y_{k}) * P (Y = y_{k})}{P (X)} \end{matrix};

由于特征文本作为文本分类的特征使用，由于短文本在分类时特征不明显，因此为了减少不必要的数据处理量以及提高分类准确率，需要将分词处理后得到的特征文本中过短的特征文本抛弃。

在本发明第五个实施例中，在上述步骤102’建立分类模型的过程中，在步骤S2采用预设的分词算法对所述多个已知POI分类类型的文本地址数据进行分词处理，得到多个特征文本之后，所述步骤102’还包括步骤S3’。

步骤S3’：去除步骤S2得到的多个特征文本中长度小于预设阈值的特征文本。

在本步骤中，例如，对于文本地址数据“我在北京西二旗地铁站”进行分词处理，得到多个特征文本“我”、“在”、“北京”、“西二旗”和“地铁站”，由于“我”和“在”的长度较短，在分类时特征不明显，因此，去除冗余特征文本“我”和“在”。一般地，所述预设阈值为2，即去除长度小于2的特征文本。

在执行完步骤S3’后，继续执行步骤S3，即将冗余处理后的特征文本作为训练数据，采用贝叶斯算法对所述训练数据进行训练，得到所述分类模型。

相对应地，上述步骤a之后还包括步骤b’。

步骤b’：去除步骤a得到的多个特征文本中长度小于预设阈值的特征文本。

在执行完步骤b’之后，利用冗余处理后的特征文本继续执行步骤b。

为了避免POI分类样本不均衡对训练结果的影响，在将训练数据应用于模型训练前，需要进行样本均衡。

在本发明第六个实施例中，在上述步骤102’建立分类模型的过程中，在步骤S1获取多个已知POI分类类型的文本地址数据之后，所述步骤102’还包括步骤S2’。

步骤S2’：对所述多个已知POI分类类型的文本地址数据进行样本均衡。

在本步骤S2’中，根据所述已知POI分类类型的文本地址数据的数量，以及根据所述已知POI分类类型的文本地址数据确定的POI分类类型的数量，确定每个POI分类类型拥有的平均文本地址数据的数量；

在执行完步骤S2’之后，继续执行步骤S2，即采用预设的分词算法对所述样本均衡后的多个已知POI分类类型的文本地址数据进行分词处理，得到多个特征文本。

本实施例中，在进行样本均衡时，可以采取“有放回抽样”的样本均衡方法，首先遍历一遍训练数据集，统计出根据所述已知POI分类类型的文本地址数据确定的POI分类类型的数量type_total和已知POI分类类型的文本地址数据的数量records，然后得到每个POI分类类型拥有的平均文本地址数据的数量average＝type_total/records。然后再对每个POI分类类型进行“有放回抽样”，如POI分类类型y_i的样本(文本地址数据)数目为N，则当N小于average时，则通过抽样补充POI分类类型y_i的样本数目至N，当N大于average时，则适当降低POI分类类型y_i的样本数目，如只抽取数目的样本作为该POI分类类型y_i的训练样本。

在本发明的第七个实施例中，给出了一个具体例子对上述实施例提供的轨迹预测方法进行解释说明。

其中对于每个出发地信息和/或目的地信息进行POI分类的分类过程可参见图2所示。

首先，建立的分类模型。获取已知POI分类类型的文本地址数据作为训练样本，然后对样本进行均衡处理，使得每个POI分类类型的文本地址数据的数量不要相差太大。采用预设的分词算法对均衡处理后的样本进行分词处理，得到多个特征文本。根据得到的特征文本，基于统计的方法，分别统计每个POI分类类型的先验概率和每个特征文本的条件概率，如POI分类类型“酒店宾馆”的概率为0.2，“房产小区”的概率为0.3，特征文本“宾馆”的条件概率P(宾馆|poi＝酒店宾馆)为0.6，特征文本“地铁站”的条件概率P(地铁站|poi＝交通设施)为0.2。

其次，对于待预测轨迹的UE，从打车平台中获取在预设时间段内记录的UE发出打车请求的出发地信息和目的地信息。比如从打车平台中获取7月20至7月26记录的UE发出打车请求的出发地信息和目的地信息，比如出发地信息为：北京上地地铁站、尚美家园、中关村大厦、中关村港丽餐厅、中关村鹿港小镇、五道口辣尚瘾烤鱼店；目的地信息为：尚美家园、中关村大厦、北京上地地铁站。

然后，利用建立好的分类模型，对所有的出发地信息和/或目的地信息进行分类处理，确定所述UE在预设时间段内的分类类型。

比如，对于从打车平台中获取的目的地信息“北京上地地铁站”，首先将“北京上地地铁站”进行分词处理，分为“北京”、“上地”、“地铁站”，然后利用建立的POI分类模型，使用贝叶斯公式进行换算，得到该目的地信息“北京上地地铁站”对应每一种POI分类类型的概率，如该目的地信息对应POI分类类型“交通设施”和“地址地名”的概率最大，对应其他POI分类类型的概率均较小。例如该目的地信息对应POI分类类型“交通设施”的概率为0.6，对应POI分类类型“地址地名”的概率为0.1。由于该目的地信息对应POI分类类型“交通设施”的概率相对其他POI分类类型的概率优势很明显(0.6>3*0.1)，所以可以判定该目的地信息对应的POI分类类型为“交通设施”。

按照上述相同的方式分别对从打车平台中获取的出发地信息和目的地信息如尚美家园、中关村大厦、中关村港丽餐厅、中关村鹿港小镇和五道口辣尚瘾烤鱼店进行POI分类，分别确定所述出发地信息和目的地信息对应的POI分类类型。例如尚美家园对应的POI分类类型为“房产小区”，中关村大厦对应的POI分类类型为“办公区”，“中关村港丽餐厅”对应的POI分类类型为“餐饮美食”、“中关村鹿港小镇”对应的POI分类类型为“餐饮美食”，“五道口辣尚瘾烤鱼店”对应的POI分类类型为“餐饮美食”。

最后，根据所述UE在预设时间段内的分类类型“餐饮美食”和“房产小区”，预测该UE所属的用户在预设时间段内主要在居住地和餐厅之间走动。从而可以推知，该UE所属的用户在这段时间内更倾向于饮食消费。

图3示出了本发明第八个实施例提供的轨迹预测装置的结构示意图，如图3所示，本实施例提供的轨迹预测装置，包括：

获取单元11，用于针对待预测轨迹的用户设备UE，获取打车平台在预设时间段内记录的UE发出打车请求的出发地信息和目的地信息；

确定单元12，用于根据预先建立的分类模型，对所述获取单元11获取的所有出发地信息和/或目的地信息进行分类处理，确定所述UE在预设时间段内的分类类型，该分类类型为属于预设的POI分类类型中的一种或多种；所述分类模型为根据已知POI分类类型的文本地址数据，通过贝叶斯算法或线性回归模型训练获取的；

预测单元13，用于根据所述UE在预设时间段内的分类类型，预测所述UE的轨迹。

在本发明第九个实施例中，参见图4，所述装置还包括分类模型建立单元14，用于建立分类模型；

所述分类模型建立单元14包括获取模块141、分词模块142和训练模块143；

所述获取模块141，用于获取多个已知POI分类类型的文本地址数据；

所述分词模块142，用于采用预设的分词算法对所述多个已知POI分类类型的文本地址数据进行分词处理，得到多个特征文本；

所述训练模块143，用于将所述多个特征文本作为训练数据，采用贝叶斯算法对所述训练数据进行训练，得到所述分类模型。

在本发明第十个实施例中，参见图5，所述确定单元12包括概率获取模块121、第一分类模块122和第二分类模块123；

所述概率获取模块121，用于针对每个出发地信息和/或目的地信息，根据所述分类模型对所述出发地信息和/或目的地信息进行分类处理，获取所述出发地信息和/或目的地信息属于每种POI分类类型的概率；

所述第一分类模块122用于将所述概率获取模块121中获取的最大概率值对应的POI分类类型作为该出发地信息和/或目的地信息对应的POI分类类型；

所述第二分类模块123用于将所有的出发地信息和/或目的地信息对应的POI分类类型中的一种或多种作为所述UE在预设时间段内的分类类型。

在本发明第十一个实施例中，参见图6，所述确定单元12包括概率获取模块121、判断模块124、第三分类模块125和第四分类模块126；

所述概率获取模块121，用于针对每个出发地信息和/或目的地信息，根据所述分类模型对所述出发地信息和/或目的地信息进行分类处理，获取所述出发地信息和/或目的地信息属于每种POI分类类型的概率，按照概率值从大到小依次排布分别为P₁,P₂,...,P_n；

所述判断模块124，用于判断P₁是否大于z*P₂；

所述第三分类模块125，用于在所述判断模块124确定P₁大于z*P₂时，将最大概率值P₁对应的POI分类类型作为该出发地信息和/或目的地信息对应的POI分类类型；

所述第三分类模块125，还用于在所述判断模块124确定P₁不大于z*P₂时，不对该出发地信息和/或目的地信息进行分类；

所述第四分类模块126，用于将所有的出发地信息和/或目的地信息对应的POI分类类型中的一种或多种作为所述UE在预设时间段内的分类类型。

其中，在上述第十个实施例和第十一个实施例中，所述概率获取模块121进一步包括分词子模块1211和概率计算子模块1212；

所述分词子模块1211用于针对每个出发地信息和/或目的地信息，采用预设的分词算法对所述出发地信息和/或目的地信息进行分词处理，得到属于该出发地信息和/或目的地信息的多个特征文本；

所述概率计算子模块1212用于针对每个出发地信息和/或目的地信息，根据下述分类模型对所述出发地信息和/或目的地信息进行分类处理，获取所述出发地信息和/或目的地信息属于每种POI分类类型的概率P_k：

\begin{matrix} P_{k} = P (Y | X) = \frac{P (X | Y) * P (Y)}{P (X)} \\ = \frac{Π_{i}^{m} P (x_{i} | Y = y_{k}) * P (Y = y_{k})}{P (X)} \end{matrix};

在本发明第十二个实施例中，参见图7，上述分类模型建立单元14还包括冗余去除模块144；

所述冗余去除模块144，用于去除所述分词模块142得到的多个特征文本中长度小于预设阈值的特征文本。

相应地，上述概率获取模块121还包括冗余去除子模块1213；

所述冗余去除子模块1213，用于去除所述分词子模块1211得到的多个特征文本中长度小于预设阈值的特征文本。

在本发明第十三个实施例中，参见图8，所述分类模型建立单元14还包括样本均衡模块145；

所述样本均衡模块145，包括计算子模块1451、判断子模块1452、添加子模块1453和删除子模块1454；

所述计算子模块1451，用于根据所述获取模块141获取的已知POI分类类型的文本地址数据的数量，以及根据所述已知POI分类类型的文本地址数据确定的POI分类类型的数量，计算每个POI分类类型拥有的平均文本地址数据的数量；

所述判断子模块1452，用于根据所述获取模块141获取的已知POI分类类型的文本地址数据，判断某一POI分类类型实际拥有的文本地址数据的数量是否小于所述平均文本地址数据的数量；

所述添加子模块1453，用于在所述判断子模块1452确定某一POI分类类型实际拥有的文本地址数据的数量小于所述平均文本地址数据的数量时，添加若干该POI分类类型的文本地址数据；

所述删除子模块1454，用于在所述判断子模块1452确定某一POI分类类型实际拥有的文本地址数据的数量大于所述平均文本地址数据的数量时，删除若干该POI分类类型的文本地址数据。

本实施例所述的轨迹预测装置可以用于执行上述实施例所述轨迹预测方法，其实现原理和技术效果类似，此处不再详述。

本领域普通技术人员可以理解：实现上述方法实施例的全部或者部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储在计算机可读取的存储介质中，该程序在执行时，执行包括上述方法实施例的步骤。

本发明的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解；其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种轨迹预测方法，其特征在于，所述方法包括：

根据所述UE在预设时间段内的分类类型，预测所述UE的轨迹。

2.根据权利要求1所述的方法，其特征在于，在根据预先建立的分类模型，对所有的出发地信息和/或目的地信息进行分类处理，确定所述UE在预设时间段内的分类类型之前，所述方法还包括：建立分类模型；以及，

所述建立分类模型包括：

获取多个已知POI分类类型的文本地址数据；

3.根据权利要求2所述的方法，其特征在于，根据预先建立的分类模型，对所有的出发地信息和/或目的地信息进行分类处理，确定所述UE在预设时间段内的分类类型包括：

针对每个出发地信息和/或目的地信息，根据所述分类模型对所述出发地信息和/或目的地信息进行分类处理，获取所述出发地信息和/或目的地信息属于每种POI分类类型的概率，以及，

确定最大概率值对应的POI分类类型作为该出发地信息和/或目的地信息对应的POI分类类型；

4.根据权利要求2所述的方法，其特征在于，根据预先建立的分类模型，对所有的出发地信息和/或目的地信息进行分类处理，确定所述UE在预设时间段内的分类类型包括：

5.根据权利要求3或4所述的方法，其特征在于，根据所述分类模型对每个出发地信息和/或目的地信息进行分类处理，获取所述出发地信息和/或目的地信息属于每种POI分类类型的概率，包括：

\begin{matrix} P_{k} = P (Y | X) = \frac{P (X | Y) * P (Y)}{P (X)} \\ = \frac{Π_{i}^{m} P (x_{i} | Y = y_{k}) * P (Y = y_{k})}{P (X)} \end{matrix};

6.根据权利要求5所述的方法，其特征在于，在采用预设的分词算法对所述多个已知POI分类类型的文本地址数据进行分词处理，得到多个特征文本之后，所述方法还包括：

去除该多个特征文本中长度小于预设阈值的特征文本；

去除该多个特征文本中长度小于预设阈值的特征文本。

7.根据权利要求2～4任一所述的方法，其特征在于，在获取多个已知POI分类类型的文本地址数据之后，所述方法还包括：

对所述多个已知POI分类类型的文本地址数据进行样本均衡：

8.一种轨迹预测装置，其特征在于，包括：

9.根据权利要求8所述的装置，其特征在于，还包括分类模型建立单元，用于建立分类模型；

10.根据权利要求9所述的装置，其特征在于，所述确定单元包括概率获取模块、第一分类模块和第二分类模块；

11.根据权利要求9所述的装置，其特征在于，所述确定单元包括概率获取模块、判断模块、第三分类模块和第四分类模块；

所述判断模块，用于判断P₁是否大于z*P₂；

12.根据权利要求10或11所述的装置，其特征在于，所述概率获取模块包括分词子模块和概率计算子模块；

\begin{matrix} P_{k} = P (Y | X) = \frac{P (X | Y) * P (Y)}{P (X)} \\ = \frac{Π_{i}^{m} P (x_{i} | Y = y_{k}) * P (Y = y_{k})}{P (X)} \end{matrix};

13.根据权利要求12所述的装置，其特征在于，所述分类模型建立单元还包括冗余去除模块；

相应地，所述概率获取模块还包括冗余去除子模块；

14.根据权利要求9～11任一所述的装置，其特征在于，所述分类模型建立单元还包括样本均衡模块；