CN108171970A

CN108171970A - 一种获取公交车乘客轨迹的方法及装置

Info

Publication number: CN108171970A
Application number: CN201711311511.5A
Authority: CN
Inventors: 王浩; 杨康; 庞旭林; 张晨
Original assignee: Beijing Qihoo Technology Co Ltd
Current assignee: Beijing Qihoo Technology Co Ltd
Priority date: 2017-12-11
Filing date: 2017-12-11
Publication date: 2018-06-15

Abstract

本发明提供了一种获取公交车乘客轨迹的方法及装置，该方法包括：收集智能公交卡数据SCT，从智能公交卡数据中提取多条乘车记录；对提取的多条乘车记录进行处理分析，计算出乘客的上下车车站逻辑编号，上下车车站逻辑编号与公交车站一一对应；依据乘客的上下车车站逻辑编号确定乘客途经车站编号序列，从而得到公交车乘客轨迹数据。本发明实施例通过收集智能公交卡数据可以方便地获取到有关乘客乘车的大数据信息。并且，利用智能公交卡数据来进一步计算得到大量乘客的乘客轨迹数据，还有助于深入地了解乘客乘坐公交路线的习惯，并挖掘出乘客的时空流动性、客流量等信息。

Description

一种获取公交车乘客轨迹的方法及装置

技术领域

本发明涉及数据挖掘技术领域，特别是涉及一种获取公交车乘客轨迹的方法及装置。

背景技术

在各大城市当中，大量居民会选择公交***出行，如北京每天有超过一千万人选择公交车通勤。公交广告因其覆盖人群广、区域大，因此与静态广告相比具有更显著的优势，已经成为了户外广告主流形式。

目前公交车体广告投放线路的推荐主要有三种方法：1、根据经验、参考历史投放方案，人工选择投放线路；2、评估所有公交线路的乘客数量和线路长度，选择乘客数量最多或者线路长度最长的公交线路；3、利用关联规则等数据挖掘方法，自动从公交网络中提取最佳线路。通过分析现有方案可知，现有技术存在一个通病，即都是以乘客量大为唯一标准来选择公交线路，然而公交线路以及乘客具有各自的特征，且特征都具有时空动态特性，现有技术没有捕捉和分析这一特点，导致无法将广告传播给最恰当的受众，从而无法保证广告的投放效果。

例如，有些公交线路覆盖较多商业办公区、有些公交线路覆盖较多旅游景区，这两种线路上的乘客受众、以及乘客在乘坐公交时的心理状态是不相同的。因此，乘客对不同类型广告的敏感度和反响是不同的。另外，由于在城市中，尤其是在广泛使用公交车体广告投放的大中型城市中，公交线路纷繁复杂，人工选择投放线路的方法效率低、可扩展性、可伸缩性及可操作性较差，而且广告投放效果无法预估。

综上，现有技术普遍没有分析公交线路、乘客特征以及乘客特征的时空动态特性，从而很难使公交车体广告发挥最大的效果。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的获取公交车乘客轨迹的方法及装置。

根据本发明的一方面，提供了一种获取公交车乘客轨迹的方法，包括：

收集智能公交卡数据SCT，从所述智能公交卡数据中提取多条乘车记录；

对提取的多条乘车记录进行处理分析，计算出乘客的上下车车站逻辑编号，所述上下车车站逻辑编号与公交车站一一对应；

依据乘客的上下车车站逻辑编号确定乘客途经车站编号序列，从而得到公交车乘客轨迹数据。

可选地，对提取的多条乘车记录进行处理分析，计算出乘客的上下车车站逻辑编号，包括：

从所述多条乘车记录中提取各乘客上下车车站编号及相应的乘客上下车时间；

基于乘客上下车时间以及所述乘客上下车车站编号，计算多条乘车记录中的乘客上下车车站逻辑编号。

从提取的多条乘车记录中获取任一公交车对应的乘车记录；

从该公交车的乘车记录中提取各乘客上下车车站编号及相应的乘客上下车时间，并将乘客上下车车站编号记为车站收费编号；

基于所述乘客上下车时间以及乘客上下车车站收费编号，计算所述任一公交车的乘车记录中的乘客上下车车站逻辑编号。

可选地，基于乘客上下车时间以及乘客上下车车站收费编号，计算所述任一公交车对应的乘车记录中的乘客上车车站逻辑编号，包括：

按照不同公交卡ID所属乘客上车时间进行排序，得到排序后的乘车记录；

对排序后的乘车记录进行分组，将排序后的乘车记录中的乘客上车车站收费编号相同的分为一组；

对每一组乘车记录使用聚类算法进行聚类，得到的聚类个数作为车站收费编号对应的实际车站个数；

针对每个聚类中的乘车记录计算乘客上车时间平均值；

将多个聚类按照上车时间平均值进行排序，并按照排序确定每个聚类中的乘车记录中乘客上车车站逻辑编号。

可选地，基于乘客上下车时间以及乘客上下车车站收费编号，计算所述任一公交车对应的乘车记录中的乘客下车车站逻辑编号，包括：

按照不同公交卡ID所属乘客下车时间进行排序，得到排序后的乘车记录；

对排序后的乘车记录进行分组，将排序后的乘车记录中的乘客下车车站收费编号相同的分为一组；

针对每个聚类中的乘车记录计算乘客下车时间平均值；

将多个聚类按照下车时间平均值进行排序，并按照排序确定每个聚类中的乘车记录中乘客下车车站逻辑编号。

可选地，依据乘客的上下车车站逻辑编号确定乘客途经车站编号序列，从而得到公交车乘客轨迹数据，包括：

依据计算得到的乘客上下车车站逻辑编号确定乘客途经车站编号序列，结合乘车记录中的公交线路编号、乘客上下车时间得到公交车乘客轨迹数据。

可选地，所述方法还包括：

收集包括地图数据、公交车站数据、公交线路数据以及用户兴趣点POI数据的公交车相关数据；

对所述公交车相关数据及乘客的轨迹数据进行处理，挖掘各公交车站的多维属性。

可选地，对所述公交车相关数据及乘客的轨迹数据进行处理，挖掘各公交车站的多维属性，包括：

根据乘客的轨迹数据中途经车站序列计算各公交车站的枢纽度，枢纽度用于度量公交车站作为中转车站的数量；

依据所述公交车站数据获取公交车站地理位置信息，基于公交车站地理位置信息及其周边指定距离以内的POI数据，计算出各公交车站的功能主题分布；

根据所述公交车站的地理位置信息以及地图数据，确定各公交车站的行政区划归属。

可选地，根据乘客的轨迹数据中途经车站序列计算各公交车站的枢纽度，包括：

基于所述乘客轨迹数据挖掘出长度大于n的序列，记为目标序列，n为正整数；

统计目标序列中与各序列相同的乘客轨迹数量，并作为相应序列的权值；

基于目标序列中各序列的权值，将包含相同车站的序列进行合并，得到连接模式网络；

根据连接模式网络，计算公交线路上的每个公交车站的枢纽度。

可选地，基于公交车站地理位置信息及其周边指定距离以内的POI数据，计算出各公交车站的功能主题分布，包括：

基于公交车站的地理位置信息以及POI数据中的地理位置信息，针对每个公交车站，获取其周边指定距离以内的所有POI数据；

将所有POI数据中的描述信息进行提取，并合并到一个文档；基于合并的文档，使用主题分布模型LDA分析每个公交车站的功能主题分布；

确定需要保留的功能主题，统计每个公交车站周边指定距离以内符合需要保留的功能主题的POI数量，从而得到最终的每个公交车站的功能主题分布。

可选地，所述方法还包括：

依据所述公交车站数据获取公交车站地理位置信息；

根据所述公交车站地理位置信息，将间距小于指定距离的任意公交车站进行合并，且将合并的公交车站指定距离以内的POI数据合并，合并后的POI数据作为相应的合并车站的POI数据。

可选地，依据所述公交车站数据获取公交车站地理位置信息，包括：

根据所述公交车站数据，通过JavaScript从预置地图API获取公交车站的地理坐标经纬度信息。

可选地，所述方法还包括：

获取指定区域内的公交线路及各公交线路所覆盖的公交车站；

确定广告投放场景，将所述广告投放场景与各公交车站的多维属性匹配，获取匹配的公交车站多维属性；

根据匹配出的公交车站多维属性在各公交线路中选取至少一条公交线路，并作为该广告投放场景的广告投放公交线路进行推荐。

可选地，将所述广告投放场景与各公交车站的多维属性匹配，获取匹配的公交车站多维属性，包括：

若广告投放场景为广泛传播场景，根据广泛传播场景从各公交车站多维属性中匹配出的多维属性为，各公交车站的枢纽度；

若广告投放场景为定向功能主题场景，根据定向功能主题场景从各公交车站多维属性中匹配出的多维属性为，各公交车站的功能主题分布；

若广告投放场景为定向行政区域场景，根据定向行政区域场景从各公交车站多维属性中匹配出的多维属性为，各公交车站的行政区划归属。

依据本发明的另一方面，还提供了一种获取公交车乘客轨迹的装置，包括：

收集模块，适于收集智能公交卡数据SCT，从所述智能公交卡数据中提取多条乘车记录；

计算模块，适于对提取的多条乘车记录进行处理分析，计算出乘客的上下车车站逻辑编号，所述上下车车站逻辑编号与公交车站一一对应；

确定模块，适于依据乘客的上下车车站逻辑编号确定乘客途经车站编号序列，从而得到公交车乘客轨迹数据。

可选地，所述计算模块还适于：

从提取的乘车记录中获取任一公交车对应的乘车记录；

基于所述乘客上下车时间以及乘客上下车车站收费编号，计算所述任一公交车对应的乘车记录中的乘客上下车车站逻辑编号。

可选地，所述计算模块还适于：

针对每个聚类中的乘车记录计算乘客上车时间平均值；

可选地，所述计算模块还适于：

针对每个聚类中的乘车记录计算乘客下车时间平均值；

将多个聚类按照下车时间平均值进行排序，并按照排序确定每个聚类中乘车记录的乘客下车车站逻辑编号。

可选地，所述确定模块还适于：

可选地，所述装置还包括挖掘模块，适于：

可选地，所述挖掘模块还适于：

可选地，所述装置还包括合并模块，适于：

依据所述公交车站数据获取公交车站地理位置信息；

可选地，所述装置还包括推荐模块，适于：

可选地，所述推荐模块还适于：

依据本发明的另一方面，还提供了一种电子设备，包括：

处理器；以及

被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行根据上文任意实施例的获取公交车乘客轨迹的方法。

依据本发明的另一方面，还提供了一种一种计算机存储介质，其中，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被包括多个应用程序的电子设备执行时，使得所述电子设备执行根据上文任意实施例的获取公交车乘客轨迹的方法。

在本发明实施例中，首先，收集智能公交卡数据SCT，从智能公交卡数据中提取多条乘车记录。然后，对提取的多条乘车记录进行处理分析，计算出乘客的上下车车站逻辑编号，上下车车站逻辑编号与公交车站一一对应。最后，依据乘客的上下车车站逻辑编号确定乘客途经车站编号序列，从而得到公交车乘客轨迹数据。由于智能公交卡数据中包含有持卡者乘坐公交车的记录，即包含有大量的乘客乘车信息。因此，通过收集智能公交卡数据可以方便地获取到有关乘客乘车的大数据信息。并且，利用智能公交卡数据来进一步计算得到大量乘客的乘客轨迹数据，还有助于深入地了解乘客乘坐公交路线的习惯，并挖掘出乘客的时空流动性、客流量等信息。进一步地，本发明实施例通过分析乘客的轨迹数据，从而可以在合适的公交线路上合理的投放公交广告，以使投放的广告发挥出最大的投放效果。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

根据下文结合附图对本发明具体实施例的详细描述，本领域技术人员将会更加明了本发明的上述以及其他目的、优点和特征。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了根据本发明一个实施例的获取公交车乘客轨迹的方法的流程示意图；

图2示出了根据本发明一个实施例的北京510路公交车各车站编号示意图；

图3示出了根据本发明一个实施例的车载广告公交线路推荐方法的流程示意图；

图4示出了根据本发明一个实施例的获取公交车乘客轨迹的装置的结构示意图；

图5示出了根据本发明另一个实施例的获取公交车乘客轨迹的装置的结构示意图；

图6示出了用于执行根据本发明的获取公交车乘客轨迹的方法的计算设备的框图；以及

图7示出了用于保持或者携带实现根据本发明的获取公交车乘客轨迹的方法的程序代码的存储单元。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

为解决上述技术问题，本发明实施例提供了一种获取公交车乘客轨迹的方法。图1示出了根据本发明一个实施例的获取公交车乘客轨迹的方法的流程示意图。参见图1，该方法至少包括步骤S102至步骤S106。

步骤S102，收集智能公交卡数据(SCT，Smart Card Transaction)，从智能公交卡数据中提取多条乘车记录。

该步骤中，智能公交卡数据为持卡者乘坐公交车的记录。一条记录包括持卡者一次乘车记录，具体可以包括公交卡ID、公交卡类型、记录***时间、公交线路ID、公交车ID、乘客上车时间、乘客下车时间、乘客上车车站ID、乘客下车车站ID等。

步骤S104，对提取的多条乘车记录进行处理分析，计算出乘客的上下车车站逻辑编号，上下车车站逻辑编号与公交车站一一对应。

该步骤中，由于在现有技术中，智能公交卡数据中(上车和下车)车站编号为车站的收费编号。因此存在多个车站共用同一编号的问题。这会导致无法精确分析每个车站的客流量和枢纽度的问题，因此需要将车站的收费编号映射为实际的逻辑编号。后文将会具体介绍如何将车站的收费编号映射为实际的逻辑编号。

步骤S106，依据乘客的上下车车站逻辑编号确定乘客途经车站编号序列，从而得到公交车乘客轨迹数据。

在该步骤中，得到的公交车乘客轨迹数据中可以包含有公交线路编号、乘客上下车时间、乘客途经车站编号序列等。

通过收集智能公交卡数据可以方便地获取到有关乘客乘车的大数据信息。并且，利用智能公交卡数据来进一步计算得到大量乘客的乘客轨迹数据，还有助于深入地了解乘客乘坐公交路线的习惯，并挖掘出乘客的时空流动性、客流量等信息。进一步地，本发明实施例通过分析乘客的轨迹数据，从而可以在合适的公交线路上合理的投放公交广告，以使投放的广告发挥出最大的投放效果。

参见上文步骤S104，在本发明一实施例中，对提取的多条乘车记录进行处理分析，计算出乘客的上下车车站逻辑编号时，具体可以先从多条乘车记录中提取各乘客上下车车站编号及相应的乘客上下车时间，然后，基于乘客上下车时间以及乘客上下车车站编号，计算多条乘车记录中的乘客上下车车站逻辑编号。这里提及的乘客上下车车站编号实际上为公交车车站的收费编号。

下面以同一公交的多条乘车记录为例，分析公交车车站逻辑编号的计算过程。

首先，从基于智能公交卡数据中提取多条乘车记录中，获取任意一公交车对应的乘车记录。例如，参见图2，获取北京市510路公交车的多条乘车记录。

然后，从该公交车的乘车记录中提取各乘客上下车车站编号及相应的乘客上下车时间，并将乘客上下车车站编号记为车站收费编号。

例如，从510路公交车提取不同乘客，如乘客A、乘客B、乘客C、乘客D、乘客E、乘客F，其分别对应的上车车站编号分别1(实际对应“双泉堡东”)、4(实际对应“地铁林萃桥站”)、4(实际对应“京师园北门”)、5(实际对应“澳林春天小区”)、5(实际对应“林萃路口北”)、5(实际对应“林萃路口北”)，对应的上车时间分别为7:55，8:00，8:10，8:30，8:20，8:22。

进而，基于乘客上下车时间以及乘客上下车车站收费编号，计算任一公交车的乘车记录中的乘客上下车车站逻辑编号。

以计算乘客上车车站逻辑编号为例，具体的计算过程为，按照不同公交卡ID所属乘客上车时间进行排序，得到排序后的乘车记录。该实施例中，得到排序后的乘车记录为乘客A记录、乘客B记录、乘客C记录、乘客E记录、乘客F记录、乘客D记录。

接下来，对排序后的乘车记录进行分组，将排序后的乘车记录中的乘客上车车站收费编号相同的分为一组。例如，将乘客A分为第一组，乘客B和乘客C分为第二组，乘客D、乘客E和乘客F分为第三组。

然后，对每一组乘车记录使用聚类算法进行聚类，得到的聚类个数作为车站收费编号对应的实际车站个数。该步骤中，可以采用K-Means算法对每一组智能公交卡数据进行聚类。当然还可以采用其他的聚类算法，本发明实施例对此不做具体限定。

例如，第一组乘客对应的智能公交卡数据聚类后，得到的聚类个数为1个。

第二组乘客对应的智能公交卡数据聚类后，得到的聚类个数为2个。

第三组乘客对应的智能公交卡数据聚类后，由于乘客E和乘客F对应的上车时间非常相近，且两者对应的上车车站编号都为5，可以认为两人在同一站上的车，因此，计算得到的聚类个数为2个，即乘客D为一个聚类，乘客E和乘客F为一个聚类。

最后，针对每个聚类中的乘车记录计算乘客上车时间平均值，并将多个聚类按照上车时间平均值进行排序，并按照排序确定每个聚类中的乘车记录中乘客上车车站逻辑编号。

第一组的每个聚类中，乘客上车时间平均值为7:55。

第二组的2聚类中，乘客上车时间平均值分别为8:00，8:10。

第三组的2聚类中，乘客上车时间平均值分别为8:30，8:21。

将多个聚类按照上车时间平均值进行排序后，得到的时间分别为7:55、8:00、8:10、8:21、8:30(各时间对应的车站逻辑编号为1、2、3、4、5，该逻辑编号唯一)。由此，可以得到乘客A、乘客B、乘客C、乘客D、乘客E、乘客F，对应的上车车站逻辑编号分别为1、2、3、5、4、4。即，各乘客上车的车站分别为“双泉堡东”、“地铁林萃桥站”、“京师园北门”、“澳林春天小区”“林萃路口北”和“林萃路口北”。

上述实施例仅仅是示意性的，该实施例并没有涵盖北京市510路公交车的所有车站。该实施例对本发明实施例不造成任何限定。

同理，依据上文实施例计算乘客上车车站逻辑编号的方式，还可以计算得到乘客下车车站逻辑编号。具体的，首先，按照不同公交卡ID所属乘客下车时间进行排序，得到排序后的乘车记录。然后，对排序后的乘车记录进行分组，将排序后的乘车记录中的乘客下车车站收费编号相同的分为一组。然后，对每一组乘车记录使用聚类算法进行聚类，得到的聚类个数作为车站收费编号对应的实际车站个数。最后，针对每个聚类中的乘车记录计算乘客下车时间平均值，并将多个聚类按照下车时间平均值进行排序，并按照排序确定每个聚类中的乘车记录中乘客下车车站逻辑编号。

参见上文步骤S106，依据乘客的上下车车站逻辑编号确定乘客途经车站编号序列，从而得到公交车乘客轨迹数据时，还可以依据计算得到的乘客上下车车站逻辑编号确定乘客途经车站编号序列，进而结合乘车记录中的公交线路编号、乘客上下车时间得到公交车乘客轨迹数据。

在本发明一实施例中，当依据上文实施例得到公交车乘客轨迹数据之后，还可以利用乘客的轨迹数据进一步挖掘各公交车站的多维属性。

该实施例中，多维属性包括各公交车站的枢纽度、功能主题分布以及行政区划归属等。其中，枢纽度用于度量公交车站作为中转车站的数量，车站公交车数量越多、换乘人数越大，则枢纽度越大，同时还能度量公交车站客流量。功能主题分布是指具有某种功能特点的区域，如学区、景区、住宅区等。行政区划归属是指行政管理区域，如北京市的东城区、西城区、海淀区等。

下面具体介绍如何挖掘各公交车站的多维属性。

首先，收集包括地图数据、公交车站数据、公交线路数据以及用户兴趣点POI数据的公交车相关数据。然后，对公交车相关数据及乘客的轨迹数据进行处理，挖掘各公交车站的多维属性。

从公交车相关数据中挖掘各公交车站的枢纽度时，根据乘客的轨迹数据中途经车站序列计算各公交车站的枢纽度，枢纽度用于度量公交车站作为中转车站的数量。

从公交车相关数据中挖掘各公交车站的功能主题分布时，依据公交车站数据获取公交车站地理位置信息，基于公交车站地理位置信息及其周边指定距离以内的POI数据，计算出各公交车站的功能主题分布。

从公交车相关数据中挖掘各公交车站的行政区划归属时，根据公交车站的地理位置信息以及地图数据，确定各公交车站的行政区划归属。

现分别对挖掘各公交车站的枢纽度、公交车站的功能主题分布、公交车站的行政区划归属的具体过程进行介绍。

枢纽度的挖掘过程。

本发明实施例可以采用Temproal-IdeaGraph算法挖掘公交车站枢纽度属性，该算法可挖掘数据中的序列以及各个元素主体之间的关系网络。图5为Temproal-IdeaGraph算法的流程示意图，参见图5，该算法可以包括如下步骤：

步骤一、序列模式挖掘，基于乘客轨迹数据挖掘出长度大于n(n为正整数)的序列，并将该序列记为目标序列。统计目标序列中与各序列相同的乘客轨迹数量，并作为相应序列的权值。该实施例中，所有序列集合记为P，某序列记为p，序列p的权值记为w(p)；

步骤二、序列模式合并，基于目标序列中各序列的权值，将包含相同车站的序列进行合并，得到连接模式网络。

步骤三、枢纽车站发现，根据连接模式网络，计算公交线路上的每个公交车站的枢纽度。枢纽度的计算公式如公式1-1所示：

上述公式1中的各参数的计算参见如下公式1-2至1-5：

其中，上述公式中，s_i为车站i，H(s_i)为车站s_i枢纽度，Lstart_i为起始车站为s_i的序列集合，Lend_i为终止车站为s_i的序列集合，I_i→j为其实车站为s_i、终止车站为s_j的序列。

功能主题分布的挖掘过程。

首先，基于公交车站的地理位置信息以及POI数据中的地理位置信息，针对每个公交车站，获取其周边指定距离以内的所有POI数据。例如，针对每个公交车站，获取其周边1km距离以内的所有POI数据。指定距离还可以是其他数值，本发明实施例对此不做具体限定。

然后，将所有POI数据中的描述信息进行提取，并合并到一个文档；基于合并的文档，使用主题分布模型LDA(Latent Dirichlet Allocation)分析每个公交车站的功能主题分布；

最后，确定需要保留的功能主题，统计每个公交车站周边指定距离以内符合需要保留的功能主题的POI数量，从而得到最终的每个公交车站的功能主题分布。例如，可以根据广告推广领域常识，去除无关主题、合并相似主题，假设最终只保留民宅、旅游、家居、办公室、公司、汽车、购物、教育、市场、***10个主题。那么，对针对每个保留主题统计公交车站附近符合该主题的POI数量，从而得到公交车站的主题分布：其中，s为公交车站，为公交车站s第i个主题POI数量，i∈1，2，...，10。

行政区划归属的挖掘过程。

相对于上文公交车站的枢纽度和功能主题分布的挖掘过程，公交车站的行政区划归属的挖掘较为简单，即可以直接根据公交车站地理位置的经纬度坐标，并借助地图数据确定公交车站的行政区划属性。地图数据可以使用JavaScript技术从预置的地图API中获取。

在本发明一实施例中，由于一些公交车站的距离很近，他们的属性一般情况下是大致相同的，为了在后续过程中可以更加方便的通过分析各公交车站的多维属性，以在合适的公交线路上合理的投放公交广告。因此，可以将距离较近的公交车站进行合并，从而对他们的属性进行合并。

具体的合并方式为，依据公交车站数据获取公交车站地理位置信息。根据公交车站地理位置信息，将间距小于指定距离(如100米、200米等)的任意公交车站进行合并，且将合并的公交车站指定距离以内的POI数据合并，合并后的POI数据作为相应的合并车站的POI数据。其中，指定距离可以根据实际情况进行确定，本发明实施例不做具体限定。

在该实施例中，获取公交车站地理位置信息时，可以根据公交车站数据，通过JavaScript从预置地图API获取公交车站的地理坐标经纬度信息。

基于上述对各公交车站的多维属性的挖掘，现介绍结合各公交车站的多维属性和广告投放场景，对相应广告投放场景进行车载广告公交线路推荐的方法。参见图3，该方法至少包括步骤S302至步骤S306。

步骤S302，获取指定区域内的公交线路及各公交线路所覆盖的公交车站。

该步骤中，指定区域可以是指定城市(如北京市、石家庄市等)、指定省份(如河北省、山东省等)、指定城市中的某一行政区域(如北京海淀区、北京朝阳区等)等等，本发明对指定区域不做具体的限定。

步骤S304，确定广告投放场景，将广告投放场景与各公交车站的多维属性匹配，获取匹配的公交车站多维属性。

在该步骤之前还需先获取由上文实施例得到的各公交车站的多维属性。

该步骤中，广告投放意图包括不区分广告受众的投放意图、倾向功能主题的投放意图，倾向行政区划的投放意图等等。广告投放场景包括广泛传播场景、定向功能主题场景、定向行政区域场景等等。

步骤S306根据匹配出的公交车站多维属性在各公交线路中选取至少一条公交线路，并作为该广告投放场景的广告投放公交线路进行推荐。

参见上文步骤S304，在本发明一实施例中，可以根据广告投放者的广告投放意图确定广告投放场景，下面对如何根据广告投放者的广告投放意图确定广告投放场景进行介绍。

广泛传播场景，可以保证公交线路方案覆盖最广泛的乘客轨迹，即广告受众最多。例如，投放的广告为旅游度假区广告，这类广告不区分受众，传播范围越广越好，因此选取广泛传播场景。由此，当广告投放意图不区分广告受众时，可以确定广告投放场景为广泛传播场景。

定向功能主题场景，适用于投放的广告有明显的主题倾向，可以针对相应的受众进行传播，从而大大提升广告的效果和性价比。例如，招聘网站广告，应投放在较多经过商业和办公区的公交线路上。由此，当广告投放意图具有功能主题属性时，确定广告投放场景为定向功能主题场景。

定向行政区域场景，适用于投放的广告有明显的行政区域倾向，需要只针对相关区域的受众进行传播。例如，核心城区的商场广告，应着重投放在核心城区(而非郊区)的公交线路上。由此，当广告投放意图具有行政区划属性时，确定广告投放场景为定向行政区域场景。

基于上文对广告投放场景的介绍，现对广告投放场景与各公交车站的多维属性进行匹配，匹配得到的公交车站多维属性的过程进行介绍。

具体的，若广告投放场景为广泛传播场景，根据广泛传播场景从各公交车站多维属性中匹配出的多维属性为，各公交车站的枢纽度。若广告投放场景为定向功能主题场景，匹配出的多维属性为各公交车站的功能主题分布。若广告投放场景为定向行政区域场景，匹配出的多维属性为各公交车站的行政区划归属。

参见上文步骤S306，匹配出的公交车站多维属性不同，在各公交线路中选取公交线路的依据不同，从而推荐的公交线路也不同。现对根据公交车站的不同多维属性在各公交线路中选取至少一条公交线路，并作为该广告投放场景的广告投放公交线路进行推荐的过程分别进行介绍。

首先，以一具体实施例对在广泛传播场景下，对广告投放公交线路进行推荐的过程进行具体介绍。该实施例的指定区域为北京市。该实施例度量各个公交车站的枢纽度，枢纽度越大，车站客流量越大，途经此车站的广告受众越多。该方法命名为Hub-KRQ，具体步骤如下：

步骤1-1，已挑选公交线路集合设置为空，记为BR_result；已覆盖乘客轨迹集合设置为空，记为Traj_covered；

步骤1-2，将北京市所有公交线路作为候选线路集合，记为BR_can；

步骤1-3，根据公交线路数据提取BR_can所覆盖的所有公交车站，并组成候选车站集合，记为S_can；

步骤1-4，遍历乘客轨迹数据，如果乘客轨迹序列中包含S_can中任意车站，则提取乘客轨迹数据，并组成候选轨迹集合，记为Traj_can；

步骤1-5，根据公式2-1和2-2计算Traj_can中所有轨迹对于BR_can中所有线路的权重w(traj；br)：

w(traj；br)＝∑_s∈itsH(s)公式2-1；its＝I_ts[traj]∩I_rs[br]公式2-2

其中，I_rs[br]为公交线路br覆盖的公交车站集合，I_ts[traj]为轨迹traj覆盖的公交车站集合，its为公交线路br与轨迹traj覆盖的公交线路交集，H(s)为公交车站枢纽度；

步骤1-6，遍历BR_can中的所有公交线路，对任意公交线路br，在S_can中提取其覆盖的所有公交车站集合，记为S_br，在Traj_can中提取S_br覆盖的乘客轨迹，记为traj_br，对Traj_br中所有乘客轨迹对于线路权重求和，得到公交线路br的覆盖度C_br，如下公式2-3：

其中，I_rs[br]为提取br覆盖的公交车站集合S_br，I_st[I_rs[br]]为提取S_br覆盖的乘客轨迹集合Traj_br；

步骤1-7，选择BR_can中覆盖度最大的公交线路br_max，将其加入到已选中公交线路集合BR_result，并从候选公交线路集合BR_can中去除；

步骤1-8，根据公交线路数据提取BR_can所覆盖的所有公交车站，并组成候选车站集合，记为S_can；

步骤1-9，将br_max覆盖的乘客轨迹Traj_brmax从候选轨迹集合Traj_can中去除；

步骤1-10，重复步骤1-6至1-9，直到选出公交线路集合BR_result中公交线路数量满足广告投放者的要求。本发明实施例对上述过程中各步骤之间的先后顺序不做具体的限定。

然后，以一具体实施例对在定向功能主题场景下，对广告投放公交线路进行推荐的过程进行具体介绍。该实施例的指定区域为北京市。如果广告投放场景为定向功能主题场景，公交线路推荐方法考虑乘客轨迹途经地标的主题特征，该方法命名为Topic-KRQ，具体步骤如下：

步骤2-1，设定广告目标功能主题，记为集合Traj_targrt；

步骤2-2，已挑选公交线路集合设置为空，记为BR_result；已覆盖乘客轨迹集合设置为空，记为Traj_covered；

步骤2-3，将北京市所有公交线路作为候选线路集合，记为BR_can；

步骤2-4，根据公交线路数据提取BR_can所覆盖的所有公交车站，并组成候选车站集合，记为S_can；

步骤2-5，根据下面公式3-1计算S_can中每个公交车站的目标功能主题权重：

其中，TD_s[t]为公交车站s与主题t相关的POI数量；

步骤2-6，遍历乘客轨迹数据，如果乘客轨迹序列中包含S_can中任意公交车站，则提取乘客轨迹候选数据，并组成候选轨迹集合，记为Traj_can；

步骤2-7，根据下面公式3-2和3-3计算Traj_can中所有乘客轨迹对于BR_can中所有线路的权重w(traj；br)：

w(traj；br)＝∑_s∈itsw_target(s) 公式3-2；

its＝I_ts[traj]∩I_rs[br] 公式3-3；

其中，I_rs[br]为公交线路br覆盖的公交车站集合，I_ts[traj]为轨迹traj覆盖的公交车站集合，its为公交线路br与轨迹traj覆盖的公交线路交集；

步骤2-8，遍历BR_can中所有公交线路，对任意公交线路br，在S_can中提取其覆盖的所有公交车站集合，记为S_br，在Traj_can中提取S_br覆盖的乘客轨迹，记为Traj_br，对Traj_br中所有轨迹对于线路权重求和，得到公交线路br的覆盖度C_br，如下面公式3-4：

其中I_rs[br]为提取br覆盖的公交车站集合S_br，I_st[I_rs[br]]为提取S_br覆盖的乘客轨迹集合Traj_br；

步骤2-9，选择BR_can中覆盖度最大的公交线路br_max，将其加入到已选中公交线路集合BR_result，并从候选公交线路及和BR_can中去除；

步骤2-10，根据公交线路数据提取BR_can所覆盖的所有公交车站，并组成候选车站集合，记S_can；

步骤2-11，将br_max覆盖的乘客轨迹Traj_brmax从候选轨迹集合Traj_can中去除；

步骤2-12，重复2-6至2-11，直到选出公交线路集合BR_result中公交线路数量满足广告投放者的要求。

最后，以一具体实施例对在定向行政区域场景下，对广告投放公交线路进行推荐的过程进行具体介绍。该实施例的指定区域为北京市。如果广告投放场景为定向行政区域场景，公交线路推荐方法考虑乘客轨迹途经地标的行政区域特征，该方法命名为District-KRQ，具体步骤如下：

步骤3-1，设定广告目标行政区域，记为集合D_Target；

步骤3-2，已挑选公交线路集合设置为空，记为BR_result；已覆盖乘客轨迹集合设置为空，记为Traj_covered；

步骤3-3，将北京市所有公交线路作为候选线路集合，记为BR_can；

步骤3-4，根据公交线路数据提取BR_can所覆盖的所有公交车站，并组成候选车站集合，记为S_can；

步骤3-5，计算S_can中每个公交车站的目标行政区域权重，如果公交车站所属行政区域为目标行政区域，则权重为1，否则权重为0：记为w_Target(s)；

步骤3-6，遍历乘客轨迹数据，如果乘客轨迹序列中包含S_can中任意公交车站，则提取乘客轨迹候选数据，并组成候选轨迹集合，记为Traj_can；

步骤3-7，根据下面公式4-1和4-2计算Traj_can中所有乘客轨迹对于BR_can中所有线路的权重w(traj；br)：

w(traj；br)＝∑_s∈itsW_target(s) 公式4-1；

its＝I_ts[traj]∩I_rs[br] 公式4-2；

步骤3-8，遍历BR_can中所有公交线路，对任意公交线路br，在S_can中提取其覆盖的所有公交车站集合，记为S_br，在Traj_can中提取S_br覆盖的乘客轨迹，记为Traj_br，对Traj_br中所有轨迹对于线路权重求和，得到公交线路br的覆盖度C_br，如下公式4-3：

步骤3-9，选择BR_can中覆盖度最大的公交线路br_max，将其加入到已选中公交线路集合BR_result，并从候选公交线路及和BR_can中去除；

步骤3-10，根据公交线路数据提取BR_can所覆盖的所有公交车站，并组成候选车站集合，记为S_can；

步骤3-11，将br_max覆盖的乘客轨迹Traj_brmax从候选轨迹集合Traj_can中去除；

步骤3-12，重复3-6至3-11，直到选出公交线路集合BR_result中公交线路数量满足广告投放者的要求。

当然，无论针对哪一种广告投放场景，在根据公交车站的多维属性在各公交线路中选取至少一条公交线路时，还需要考虑广告投放者的投放需求，如投放时间范围(具体到小时)、公交线路数量(如2-3条线路、4条线路等)、公交线路长度范围(如5000米、3000米等)和公交线路客流量范围等等，从而结合投放需求在根据公交车站的多维属性在各公交线路中选取至少一条公交线路，并作为该广告投放场景的广告投放公交线路进行推荐。

基于同一发明构思，本发明实施例还提供了一种获取公交车乘客轨迹的装置，图4示出了根据本发明一个实施例的获取公交车乘客轨迹的装置的结构示意图。参见图4，获取公交车乘客轨迹的装置400至少包括收集模块410、计算模块420以及确定模块430。

现介绍本发明实施例的获取公交车乘客轨迹的装置400的各组成或器件的功能以及各部分间的连接关系：

收集模块410，适于收集智能公交卡数据SCT，从智能公交卡数据中提取多条乘车记录；

计算模块420，与收集模块410耦合，适于对提取的多条乘车记录进行处理分析，计算出乘客的上下车车站逻辑编号，上下车车站逻辑编号与公交车站一一对应；

确定模块430，与计算模块420耦合，适于依据乘客的上下车车站逻辑编号确定乘客途经车站编号序列，从而得到公交车乘客轨迹数据。

在本发明一实施例中，计算模块420还适于，从多条乘车记录中提取各乘客上下车车站编号及相应的乘客上下车时间，并基于乘客上下车时间以及乘客上下车车站编号，计算多条乘车记录中的乘客上下车车站逻辑编号。

在本发明另一实施例中，计算模块420还适于，从提取的乘车记录中获取任一公交车对应的乘车记录。并从该公交车的乘车记录中提取各乘客上下车车站编号及相应的乘客上下车时间，并将乘客上下车车站编号记为车站收费编号。基于乘客上下车时间以及乘客上下车车站收费编号，计算任一公交车对应的乘车记录中的乘客上下车车站逻辑编号。

在本发明另一实施例中，计算模块420还适于计算乘客上车车站逻辑编号，首先，按照不同公交卡ID所属乘客上车时间进行排序，得到排序后的乘车记录。其次，对排序后的乘车记录进行分组，将排序后的乘车记录中的乘客上车车站收费编号相同的分为一组。然后，对每一组乘车记录使用聚类算法进行聚类，得到的聚类个数作为车站收费编号对应的实际车站个数。最后，针对每个聚类中的乘车记录计算乘客上车时间平均值，并将多个聚类按照上车时间平均值进行排序，并按照排序确定每个聚类中的乘车记录中乘客上车车站逻辑编号。

在本发明另一实施例中，计算模块420还适于计算乘客下车车站逻辑编号，首先，按照不同公交卡ID所属乘客下车时间进行排序，得到排序后的乘车记录。其次，对排序后的乘车记录进行分组，将排序后的乘车记录中的乘客下车车站收费编号相同的分为一组。然后，对每一组乘车记录使用聚类算法进行聚类，得到的聚类个数作为车站收费编号对应的实际车站个数。最后，针对每个聚类中的乘车记录计算乘客下车时间平均值，并将多个聚类按照下车时间平均值进行排序，并按照排序确定每个聚类中乘车记录的乘客下车车站逻辑编号。

在本发明一实施例中，确定模块430还适于，依据计算得到的乘客上下车车站逻辑编号确定乘客途经车站编号序列，结合乘车记录中的公交线路编号、乘客上下车时间得到公交车乘客轨迹数据。

本发明实施例还提供了另一种获取公交车乘客轨迹的装置，图5示出了根据本发明另一个实施例的获取公交车乘客轨迹的装置的结构示意图。参见图5，获取公交车乘客轨迹的装置400除了包含上述各模块之外，还可以包括挖掘模块440、合并模块450以及推荐模块460。

挖掘模块440，与确定模块430耦合，适于收集包括地图数据、公交车站数据、公交线路数据以及用户兴趣点POI数据的公交车相关数据，并对公交车相关数据及乘客的轨迹数据进行处理，挖掘各公交车站的多维属性。

合并模块450，与挖掘模块440耦合，适于依据公交车站数据获取公交车站地理位置信息，并根据公交车站地理位置信息，将间距小于指定距离的任意公交车站进行合并，且将合并的公交车站指定距离以内的POI数据合并，合并后的POI数据作为相应的合并车站的POI数据。

推荐模块460，与挖掘模块440耦合，适于获取指定区域内的公交线路及各公交线路所覆盖的公交车站，并确定广告投放场景，将广告投放场景与各公交车站的多维属性匹配，获取匹配的公交车站多维属性。进而根据匹配出的公交车站多维属性在各公交线路中选取至少一条公交线路，并作为该广告投放场景的广告投放公交线路进行推荐。

在本发明一实施例中，挖掘模块440还适于，根据乘客的轨迹数据中途经车站序列计算各公交车站的枢纽度，枢纽度用于度量公交车站作为中转车站的数量。依据公交车站数据获取公交车站地理位置信息，基于公交车站地理位置信息及其周边指定距离以内的POI数据，计算出各公交车站的功能主题分布。根据公交车站的地理位置信息以及地图数据，确定各公交车站的行政区划归属。

在本发明一实施例中，挖掘模块440还适于，基于乘客轨迹数据挖掘出长度大于n的序列，记为目标序列，n为正整数。统计目标序列中与各序列相同的乘客轨迹数量，并作为相应序列的权值。基于目标序列中各序列的权值，将包含相同车站的序列进行合并，得到连接模式网络，并根据连接模式网络，计算公交线路上的每个公交车站的枢纽度。

在本发明一实施例中，挖掘模块440还适于，基于公交车站的地理位置信息以及POI数据中的地理位置信息，针对每个公交车站，获取其周边指定距离以内的所有POI数据，并将所有POI数据中的描述信息进行提取，并合并到一个文档。基于合并的文档，使用主题分布模型LDA分析每个公交车站的功能主题分布。确定需要保留的功能主题，统计每个公交车站周边指定距离以内符合需要保留的功能主题的POI数量，从而得到最终的每个公交车站的功能主题分布。

在本发明一实施例中，合并模块450还适于根据公交车站数据，通过JavaScript从预置地图API获取公交车站的地理坐标经纬度信息。

在本发明一实施例中，推荐模块460还适于，若广告投放场景为广泛传播场景，根据广泛传播场景从各公交车站多维属性中匹配出的多维属性为，各公交车站的枢纽度。若广告投放场景为定向功能主题场景，根据定向功能主题场景从各公交车站多维属性中匹配出的多维属性为，各公交车站的功能主题分布。若广告投放场景为定向行政区域场景，根据定向行政区域场景从各公交车站多维属性中匹配出的多维属性为，各公交车站的行政区划归属。

根据上述任意一个优选实施例或多个优选实施例的组合，本发明实施例能够达到如下有益效果：

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的获取公交车乘客轨迹的装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

本发明实施例还提供了一种电子设备，包括处理器、以及被安排成存储计算机可执行指令的存储器，可执行指令在被执行时使处理器执行根据上文任意一实施例的获取公交车乘客轨迹的方法。

本发明实施例还提供了一种计算机存储介质，其中，计算机可读存储介质存储一个或多个程序，一个或多个程序当被包括多个应用程序的电子设备执行时，使得电子设备执行上文任一实施例的获取公交车乘客轨迹的方法。

例如，图6示出了可以实现获取公交车乘客轨迹的方法的计算设备。该计算设备传统上包括处理器610和存储器620形式的计算机程序产品或者计算机可读介质。存储器620可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。存储器620具有存储用于执行上述方法中的任何方法步骤的程序代码631的存储空间630。例如，存储程序代码的存储空间630可以包括分别用于实现上面的方法中的各种步骤的各个程序代码631。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。这些计算机程序产品包括诸如硬盘，紧致盘(CD)、存储卡或者软盘之类的程序代码载体。这样的计算机程序产品通常为例如图7所示的便携式或者固定存储单元。该存储单元可以具有与图6的计算设备中的存储器620类似布置的存储段、存储空间等。程序代码可以例如以适当形式进行压缩。通常，存储单元包括用于执行本发明的方法步骤的计算机可读代码631’，即可以由诸如610之类的处理器读取的代码，当这些代码由计算设备运行时，导致该计算设备执行上面所描述的方法中的各个步骤。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

至此，本领域技术人员应认识到，虽然本文已详尽示出和描述了本发明的多个示例性实施例，但是，在不脱离本发明精神和范围的情况下，仍可根据本发明公开的内容直接确定或推导出符合本发明原理的许多其他变型或修改。因此，本发明的范围应被理解和认定为覆盖了所有这些其他变型或修改。

Claims

1.一种获取公交车乘客轨迹的方法，包括：

2.根据权利要求1所述的方法，其中，对提取的多条乘车记录进行处理分析，计算出乘客的上下车车站逻辑编号，包括：

3.根据权利要求1或2所述的方法，其中，对提取的多条乘车记录进行处理分析，计算出乘客的上下车车站逻辑编号，包括：

从提取的多条乘车记录中获取任一公交车对应的乘车记录；

4.根据权利要求1-3任一项所述的方法，其中，基于乘客上下车时间以及乘客上下车车站收费编号，计算所述任一公交车对应的乘车记录中的乘客上车车站逻辑编号，包括：

针对每个聚类中的乘车记录计算乘客上车时间平均值；

5.根据权利要求1-4任一项所述的方法，其中，基于乘客上下车时间以及乘客上下车车站收费编号，计算所述任一公交车对应的乘车记录中的乘客下车车站逻辑编号，包括：

针对每个聚类中的乘车记录计算乘客下车时间平均值；

6.根据权利要求1-5任一项所述的方法，其中，依据乘客的上下车车站逻辑编号确定乘客途经车站编号序列，从而得到公交车乘客轨迹数据，包括：

7.根据权利要求1-6任一项所述的方法，其中，还包括：

8.一种获取公交车乘客轨迹的装置，包括：

9.一种电子设备，包括：

处理器；以及

被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行根据权利要求1-7任一项所述的获取公交车乘客轨迹的方法。

10.一种计算机存储介质，其中，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被包括多个应用程序的电子设备执行时，使得所述电子设备执行根据权利要求1-7任一项所述的获取公交车乘客轨迹的方法。