CN111144446A

CN111144446A - 一种基于时空网格的司机身份识别方法和***

Info

Publication number: CN111144446A
Application number: CN201911244963.5A
Authority: CN
Inventors: 赵岩; 邓伟; 杨俊京; 张志平; 胡道生; 夏曙东
Original assignee: Beijing Transwiseway Information Technology Co Ltd
Current assignee: Beijing Transwiseway Information Technology Co Ltd
Priority date: 2019-12-06
Filing date: 2019-12-06
Publication date: 2020-05-12
Anticipated expiration: 2039-12-06
Also published as: CN111144446B

Abstract

本申请公开了一种基于时空网格的司机身份识别方法和***，包括：根据手机和车辆数据构建时空网格，确定手机轨迹与车辆轨迹的匹配度结果；使用匹配结果与未匹配过的手机数据作为样本集映射至空间网格，统计各网格的正负样本的访问次数；根据各网格的正负样本的访问次数确定各网格的区分度，根据区分度选择多个关键网格以压缩特征空间，并训练判定模型；根据判定模型和匹配度结果确定用户的司机身份。通过手机和车辆数据等现有数据构建时空网格，能够确定手机轨迹与车辆轨迹的匹配度结果；根据每个网格的区分度选择关键网格的数据，训练判定模型，根据判定模型和匹配度结果，确定用户的司机身份，方法简便，能够根据现有的数据对司机身份进行识别。

Description

一种基于时空网格的司机身份识别方法和***

技术领域

本申请涉及身份识别领域，尤其涉及一种基于时空网格的司机身份识别方法和***。

背景技术

在现有技术中，存在对城市运营公交车辆司机和乘客的判断，使用方法为速率和轨迹完全匹配。该方法在货运领域的应用较为有限，一方面由于大数据导致的计算量过于庞大，另一方面在于以当前的现状，稳定且连续的手机报点数据的收集难度较高，不便于计算速率。

综上所述，需要提供一种方法简便，能够根据现有的数据对司机身份进行识别的方法和***。

发明内容

为解决以上问题，本申请提出了一种基于时空网格的司机身份识别方法和***。

一方面，本申请提出一种基于时空网格的司机身份识别方法，包括：

根据用户的手机数据与车辆数据构建时空网格，确定手机轨迹与车辆轨迹的匹配度结果；

使用多个所述匹配结果与未匹配过的手机数据作为样本集，映射至空间网格，统计每个网格的正样本和负样本的访问次数；

根据每个网格的正样本和负样本的访问次数确定每个网格的区分度，根据所述区分度选择多个网格作为关键网格；

将样本数据映射至关键网格训练判定模型，得到训练好的判定模型；

根据所述判定模型和所述匹配度结果，确定用户的司机身份。

优选地，所述根据用户的手机数据与车辆数据构建时空网格，确定手机轨迹与车辆轨迹的匹配度结果，包括：

根据时间阈值和空间阈值，分别对用户的手机数据和车辆数据进行时间维度和空间维度的切分，得到手机轨迹网格集合和车辆轨迹网格集合；

使用改进型Jaccard距离，计算手机轨迹网格集合中的各手机轨迹网格与车辆轨迹网格集合中的各车辆轨迹网格的匹配度，得到手机轨迹与车辆轨迹的匹配度。

优选地，所述根据时间阈值和空间阈值，分别对用户的手机数据和车辆数据进行时间维度和空间维度的切分，得到手机轨迹网格集合和车辆轨迹网格集合，包括：

根据时间阈值，对用户的手机数据进行时间维度的切分；

根据空间阈值，对用户的手机数据进行空间维度的切分；

根据时间阈值，对用户的车辆数据进行时间维度的切分；

根据空间阈值，对用户的车辆数据进行空间维度的切分；

将切分后的手机数据与车辆数据，按照用户ID和车辆ID，映射到时空网格，得到手机轨迹网格集合和车辆轨迹网格集合。

优选地，所述使用改进型Jaccard距离，计算手机轨迹网格集合中的各手机轨迹网格与车辆轨迹网格集合中的各车辆轨迹网格的匹配度，包括：

对车辆轨迹网格集合中的各车辆轨迹网格划分统计时间片，得到各车辆轨迹网格的多个统计时间片；

根据车辆轨迹网格的统计时间片，对与其进行匹配度计算的各手机轨迹网格进行统计时间片划分；

使用改进型Jaccard距离计算所述车辆轨迹网格中所有的所述对比时间段与所述手机轨迹网格中所有的所述对比时间段的位置点的匹配度，得到手机轨迹与车辆轨迹的匹配度。

优选地，所述使用多个所述匹配结果与未匹配过的手机数据作为样本集，映射至空间网格，统计每个网格的正样本和负样本的访问次数，包括：

将一部分所述匹配度超过筛选阈值的手机轨迹对应的用户作为正样本集；

随机获取等量的未进行匹配度计算的用户作为负样本集，与所述正样本集组成样本集；

将样本集中的用户对应的轨迹数据映射至空间网格；

统计所述空间网格中的每个网格中的正样本和负样本数量，得到每个所述网格的正样本和负样本的访问次数。

优选地，所述根据每个网格的正样本和负样本的访问次数确定每个网格的区分度，根据所述区分度选择多个网格作为关键网格，包括：

计算各所述网格的正样本访问次数和负样本访问次数的占比；

根据每个所述网格的正样本占比和负样本占比计算各网格的方差，得到每个所述网格的区分度；

将各网格根据区分度排序，根据区分阈值，选择多个网格作为关键网格。

优选地，所述关键网格对应的数据，包括：

关键网格对应的用户ID、归一化后的多维关键网格访问频次向量、正样本标签和负样本标签。

优选地，所述判定模型，包括：机器学习模型。

优选地，所述网格的区分度包括：区分度和网格与正样本和负样本的相关性。

第二方面，本申请提出一种基于时空网格的司机身份识别***，包括：

时空网格模块，用于根据用户的手机数据与车辆数据构建时空网格，确定手机轨迹与车辆轨迹的匹配度结果；

判定模块，用于使用多个所述匹配结果与未匹配过的手机数据作为样本集，映射至空间网格，统计每个网格的正样本和负样本的访问次数；根据每个网格的正样本和负样本的访问次数确定每个网格的区分度，根据所述区分度选择多个网格作为关键网格；将样本数据映射至关键网格训练判定模型，得到训练好的判定模型；

综合确定模块，用于根据所述判定模型和所述匹配度，确定用户的司机身份。

本申请的优点在于：通过使用用户的手机数据与车辆数据等现有数据，构建时空网格，能够确定手机轨迹与车辆轨迹的匹配度结果；再根据匹配结果与未匹配过的手机数据作为样本集，映射至空间网格，确定每个网格的区分度，训练判定模型，根据判定模型和所述匹配度结果，确定用户的司机身份，方法简便，能够根据现有的数据对司机身份进行识别。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选事实方案的目的，而并不认为是对本申请的限制。而且在整个附图中，用同样的参考符号表示相同的部件。在附图中：

图1是本申请提供的一种基于时空网格的司机身份识别方法的步骤示意图；

图2是本申请提供的一种基于时空网格的司机身份识别方法的流程示意图；

图3是本申请提供的一种基于时空网格的司机身份识别方法的改进型Jaccard距离计算的示意图；

图4是本申请提供的一种基于时空网格的司机身份识别方法的手机应用软件中的认证数据以及计算出的匹配结果的示意图；

图5是本申请提供的一种基于时空网格的司机身份识别方法的匹配结果、判定结果、综合判定结果之间的关系的示意图；

图6是本申请提供的一种基于时空网格的司机身份识别***的示意图；

图7是本申请提供的一种基于时空网格的司机身份识别***的手机数据获取人与车的关注关系示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

根据本申请的实施方式，提出一种基于时空网格的司机身份识别方法，如图1所示，包括：

S101，根据用户的手机数据与车辆数据构建时空网格，确定手机轨迹与车辆轨迹的匹配度结果；

S102，使用多个匹配结果与未匹配过的手机数据作为样本集，映射至空间网格，统计每个网格的正样本和负样本的访问次数；

S103，根据每个网格的正样本和负样本的访问次数确定每个网格的区分度，根据区分度选择多个网格作为关键网格；

S104，将样本数据(正样本和负样本数据)映射至关键网格，使用关键网格中的样本数据训练判定模型，得到训练好的判定模型；

S105，根据判定模型和匹配度结果，确定用户的司机身份。

根据用户的手机数据与车辆数据构建时空网格，确定手机轨迹与车辆轨迹的匹配度结果，包括：

根据时间阈值和空间阈值，分别对用户的手机数据和车辆数据进行时间维度和空间维度的切分，得到手机轨迹网格集合和车辆轨迹网格集合，包括：

根据时间阈值，对用户的手机数据进行时间维度的切分；

根据空间阈值，对用户的手机数据进行空间维度的切分；

根据时间阈值，对用户的车辆数据进行时间维度的切分；

根据空间阈值，对用户的车辆数据进行空间维度的切分；

使用改进型Jaccard距离，计算手机轨迹网格集合中的各手机轨迹网格与车辆轨迹网格集合中的各车辆轨迹网格的匹配度，包括：

使用改进型Jaccard距离计算车辆轨迹网格中所有的对比时间段与手机轨迹网格中所有的对比时间段的位置点的匹配度，得到手机轨迹与车辆轨迹的匹配度。

使用多个匹配结果与未匹配过的手机数据作为样本集，映射至空间网格，统计每个网格的正样本和负样本的访问次数，包括：

将一部分匹配度超过筛选阈值的手机轨迹对应的用户作为正样本集；

随机获取等量的未进行匹配度计算的用户作为负样本集，与正样本集组成样本集；

将样本集中的用户对应的轨迹数据映射至空间网格；

统计空间网格中的每个网格中的正样本和负样本数量，得到每个网格的正样本和负样本的访问次数。

根据每个网格的正样本和负样本的访问次数确定每个网格的区分度，根据区分度选择多个网格作为关键网格，包括：

计算各网格的正样本访问次数和负样本访问次数的占比；

根据每个网格的正样本占比和负样本占比计算各网格的方差，得到每个网格的区分度；

关键网格用以压缩特征空间，并训练判定模型。

将样本数据映射至关键网格，假设全部网格为a、b、c、d，某用户A对四个网格的访问频次分别为3、1、5、2。当以全部网格作为特征空间时，用户A可以向量化表示为3、1、5、2；当通过网格区分度筛选出a、d作为关键网格时，将样用户A映射至关键网格后，用户A可以向量化表示为3、2。

关键网格对应的数据，包括：

判定模型，包括：机器学习模型。

网格的区分度包括：区分度和网格与正样本和负样本的相关性。

手机轨迹与车辆轨迹的匹配度结果包括：车主和/或司机或其他。

根据正样本和负样本，记录各网格与样本的相关性。假设网格A有8个正样本访问次数和2个负样本访问次数,网格B有1个正样本访问次数和9个负样本访问次数，则网格A跟正样本正相关，与负样本负相关；网格B与正样本负相关，与负样本正相关。

假设一共有K个关键网格，则归一化后的多维关键网格访问频次向量为，对K个关键网格的访问频次进行归一化，得到的向量。

手机轨迹与车辆轨迹的匹配度结果包括：车主、司机、车主和司机、其他。

机器学习模型，包括卷积神经网络等学习模型，以及逻辑回归、支持向量机、决策树等分类模型。

用户的手机数据可以通过手机app进行采集。

空间网格优选地，为一个空间维切分粒度为1公里的地图。

下面，对本申请实施例进行进一步说明，如图2所示。

使用现有的用户的手机数据与车辆数据构建时空网格。根据每个用户的手机数据中的位置(经纬度)、时间等数据，得到每个用户的手机轨迹；根据每个终端发送的车辆数据中的位置、时间等数据，确定每个终端对应的车的车辆轨迹。

将手机轨迹数据与车辆轨迹数据分别映射到以时间ID和空间ID联合表示的时空网格，进而计算轨迹匹配度。考虑到车辆终端的报点(上传的位置点)间隔和车辆正常运行的时速，优选地，时间维的切分粒度为60秒，空间维切分粒度为1公里，即每个时间网格所包括的时间都是60秒，每个空间网格所包括的距离都是1公里。网格的尺寸太小则会导致网格不连续，手机报点与车机报点匹配率降低；尺寸过大则会导致误判率上升。

映射结果会形成车辆轨迹网格集合和手机轨迹网格集合，在时空网格中，根据时间和空间，使用改进型Jaccard距离，确定车辆轨迹网格集合中的每个车辆轨迹和手机轨迹网格集合中的每个手机轨迹之间的匹配度。

如图3所示，如果用户行驶阶段开启手机应用的时间过短，而非行驶阶段开启手机应用的时间过长，即B段短，而A段和C段长，则会导致即便行驶阶段的匹配度很高，但因为分母过大，最终整体匹配度很低，与预期不符，所以直接利用Jaccard距离来计算两个集合的相似度存在很大误差，因此，本申请的实施方式使用改进型Jaccard距离，用于修正Jaccard相似度。

由于货运车辆，尤其是长途货运车辆行驶是长时间连续的，而手机报点相对车机(终端)报点具有很强的间断性，因此可以用目标车辆上一次长时间停靠的时间终点M和下一次长时间停靠的时间起点N之间的时间作为一个统计时间片(时间段B)，将不连续的手机轨迹数据切分成A、B、C三段，A段和C段不参与相似度计算。将多个统计时间片中的手机轨迹和车辆轨迹中的匹配点和不匹配点累加，计算匹配点占总和的比例，并将其记为该用户与目标车辆的匹配度。其中，匹配点与不匹配点均为位置点(报点)。

匹配范围可以设置。即手机轨迹中的位置点与车辆轨迹中的位置点之间的距离在匹配范围的距离内，即为匹配。

假设有一个目标车辆A，将目标车辆A的车辆轨迹数据按上述方法，分割出多个统计时间片。根据各统计时间片所在的时间网格以及统计时间片中的位置点所在的空间网格，与各用户的手机轨迹进行匹配，计算相似度。

如图3所示，以同一个时空网格(时空网格中的一个网格)中的一个统计时间片为例，若匹配到的位置点(报点)有13个，未匹配到的位置点有4个，则次时空网格的相似度为13/17，约为76％。计算目标车辆A的所有统计时间片在时空网格中与当前正在对比的用户的手机轨迹的匹配度，得到目标车辆A与当前正在对比的用户的匹配度。

按照上述方法，计算目标车辆A与数据库中所有用户的手机轨迹的匹配度。

将匹配度(相似度)满足匹配阈值的判定为人与车的司机关系，同时也可以获得该用户的司机身份。

如图4所示，为通过手机应用软件中的认证数据以及计算出的匹配度，可以得到的一些用户与车辆之间的关系。图中实线为软件中的认证数据，虚线为根据时空网格得到的人车匹配关系。手机软件还可以收集关注关系，即，用户A作为车辆2的车主，他可以通过手机软件关注车辆2的实时情况，包括位置，行进路线(轨迹)等等。除此以外，司机的家属也会关注司机当前驾驶的车辆，然而司机的家属与车辆既不是从属关系又不是使用关系，即为其他。

由于影响判断准确率的主要因素是相似度(匹配阈值)，阈值越高，准确率越高，但相应的召回率则会降低，因此可以根据具体应用场景，以已确认司机身份的数据做参照，动态调整阈值，以获取所需的准确率和召回率。

通过时空网格进行人车关系挖掘，除了能给出用户与车的对应关系，还能同时给出置信度很高的司机身份标签。利用这部分标注数据可以构建判定模型，作为对人车关系匹配度的补充。

选择匹配度超过阈值的部分部分用户作为正样本(标注数据为正样本)，同时，随机抽取等量的非匹配用户(没有匹配到车辆的用户和/或者没有匹配过的用户)作为负样本(标注数据为负样本)，合并得到样本集。对于正样本，可以通过控制变量及抽样验证的方式，选定合理的筛选阈值，保证样本质量。

将样本集中的用户的手机轨迹数据(手机报点)映射至只有空间ID表示的空间网格，空间网格中的每个网格，都包括：网格ID，正样本对此网格的访问次数，负样本对此网格的访问次数。

访问次数为在一段时间内出现在此的次数。

计算各个网格里正负样本的访问次数占比，根据所述访问次数占比，计算两个比例的方差，并将其记为该网格对正负样本的区分度，此时，空间网格中的每个网格，都包括：网格ID，网格对正负样本的区分度和相关性。

将全部网格按区分度从大到小排序，选取top K的网格作为关键网格，并由此构建特征空间。关键网格的含义为：相对于非司机用户，司机更可能出现的区域。

K值可以是区分度阈值，也可以是选择的关键网格数量。

以K值为选择的关键网格的数量的1000为例。

将用区分度最大的前1000个关键网格访问频次表示的正负样本作为输入，构建机器学习模型(判定模型)，最终得到训练好的判定模型。输入的样本包括：用户ID、归一化的K(1000)维关键网格访问频次向量、标签(正样本或负样本)。判定模型的模型算法可以选择任意机器学习模型和算法，优选地，使用分类算法，包括但不仅限于逻辑回归、支持向量机、决策树等。以逻辑回归算法为例，其输出的判定结果为0到1的置信度，考虑到后续的多模型融合，输出的置信度方便进行下一步计算。

评估训练好的判定模型的效果，并利用此判定模型对未知数据进行预测，输出判定结果。判定模型的准确率略低于高阈值下的人车关系挖掘方法(时空网格匹配方法)，但却显著提升了召回率。

如图5所示，X为时空网格匹配方法得到的结果，Y为判定模型得到的结果，Z为最终输出，即用户的司机身份。其中，X、Z部分的用户既有司机标签，又能找到对应的人车关系；Y部分的用户只拥有司机标签。

最后，为了提供统一的标签，可将两种方法加权求和，进行综合判定，优选地，时空网格匹配方法和判定模型的权重为0.5至0.9与0.1至0.5。使用时，可根据具体应用场景对准确率及召回率的不同需求，调整匹配阈值、判定阈值和/或权重，筛选目标用户。

假设用户a，其人车相似度(时空网格匹配度)为sa1，大于匹配阈值s0；判定模型的判定结果为ma2，大于判定阈值m0；加权求和结果ka，大于综合判定阈值k0，则可判定其为司机。

用户b，其时空网格匹配度为sb1，小于匹配阈值s0；判定结果为mb2，大于判定阈值m0；加权求和结果kb，大于综合判定阈值k0，则可判定其为司机；

用户c，其人车匹配度为sc1，小于匹配阈值s0；判定结果为mc2，小于判定阈值m0；加权求和结果kc，小于综合判定阈值k0，则可判定其为非司机。

综合判定阈值和判定阈值可以根据具体情况进行设定。

第二方面，根据本申请的实施方式，还提出一种基于时空网格的司机身份识别***，如图6所示，包括：

时空网格模块101，用于根据用户的手机数据与车辆数据构建时空网格，确定手机轨迹与车辆轨迹的匹配度结果；

判定模块102，用于使用多个匹配结果与未匹配过的手机数据作为样本集，映射至空间网格，统计每个网格的正样本和负样本的访问次数；根据每个网格的正样本和负样本的访问次数确定每个网格的区分度，根据区分度选择多个网格作为关键网格；将样本数据映射至关键网格，使用关键网格中的样本数据训练判定模型，得到训练好的判定模型；

综合确定模块103，用于根据判定模型和匹配度，确定用户的司机身份。

根据需要，综合确定模块还可以直接输出时空网格模得到的用户与车辆的匹配结果作为最终的用户的司机身份。

通过手机端应用能够收集到的手机数据获取人与车的关注关系，但是，如图7所示，这种信息收集面临两个困境：1、关系不完全，如用户B与车辆3的关系丢失；2、关系的性质无法确定，如用户A、B、C同时关注了车辆1，无法确定各自与该车辆的实际关系与对应身份。

而现实应用场景中，如货运司机招募、精准车货匹配等，都不同程度地需要事先判断用户的身份，甚至人车对应关系。

本申请的实施方式能够挖掘用户隐藏的众多身份中的一类，即司机身份，以及人与车的司机关系。具体方法包含两部分：第一部分(时空网格模块)是通过时间ID和空间ID联合表示时空网格，利用改进型Jaccard距离计算轨迹相似度，判定人车关系以及司机身份；第二部分(判定模块)以第一部分的输出作为依据，构建正负样本，并将其轨迹点映射到仅以空间ID表示的网格，按方差计算网格区分度并排序，筛选出top k个网格作为模型特征空间，训练模型并判断用户身份。第二部分是对第一部分的补充，可以提高整体司机身份判定的召回率。另外，由于算法第二部分没有车辆轨迹数据的参与，因此只能获得司机身份，并不能获得人车关系。

本申请的方法中，通过使用用户的手机数据与车辆数据等现有数据，构建时空网格，能够确定手机轨迹与车辆轨迹的匹配度结果；再根据匹配结果与未匹配过的手机数据作为样本集，映射至空间网格，确定每个网格的区分度，训练判定模型，根据判定模型和所述匹配度结果，确定用户的司机身份，方法简便，能够根据现有的数据对司机身份进行识别。

以上所述，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于时空网格的司机身份识别方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述根据用户的手机数据与车辆数据构建时空网格，确定手机轨迹与车辆轨迹的匹配度结果，包括：

3.如权利要求2所述的方法，其特征在于，所述根据时间阈值和空间阈值，分别对用户的手机数据和车辆数据进行时间维度和空间维度的切分，得到手机轨迹网格集合和车辆轨迹网格集合，包括：

根据时间阈值，对用户的手机数据进行时间维度的切分；

根据空间阈值，对用户的手机数据进行空间维度的切分；

根据时间阈值，对用户的车辆数据进行时间维度的切分；

根据空间阈值，对用户的车辆数据进行空间维度的切分；

4.如权利要求2所述的方法，其特征在于，所述使用改进型Jaccard距离，计算手机轨迹网格集合中的各手机轨迹网格与车辆轨迹网格集合中的各车辆轨迹网格的匹配度，包括：

5.如权利要求1所述的方法，其特征在于，所述使用多个所述匹配结果与未匹配过的手机数据作为样本集，映射至空间网格，统计每个网格的正样本和负样本的访问次数，包括：

将样本集中的用户对应的轨迹数据映射至空间网格；

6.如权利要求1所述的方法，其特征在于，所述根据每个网格的正样本和负样本的访问次数确定每个网格的区分度，根据所述区分度选择多个网格作为关键网格，包括：

7.如权利要求1所述的方法，其特征在于，所述关键网格对应的数据，包括：

8.如权利要求1所述的方法，其特征在于，所述判定模型，包括：机器学习模型。

9.如权利要求1所述的方法，其特征在于，所述网格的区分度包括：区分度和网格与正样本和负样本的相关性。

10.一种基于时空网格的司机身份识别***，其特征在于，包括：