CN109635852B

CN109635852B - 一种基于多维属性的用户画像构建与聚类方法

Info

Publication number: CN109635852B
Application number: CN201811414495.7A
Authority: CN
Inventors: 巫朝星; 张林兵; 吴行斌; 梁耀州; 杜超坎; 蔡素贤; 王金达
Original assignee: Honorsun Xiamen Data Co ltd
Current assignee: Honorsun Xiamen Data Co ltd
Priority date: 2018-11-26
Filing date: 2018-11-26
Publication date: 2021-03-23
Anticipated expiration: 2038-11-26
Also published as: CN109635852A

Abstract

本发明公开了一种基于多维属性的用户画像构建与聚类方法，包括：对原始数据进行预处理并提取驾驶员驾驶行为特征；用基于互信息的最大相关最小冗余特征选择方法筛选特征，通过驾驶员驾驶行为的相似性和网络结构分析技术将具有相似驾驶行为的驾驶员群体聚为一类，采用雷达图从不同维度对驾驶员的驾车偏好进行用户画像，最后对影响驾驶行为的因素进行分析。本发明能有效地反映出驾驶员驾车的行为偏好，能让驾驶员了解自己需要改进的驾车习惯，也能让公交公司有针对性的对驾驶员进行培训。

Description

一种基于多维属性的用户画像构建与聚类方法

技术领域

本发明涉及驾驶员行为检测技术领域，具体涉及一种基于多维属性的用户画像构建与聚类的方法。

背景技术

近年来，随着国民经济的快速增长，城市公交在缓堵保畅中发挥了巨大作用，越来越受到政府的重视和大众的欢迎。在城市交通环境中，公交车驾驶员的驾驶行为——急加速、急刹车和开快车，严重影响了行车的安全和乘客的舒适度。因此规范公交车驾驶员的驾驶行为，保证公交车的服务质量和安全，成为了重中之重。目前还缺乏一种行之行之有效的驾驶员公交车驾驶员行为检测方法。

发明内容

针对现有技术的不足，本发明旨在提供一种基于多维属性的用户画像构建与聚类的方法，通过驾驶员每趟驾驶行为的相似性和网络结构分析技术得到用户行为特征，并据此将驾驶员群体作划分，得到不同行为特征类别的驾驶员群体，并建立驾驶员画像，及时发现驾驶员的危险驾驶行为或不良驾驶习惯，从而有针对性的对驾驶员进行培训。

为了实现上述目的，本发明采用如下技术方案：

一种基于多维属性的用户画像构建与聚类方法，包括如下步骤：

S1、获取公交车中各趟完整的行车数据中描述信息的相应字段，并将每个字段的数据整理成csv文档；

S2、从步骤S1中得到的csv文档中初步提取出与驾驶行为相关的驾驶行为特征；

S3、根据步骤S2中提取得到的驾驶行为特征，根据特征概率分布情况删除区分度低的特征，筛选得到更具代表性的特征；

S4、利用基于互信息的最大相关最小冗余特征选择方法将步骤S3中筛选得到的特征进行排序，设定筛选阈值并删除平均互信息值小于所述筛选阈值的特征；将筛选之后剩下的特征按照平均互信息值的大小确定权重，即每个特征的平均互信息值设为该特征的权重值；

S5、利用步骤S4中得到每个特征的权重值对经过步骤S4中筛选之后剩下的特征进行加权并归一化；

S6、度量各趟行车数据之间的经过步骤S5加权并归一化后的驾驶行为特征的相似性；设定相似性阈值，当各趟行车数据之间的驾驶行为特征的相似性大于该相似性阈值时，建立连边；

S7、采用Fast Unfolding算法，根据每趟的行车数据之间的驾驶行为特征的相似性将每趟的驾驶行为划分到不同的类中；

S8、以雷达图的形式从驾驶不平稳性、刹车偏好性和车速偏好性三个维度对驾驶员的驾车习惯和偏好进行综合分析：

驾驶不平稳性维度包含车速标准差、加速度标准差和油门踏板百分比标准差三个特征；刹车偏好性包含电子刹车使用概率、脚刹使用概率两个特征；车速偏好性包含车速平均值、车速中位数、加速度绝对值平均值和油门踏板百分比平均值四个特征；在三个维度下对驾驶员进行综合分析时，首先将所有特征的值进行归一化处理，再将各维度所包含特征的值求和并归一化，最终得到驾驶员在三个维度下的得分，以雷达图的形式进行可视化展示。

进一步地，步骤S1中，采用CAN总线车载仪器记录公交车的行车数据。

进一步地，步骤S2中，驾驶行为特征包括车速中位数、车速标准差、车速平均值、油门踏板百分比标准差、油门踏板百分比平均值、空挡状态下的滑行概率、加速度标准差、电子刹车使用概率、脚刹使用概率、行车过程中拉手刹的概率、加速度绝对值大于2m/s²的概率、加速度平均值、车速众数、油门踏板百分比中位数、油门踏板百分比众数、电子刹车记录次数、脚刹记录次数、加速度绝对值大于2m/s²的记录次数、怠速次数占比。

进一步地，步骤S6中，对各趟行车数据之间的经过加权并归一化后的驾驶行为特征计算余弦相似度，并将余弦相似度与相似性阈值进行比较。

进一步地，步骤S7中，还包括按照下式计算Fast Unfolding算法聚类的平均分类准确率：

其中p_c为平均分类准确性，n_i为司机i行驶的总趟数，

为第C_i类中司机i的行驶趟数，

为司机i在每一类中的行驶趟数的最大值，m为司机总数。

进一步地，还包括如下步骤：

S9、驾驶员的行为画像中，驾驶员和车辆类型之间存在交叉影响，假设车辆的类型与驾驶员所属的类别在不同特征下相互独立，互不关联，对卡方值进行检验，找出受驾驶员和不同类型的车辆交叉影响显著的特征。

更进一步地，还包括如下步骤：

S10、以油耗为因变量，驾驶员的驾驶行为特征为自变量，构建多元线性回归模型，通过查看拟合回归效果，分析驾驶员的哪些驾驶行为特征能显著影响油耗变化。

本发明的有益效果在于：

通过驾驶员每趟驾驶行为的相似性和网络结构分析技术得到用户行为特征，并据此将驾驶员群体作划分，得到不同行为特征类别的驾驶员群体，并建立驾驶员画像，及时发现驾驶员的危险驾驶行为或不良驾驶习惯，从而有针对性的对驾驶员进行培训。

附图说明

图1为本发明实施例中的方法流程示意图。

具体实施方式

以下将结合附图对本发明作进一步的描述，需要说明的是，本实施例以本技术方案为前提，给出了详细的实施方式和具体的操作过程，但本发明的保护范围并不限于本实施例。

如图1所示，本实施例提供一种基于多维属性的用户画像构建与聚类方法，包括如下步骤：

具体地，可以采用CAN总线车载仪器记录公交车的行车数据。

在实际的行车数据中会包含有很多区间行驶的数据，而在本实施例方法中需要的是各趟完整的行车数据记录(即从起点至终点的行车数据)，所以在本实施例中，按照公交车全程的距离设定行程阈值来筛选每一趟的行车数据，最终得到各趟完整的行车数据。

在本实施例中，驾驶行为特征包括车速中位数、车速标准差、车速平均值、油门踏板百分比标准差、油门踏板百分比平均值、空挡状态下的滑行概率、加速度标准差、电子刹车使用概率、脚刹使用概率、行车过程中拉手刹的概率、加速度绝对值大于2m/s²的概率、加速度平均值、车速众数、油门踏板百分比中位数、油门踏板百分比众数、电子刹车记录次数、脚刹记录次数、加速度绝对值大于2m/s²的记录次数、怠速次数占比；

S3、根据步骤S2中提取得到的驾驶行为特征，根据特征概率分布情况删除区分度低的特征，筛选得到更具代表性的特征。

具体地，可以通过画出特征概率分布图并分析特征概率分布情况，根据特征概率的具体分布情况删除区分度小于设定阈值的特征，筛选得到更具代表性的特征；

S4、利用基于互信息的最大相关最小冗余特征选择方法(UmRMR模型)将步骤S3中筛选得到的特征进行排序，设定筛选阈值并删除平均互信息值小于所述筛选阈值的特征；将筛选之后剩下的特征按照平均互信息值的大小确定权重，即每个特征的平均互信息值设为该特征的权重值；

S5、对经过步骤S4中筛选之后剩下的特征进行加权并归一化，即用步骤S4中每个特征的权重值对特征进行赋权，归一化的计算公式为

其中x_i为特征i的权重值，sum(x_i)为所有特征的权重值和，x^*为特征x_i归一化后的值；

具体地，对各趟行车数据之间的经过加权并归一化后的驾驶行为特征计算余弦相似度，并将余弦相似度与相似性阈值进行比较。

S7、采用Fast Unfolding算法，根据每趟的行车数据之间驾驶行为特征的相似性将每趟的驾驶行为划分到不同的类(网络社团)中；

Fast Unfolding算法聚类的原理在于，首先将网络中的每个节点看成是一个独立的社团，慢慢将邻近的节点合并，如果合并之后整个网络的模块度提高，那么就合并，否则撤销；如此循环，直到网络的模块度无法提高为止；接着再把每个社团当成一个节点，对每个社团进行如此的合并算法，直到整个网络的模块度无法提高为止。在本实施例中，具体将每趟的行车数据看成一个节点，将不同驾驶员之间的相似性看成连边，利用FastUnfolding算法进行聚类。

在本实施例中，还按照下式计算步骤S7中Fast Unfolding算法聚类的平均分类准确率：

其中p_c为平均分类准确性，n_i为司机i行驶的总趟数，

为第C_i类中司机i的行驶趟数，

为司机i在每一类中的行驶趟数的最大值，m为司机总数。

在每一个类别中，以每趟行车数据的驾驶行为特征为分类对象，即对一个驾驶员而言，如果他的驾驶行为特征具有稳定性的话，他的每趟行驶记录都会分到同一类别中。但是，存在驾驶员行为发生变化的情况下，就会导致分到另外的类中。因此在本实施例方法中，定义了一种行为平均分类准确性指标，即如果每趟行车记录驾驶员行为都能有效分到同样的类中，表明分类准确性最高。对所有驾驶员的分类准确性做平均，得到平均分类准确性。

S8、以雷达图的形式从驾驶不平稳性、刹车偏好性和车速偏好性三个维度对驾驶员的驾车习惯和偏好进行综合分析。

具体地，驾驶不平稳性维度包含车速标准差、加速度标准差和油门踏板百分比标准差三个特征；刹车偏好性包含电子刹车使用概率、脚刹使用概率两个特征；车速偏好性包含车速平均值、车速中位数、加速度绝对值平均值和油门踏板百分比平均值四个特征。在三个维度下对驾驶员进行综合分析时，首先将所有特征的值进行归一化处理，再将各维度所包含特征的值求和并归一化，最终得到驾驶员在三个维度下的得分，以雷达图的形式进行可视化展示。

在本实施例中，通过将车型分为油耗车、电耗车以及油电混动车分布进行分析，找出不同车型中具体哪些特征显著影响油耗。

在本实施例中，步骤S1中，在整理得到的csv文档之后，还需要对csv文档进行数据清洗，所述数据清洗包括对填补缺失数据，以及检测出逻辑错误的数据；具体地，可以通过采用hot deck填补法填充缺失数据。

由于原始数据的采集密度很高，而行车数据在极短的时间内变化不明显，所以在本实施例中采用缺失值相近的数据来填充缺失值。对于检测出的异常数据，如“行车轨迹段的速度达到120km/h”，删除这些轨迹段的数据，如“电机转速达到16000r/min”，这种异常数据用空值替换并就近补齐。

在本实施例中，步骤S2中，可以结合业务需要以及实际数据情况删除车速众数、油门踏板百分比中位数、油门踏板百分比众数、电子刹车记录次数、脚刹记录次数、加速度绝对值大于2m/s²的记录次数、怠速次数占比这7个特征。

对于本领域的技术人员来说，可以根据以上的技术方案和构思，给出各种相应的改变和变形，而所有的这些改变和变形，都应该包括在本发明权利要求的保护范围之内。

Claims

1.一种基于多维属性的用户画像构建与聚类方法，其特征在于，包括如下步骤：

S7、采用Fast Unfolding算法，根据每趟的行车数据之间驾驶行为特征的相似性，将每趟的驾驶行为划分到不同的类中；

2.根据权利要求1所述的基于多维属性的用户画像构建与聚类方法，其特征在于，步骤S1中，采用CAN总线车载仪器记录公交车的行车数据。

3.根据权利要求1所述的基于多维属性的用户画像构建与聚类方法，其特征在于，步骤S2中，驾驶行为特征包括车速中位数、车速标准差、车速平均值、油门踏板百分比标准差、油门踏板百分比平均值、空挡状态下的滑行概率、加速度标准差、电子刹车使用概率、脚刹使用概率、行车过程中拉手刹的概率、加速度绝对值大于2m/s²的概率、加速度平均值、车速众数、油门踏板百分比中位数、油门踏板百分比众数、电子刹车记录次数、脚刹记录次数、加速度绝对值大于2m/s²的记录次数、怠速次数占比。

4.根据权利要求1所述的基于多维属性的用户画像构建与聚类方法，其特征在于，步骤S6中，对各趟行车数据之间的经过加权并归一化后的驾驶行为特征计算余弦相似度，并将余弦相似度与相似性阈值进行比较。

5.根据权利要求1所述的基于多维属性的用户画像构建与聚类方法，其特征在于，步骤S7中，还包括按照下式计算Fast Unfolding算法聚类的平均分类准确率：

其中p_c为平均分类准确性，n_i为司机i行驶的总趟数，

为第C_i类中司机i的行驶趟数，

为司机i在每一类中的行驶趟数的最大值，m为司机总数。

6.根据权利要求1所述的基于多维属性的用户画像构建与聚类方法，其特征在于，还包括如下步骤：

7.根据权利要求6所述的基于多维属性的用户画像构建与聚类方法，其特征在于，还包括如下步骤：