CN109635852B - 一种基于多维属性的用户画像构建与聚类方法 - Google Patents
一种基于多维属性的用户画像构建与聚类方法 Download PDFInfo
- Publication number
- CN109635852B CN109635852B CN201811414495.7A CN201811414495A CN109635852B CN 109635852 B CN109635852 B CN 109635852B CN 201811414495 A CN201811414495 A CN 201811414495A CN 109635852 B CN109635852 B CN 109635852B
- Authority
- CN
- China
- Prior art keywords
- driving
- driver
- value
- vehicle speed
- average
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明公开了一种基于多维属性的用户画像构建与聚类方法,包括:对原始数据进行预处理并提取驾驶员驾驶行为特征;用基于互信息的最大相关最小冗余特征选择方法筛选特征,通过驾驶员驾驶行为的相似性和网络结构分析技术将具有相似驾驶行为的驾驶员群体聚为一类,采用雷达图从不同维度对驾驶员的驾车偏好进行用户画像,最后对影响驾驶行为的因素进行分析。本发明能有效地反映出驾驶员驾车的行为偏好,能让驾驶员了解自己需要改进的驾车习惯,也能让公交公司有针对性的对驾驶员进行培训。
Description
技术领域
本发明涉及驾驶员行为检测技术领域,具体涉及一种基于多维属性的用户画像构建与聚类的方法。
背景技术
近年来,随着国民经济的快速增长,城市公交在缓堵保畅中发挥了巨大作用,越来越受到政府的重视和大众的欢迎。在城市交通环境中,公交车驾驶员的驾驶行为——急加速、急刹车和开快车,严重影响了行车的安全和乘客的舒适度。因此规范公交车驾驶员的驾驶行为,保证公交车的服务质量和安全,成为了重中之重。目前还缺乏一种行之行之有效的驾驶员公交车驾驶员行为检测方法。
发明内容
针对现有技术的不足,本发明旨在提供一种基于多维属性的用户画像构建与聚类的方法,通过驾驶员每趟驾驶行为的相似性和网络结构分析技术得到用户行为特征,并据此将驾驶员群体作划分,得到不同行为特征类别的驾驶员群体,并建立驾驶员画像,及时发现驾驶员的危险驾驶行为或不良驾驶习惯,从而有针对性的对驾驶员进行培训。
为了实现上述目的,本发明采用如下技术方案:
一种基于多维属性的用户画像构建与聚类方法,包括如下步骤:
S1、获取公交车中各趟完整的行车数据中描述信息的相应字段,并将每个字段的数据整理成csv文档;
S2、从步骤S1中得到的csv文档中初步提取出与驾驶行为相关的驾驶行为特征;
S3、根据步骤S2中提取得到的驾驶行为特征,根据特征概率分布情况删除区分度低的特征,筛选得到更具代表性的特征;
S4、利用基于互信息的最大相关最小冗余特征选择方法将步骤S3中筛选得到的特征进行排序,设定筛选阈值并删除平均互信息值小于所述筛选阈值的特征;将筛选之后剩下的特征按照平均互信息值的大小确定权重,即每个特征的平均互信息值设为该特征的权重值;
S5、利用步骤S4中得到每个特征的权重值对经过步骤S4中筛选之后剩下的特征进行加权并归一化;
S6、度量各趟行车数据之间的经过步骤S5加权并归一化后的驾驶行为特征的相似性;设定相似性阈值,当各趟行车数据之间的驾驶行为特征的相似性大于该相似性阈值时,建立连边;
S7、采用Fast Unfolding算法,根据每趟的行车数据之间的驾驶行为特征的相似性将每趟的驾驶行为划分到不同的类中;
S8、以雷达图的形式从驾驶不平稳性、刹车偏好性和车速偏好性三个维度对驾驶员的驾车习惯和偏好进行综合分析:
驾驶不平稳性维度包含车速标准差、加速度标准差和油门踏板百分比标准差三个特征;刹车偏好性包含电子刹车使用概率、脚刹使用概率两个特征;车速偏好性包含车速平均值、车速中位数、加速度绝对值平均值和油门踏板百分比平均值四个特征;在三个维度下对驾驶员进行综合分析时,首先将所有特征的值进行归一化处理,再将各维度所包含特征的值求和并归一化,最终得到驾驶员在三个维度下的得分,以雷达图的形式进行可视化展示。
进一步地,步骤S1中,采用CAN总线车载仪器记录公交车的行车数据。
进一步地,步骤S2中,驾驶行为特征包括车速中位数、车速标准差、车速平均值、油门踏板百分比标准差、油门踏板百分比平均值、空挡状态下的滑行概率、加速度标准差、电子刹车使用概率、脚刹使用概率、行车过程中拉手刹的概率、加速度绝对值大于2m/s2的概率、加速度平均值、车速众数、油门踏板百分比中位数、油门踏板百分比众数、电子刹车记录次数、脚刹记录次数、加速度绝对值大于2m/s2的记录次数、怠速次数占比。
进一步地,步骤S6中,对各趟行车数据之间的经过加权并归一化后的驾驶行为特征计算余弦相似度,并将余弦相似度与相似性阈值进行比较。
进一步地,步骤S7中,还包括按照下式计算Fast Unfolding算法聚类的平均分类准确率:
进一步地,还包括如下步骤:
S9、驾驶员的行为画像中,驾驶员和车辆类型之间存在交叉影响,假设车辆的类型与驾驶员所属的类别在不同特征下相互独立,互不关联,对卡方值进行检验,找出受驾驶员和不同类型的车辆交叉影响显著的特征。
更进一步地,还包括如下步骤:
S10、以油耗为因变量,驾驶员的驾驶行为特征为自变量,构建多元线性回归模型,通过查看拟合回归效果,分析驾驶员的哪些驾驶行为特征能显著影响油耗变化。
本发明的有益效果在于:
通过驾驶员每趟驾驶行为的相似性和网络结构分析技术得到用户行为特征,并据此将驾驶员群体作划分,得到不同行为特征类别的驾驶员群体,并建立驾驶员画像,及时发现驾驶员的危险驾驶行为或不良驾驶习惯,从而有针对性的对驾驶员进行培训。
附图说明
图1为本发明实施例中的方法流程示意图。
具体实施方式
以下将结合附图对本发明作进一步的描述,需要说明的是,本实施例以本技术方案为前提,给出了详细的实施方式和具体的操作过程,但本发明的保护范围并不限于本实施例。
如图1所示,本实施例提供一种基于多维属性的用户画像构建与聚类方法,包括如下步骤:
S1、获取公交车中各趟完整的行车数据中描述信息的相应字段,并将每个字段的数据整理成csv文档;
具体地,可以采用CAN总线车载仪器记录公交车的行车数据。
在实际的行车数据中会包含有很多区间行驶的数据,而在本实施例方法中需要的是各趟完整的行车数据记录(即从起点至终点的行车数据),所以在本实施例中,按照公交车全程的距离设定行程阈值来筛选每一趟的行车数据,最终得到各趟完整的行车数据。
S2、从步骤S1中得到的csv文档中初步提取出与驾驶行为相关的驾驶行为特征;
在本实施例中,驾驶行为特征包括车速中位数、车速标准差、车速平均值、油门踏板百分比标准差、油门踏板百分比平均值、空挡状态下的滑行概率、加速度标准差、电子刹车使用概率、脚刹使用概率、行车过程中拉手刹的概率、加速度绝对值大于2m/s2的概率、加速度平均值、车速众数、油门踏板百分比中位数、油门踏板百分比众数、电子刹车记录次数、脚刹记录次数、加速度绝对值大于2m/s2的记录次数、怠速次数占比;
S3、根据步骤S2中提取得到的驾驶行为特征,根据特征概率分布情况删除区分度低的特征,筛选得到更具代表性的特征。
具体地,可以通过画出特征概率分布图并分析特征概率分布情况,根据特征概率的具体分布情况删除区分度小于设定阈值的特征,筛选得到更具代表性的特征;
S4、利用基于互信息的最大相关最小冗余特征选择方法(UmRMR模型)将步骤S3中筛选得到的特征进行排序,设定筛选阈值并删除平均互信息值小于所述筛选阈值的特征;将筛选之后剩下的特征按照平均互信息值的大小确定权重,即每个特征的平均互信息值设为该特征的权重值;
S5、对经过步骤S4中筛选之后剩下的特征进行加权并归一化,即用步骤S4中每个特征的权重值对特征进行赋权,归一化的计算公式为其中xi为特征i的权重值,sum(xi)为所有特征的权重值和,x*为特征xi归一化后的值;
S6、度量各趟行车数据之间的经过步骤S5加权并归一化后的驾驶行为特征的相似性;设定相似性阈值,当各趟行车数据之间的驾驶行为特征的相似性大于该相似性阈值时,建立连边;
具体地,对各趟行车数据之间的经过加权并归一化后的驾驶行为特征计算余弦相似度,并将余弦相似度与相似性阈值进行比较。
S7、采用Fast Unfolding算法,根据每趟的行车数据之间驾驶行为特征的相似性将每趟的驾驶行为划分到不同的类(网络社团)中;
Fast Unfolding算法聚类的原理在于,首先将网络中的每个节点看成是一个独立的社团,慢慢将邻近的节点合并,如果合并之后整个网络的模块度提高,那么就合并,否则撤销;如此循环,直到网络的模块度无法提高为止;接着再把每个社团当成一个节点,对每个社团进行如此的合并算法,直到整个网络的模块度无法提高为止。在本实施例中,具体将每趟的行车数据看成一个节点,将不同驾驶员之间的相似性看成连边,利用FastUnfolding算法进行聚类。
在本实施例中,还按照下式计算步骤S7中Fast Unfolding算法聚类的平均分类准确率:
在每一个类别中,以每趟行车数据的驾驶行为特征为分类对象,即对一个驾驶员而言,如果他的驾驶行为特征具有稳定性的话,他的每趟行驶记录都会分到同一类别中。但是,存在驾驶员行为发生变化的情况下,就会导致分到另外的类中。因此在本实施例方法中,定义了一种行为平均分类准确性指标,即如果每趟行车记录驾驶员行为都能有效分到同样的类中,表明分类准确性最高。对所有驾驶员的分类准确性做平均,得到平均分类准确性。
S8、以雷达图的形式从驾驶不平稳性、刹车偏好性和车速偏好性三个维度对驾驶员的驾车习惯和偏好进行综合分析。
具体地,驾驶不平稳性维度包含车速标准差、加速度标准差和油门踏板百分比标准差三个特征;刹车偏好性包含电子刹车使用概率、脚刹使用概率两个特征;车速偏好性包含车速平均值、车速中位数、加速度绝对值平均值和油门踏板百分比平均值四个特征。在三个维度下对驾驶员进行综合分析时,首先将所有特征的值进行归一化处理,再将各维度所包含特征的值求和并归一化,最终得到驾驶员在三个维度下的得分,以雷达图的形式进行可视化展示。
S9、驾驶员的行为画像中,驾驶员和车辆类型之间存在交叉影响,假设车辆的类型与驾驶员所属的类别在不同特征下相互独立,互不关联,对卡方值进行检验,找出受驾驶员和不同类型的车辆交叉影响显著的特征。
S10、以油耗为因变量,驾驶员的驾驶行为特征为自变量,构建多元线性回归模型,通过查看拟合回归效果,分析驾驶员的哪些驾驶行为特征能显著影响油耗变化。
在本实施例中,通过将车型分为油耗车、电耗车以及油电混动车分布进行分析,找出不同车型中具体哪些特征显著影响油耗。
在本实施例中,步骤S1中,在整理得到的csv文档之后,还需要对csv文档进行数据清洗,所述数据清洗包括对填补缺失数据,以及检测出逻辑错误的数据;具体地,可以通过采用hot deck填补法填充缺失数据。
由于原始数据的采集密度很高,而行车数据在极短的时间内变化不明显,所以在本实施例中采用缺失值相近的数据来填充缺失值。对于检测出的异常数据,如“行车轨迹段的速度达到120km/h”,删除这些轨迹段的数据,如“电机转速达到16000r/min”,这种异常数据用空值替换并就近补齐。
在本实施例中,步骤S2中,可以结合业务需要以及实际数据情况删除车速众数、油门踏板百分比中位数、油门踏板百分比众数、电子刹车记录次数、脚刹记录次数、加速度绝对值大于2m/s2的记录次数、怠速次数占比这7个特征。
对于本领域的技术人员来说,可以根据以上的技术方案和构思,给出各种相应的改变和变形,而所有的这些改变和变形,都应该包括在本发明权利要求的保护范围之内。
Claims (7)
1.一种基于多维属性的用户画像构建与聚类方法,其特征在于,包括如下步骤:
S1、获取公交车中各趟完整的行车数据中描述信息的相应字段,并将每个字段的数据整理成csv文档;
S2、从步骤S1中得到的csv文档中初步提取出与驾驶行为相关的驾驶行为特征;
S3、根据步骤S2中提取得到的驾驶行为特征,根据特征概率分布情况删除区分度低的特征,筛选得到更具代表性的特征;
S4、利用基于互信息的最大相关最小冗余特征选择方法将步骤S3中筛选得到的特征进行排序,设定筛选阈值并删除平均互信息值小于所述筛选阈值的特征;将筛选之后剩下的特征按照平均互信息值的大小确定权重,即每个特征的平均互信息值设为该特征的权重值;
S5、利用步骤S4中得到每个特征的权重值对经过步骤S4中筛选之后剩下的特征进行加权并归一化;
S6、度量各趟行车数据之间的经过步骤S5加权并归一化后的驾驶行为特征的相似性;设定相似性阈值,当各趟行车数据之间的驾驶行为特征的相似性大于该相似性阈值时,建立连边;
S7、采用Fast Unfolding算法,根据每趟的行车数据之间驾驶行为特征的相似性,将每趟的驾驶行为划分到不同的类中;
S8、以雷达图的形式从驾驶不平稳性、刹车偏好性和车速偏好性三个维度对驾驶员的驾车习惯和偏好进行综合分析:
驾驶不平稳性维度包含车速标准差、加速度标准差和油门踏板百分比标准差三个特征;刹车偏好性包含电子刹车使用概率、脚刹使用概率两个特征;车速偏好性包含车速平均值、车速中位数、加速度绝对值平均值和油门踏板百分比平均值四个特征;在三个维度下对驾驶员进行综合分析时,首先将所有特征的值进行归一化处理,再将各维度所包含特征的值求和并归一化,最终得到驾驶员在三个维度下的得分,以雷达图的形式进行可视化展示。
2.根据权利要求1所述的基于多维属性的用户画像构建与聚类方法,其特征在于,步骤S1中,采用CAN总线车载仪器记录公交车的行车数据。
3.根据权利要求1所述的基于多维属性的用户画像构建与聚类方法,其特征在于,步骤S2中,驾驶行为特征包括车速中位数、车速标准差、车速平均值、油门踏板百分比标准差、油门踏板百分比平均值、空挡状态下的滑行概率、加速度标准差、电子刹车使用概率、脚刹使用概率、行车过程中拉手刹的概率、加速度绝对值大于2m/s2的概率、加速度平均值、车速众数、油门踏板百分比中位数、油门踏板百分比众数、电子刹车记录次数、脚刹记录次数、加速度绝对值大于2m/s2的记录次数、怠速次数占比。
4.根据权利要求1所述的基于多维属性的用户画像构建与聚类方法,其特征在于,步骤S6中,对各趟行车数据之间的经过加权并归一化后的驾驶行为特征计算余弦相似度,并将余弦相似度与相似性阈值进行比较。
6.根据权利要求1所述的基于多维属性的用户画像构建与聚类方法,其特征在于,还包括如下步骤:
S9、驾驶员的行为画像中,驾驶员和车辆类型之间存在交叉影响,假设车辆的类型与驾驶员所属的类别在不同特征下相互独立,互不关联,对卡方值进行检验,找出受驾驶员和不同类型的车辆交叉影响显著的特征。
7.根据权利要求6所述的基于多维属性的用户画像构建与聚类方法,其特征在于,还包括如下步骤:
S10、以油耗为因变量,驾驶员的驾驶行为特征为自变量,构建多元线性回归模型,通过查看拟合回归效果,分析驾驶员的哪些驾驶行为特征能显著影响油耗变化。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811414495.7A CN109635852B (zh) | 2018-11-26 | 2018-11-26 | 一种基于多维属性的用户画像构建与聚类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811414495.7A CN109635852B (zh) | 2018-11-26 | 2018-11-26 | 一种基于多维属性的用户画像构建与聚类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109635852A CN109635852A (zh) | 2019-04-16 |
CN109635852B true CN109635852B (zh) | 2021-03-23 |
Family
ID=66069138
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811414495.7A Active CN109635852B (zh) | 2018-11-26 | 2018-11-26 | 一种基于多维属性的用户画像构建与聚类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109635852B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110097287B (zh) * | 2019-05-07 | 2021-06-22 | 宏图物流股份有限公司 | 一种物流司机的群体画像方法 |
CN110837587B (zh) * | 2019-09-30 | 2023-05-23 | 北京水滴科技集团有限公司 | 一种基于机器学习的数据匹配方法和*** |
CN110807052B (zh) * | 2019-11-05 | 2022-08-02 | 佳都科技集团股份有限公司 | 用户群分类方法、装置、设备及存储介质 |
CN111582563B (zh) * | 2020-04-24 | 2023-04-25 | 中山大学 | 一种个体行程时间短期预测方法、***、装置及存储介质 |
CN112396118A (zh) * | 2020-11-25 | 2021-02-23 | 浙江天行健智能科技有限公司 | 一种基于gm-hmm的驾驶员加速意图建模方法 |
CN113033651A (zh) * | 2021-03-22 | 2021-06-25 | 上海仙塔智能科技有限公司 | 一种提高驾驶安全性的方法和装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107480936A (zh) * | 2017-07-11 | 2017-12-15 | 杭州电子科技大学 | 一种基于科研成果数据的人才能力刻画方法 |
CN107729951A (zh) * | 2017-11-14 | 2018-02-23 | 吉林大学 | 一种考虑道路与环境特征的驾驶员行为分析装置及方法 |
CN108229304A (zh) * | 2017-11-17 | 2018-06-29 | 清华大学 | 一种***化的基于聚类思想的驾驶行为识别方法 |
CN108875795A (zh) * | 2018-05-28 | 2018-11-23 | 哈尔滨工程大学 | 一种基于Relief和互信息的特征选择算法 |
-
2018
- 2018-11-26 CN CN201811414495.7A patent/CN109635852B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107480936A (zh) * | 2017-07-11 | 2017-12-15 | 杭州电子科技大学 | 一种基于科研成果数据的人才能力刻画方法 |
CN107729951A (zh) * | 2017-11-14 | 2018-02-23 | 吉林大学 | 一种考虑道路与环境特征的驾驶员行为分析装置及方法 |
CN108229304A (zh) * | 2017-11-17 | 2018-06-29 | 清华大学 | 一种***化的基于聚类思想的驾驶行为识别方法 |
CN108875795A (zh) * | 2018-05-28 | 2018-11-23 | 哈尔滨工程大学 | 一种基于Relief和互信息的特征选择算法 |
Non-Patent Citations (3)
Title |
---|
A Two-Step Segmentation Algorithm for Behavioral Clustering of Naturalistic Driving Styles;Bryan Higgs 等;《Proceedings of the 16th International IEEE Annual Conference on Intelligent Transportation Systems (ITSC 2013)》;20140130;全文 * |
基于车联网数据挖掘的营运车辆驾驶速度行为聚类研究;孙川 等;《交通运输***工程与信息》;20151231;全文 * |
集团专车驾驶行为分析研究;徐国功;《中国优秀硕士学位论文全文数据库 信息科技辑》;20170815;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN109635852A (zh) | 2019-04-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109635852B (zh) | 一种基于多维属性的用户画像构建与聚类方法 | |
CN109033332B (zh) | 驾驶行为分析方法、介质及*** | |
CN109117869B (zh) | 用户画像方法、介质及*** | |
Chen et al. | A graphical modeling method for individual driving behavior and its application in driving safety analysis using GPS data | |
DE112009002674B4 (de) | Navigationsvorrichtung | |
CN110197588A (zh) | 一种基于gps轨迹数据的大货车驾驶行为评估方法及装置 | |
CN111461185A (zh) | 一种基于改进K-means的驾驶行为分析方法 | |
CN106314438A (zh) | 一种司机驾驶轨迹中异常轨迹的检测方法和*** | |
CN110929939B (zh) | 一种基于聚类-信息量耦合模型下的滑坡灾害易发性空间预测方法 | |
CN109408557B (zh) | 一种基于多重对应和K-means聚类的交通事故成因分析方法 | |
CN110304068B (zh) | 汽车行驶环境信息的采集方法、装置、设备和存储介质 | |
CN105809193B (zh) | 一种基于kmeans算法的非法运营车辆的识别方法 | |
CN110084534B (zh) | 一种基于驾驶行为画像的驾驶风险因子量化方法 | |
CN108769104B (zh) | 一种基于车载诊断***数据的路况分析预警方法 | |
CN111688713A (zh) | 驾驶行为分析方法和装置 | |
CN109886724B (zh) | 一种鲁棒性的居民出行轨迹识别方法 | |
CN110562261B (zh) | 一种基于马尔可夫模型检测驾驶员风险等级的方法 | |
CN114299742B (zh) | 一种高速公路的限速信息动态识别与更新推荐方法 | |
CN109598931A (zh) | 基于交通安全风险的群体划分与差异性分析方法及*** | |
CN113581188A (zh) | 一种基于车联网数据的商用车驾驶员驾驶风格识别方法 | |
CN114926299A (zh) | 一种基于大数据分析的预测车辆事故风险预测方法 | |
CN113095387B (zh) | 基于联网车载adas的道路风险识别方法 | |
CN114048798A (zh) | 基于改进降噪自编码器的汽车行驶工况构建方法 | |
CN109849926B (zh) | 一种辨别出租车是否交予他人驾驶的方法及*** | |
Van Hinsbergh et al. | Vehicle point of interest detection using in-car data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |