CN115221234A - 一种基于动力总成数据对用户进行画像的方法及*** - Google Patents
一种基于动力总成数据对用户进行画像的方法及*** Download PDFInfo
- Publication number
- CN115221234A CN115221234A CN202110938111.7A CN202110938111A CN115221234A CN 115221234 A CN115221234 A CN 115221234A CN 202110938111 A CN202110938111 A CN 202110938111A CN 115221234 A CN115221234 A CN 115221234A
- Authority
- CN
- China
- Prior art keywords
- vehicle
- driving
- distribution
- data
- driver
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/26—Visual data mining; Browsing structured data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/258—Data format conversion from or to a database
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0203—Market surveys; Market polls
-
- G—PHYSICS
- G07—CHECKING-DEVICES
- G07C—TIME OR ATTENDANCE REGISTERS; REGISTERING OR INDICATING THE WORKING OF MACHINES; GENERATING RANDOM NUMBERS; VOTING OR LOTTERY APPARATUS; ARRANGEMENTS, SYSTEMS OR APPARATUS FOR CHECKING NOT PROVIDED FOR ELSEWHERE
- G07C5/00—Registering or indicating the working of vehicles
- G07C5/08—Registering or indicating performance data other than driving, working, idle, or waiting time, with or without registering driving, working, idle or waiting time
- G07C5/0841—Registering performance data
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Accounting & Taxation (AREA)
- General Engineering & Computer Science (AREA)
- Development Economics (AREA)
- Finance (AREA)
- Strategic Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Economics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Quality & Reliability (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明提供一种基于动力总成数据的用户画像方法,其包括步骤:步骤S10,获得一种车型的多辆车辆的动力总成数据,并对所述数据进行预处理;步骤S11,根据预处理后的动力总成数据,提取车辆的用户画像的刻画指标;步骤S12,利用聚类算法对所述动力总成数据进行自动聚类处理,获得多个聚类结果分组,并把每一车辆归入到对应的聚类结果分组中;步骤S13,获取每个聚类结果分组内的车辆信息,并对所述聚类结果分组中的每一车辆按照所述刻画指标进行用户画像处理;步骤S14,显示每一聚类结果分组中车辆的画像结果。本发明还公开了相应的***。实施本发明,提高了用户画像的准确性以及丰富性。
Description
技术领域
本发明涉及大数据处理技术领域,特别是涉及一种基于动力总成数据对用户进行画像的方法及***。
背景技术
随着车联网的发展及大数据技术应用日益成熟,大数据作为战略资产越来越受到各车企重视。相关领域,国内外对于车联网数据的使用主要集中在使用车联网数据对不良驾驶行为的识别和预警,以及驾驶行为的经济性研究,而在基于车联网时空数据对用户各种行为进行深度挖掘的工作才刚刚起步。
同时,通过对车联网大数据进行用户画像渐渐成为一种研究课题。用户画像是一种勾画目标用户、联系用户诉求与设计方向的有效工具。用户画像是一种能将定性与定量方法很好结合在一起的载体,通过定量化的前期调研能获得一个对于用户群较为精准的认识,在后期的用户角色的建立中能很好地对用户优先顺序进行排序,将核心的、规模较大的用户着重突出出来。
而目前对车联网数据进行用户画像存在一些不足之处,其数据来源较为单一且分类不明确,造成数据分析与挖掘效率和准确率较低,且识别出的用户画像效果不佳。
发明内容
本发明所要解决的技术问题在于,提供一种基于动力总成数据对用户进行画像的方法及***,可以对用户进行分类,显示每一组内车辆的动力性、经济性、驾驶性、安全性指标信息,提高了用户画像的准确性以及丰富性。
为解决上述技术问题,作为本发明的一方面提供一种基于动力总成数据的用户画像方法,其包括如下步骤:
步骤S10,获得一种车型的多辆车辆的动力总成数据,并对所述数据进行预处理,所述预处理至少包括为每一动力总成数据关联位置环境信息;
步骤S11,根据预处理后的动力总成数据,提取车辆的用户画像的刻画指标;
步骤S12,利用聚类算法对所述动力总成数据进行自动聚类处理,获得多个聚类结果分组,并把每一车辆归入到对应的聚类结果分组中;
步骤S13,获取每个聚类结果分组内的车辆信息,并对所述聚类结果分组中的每一车辆按照所述刻画指标进行用户画像处理;所述用户画像处理至少包括获得每一车辆的驾驶员的驾驶综合评分信息;
步骤S14,显示每一聚类结果分组中车辆的画像结果。
其中,在所述步骤S10中,对所述数据进行预处理进一步包括:
对所述动力总成数据进行数据清洗和转换处理,并将数据结果存入相应的数据库;其中,所述数据清洗处理为按照预定规则过滤掉异常数据;所述数据转换处理包括:对采集频率较低的信号进行前向填充和后向填充;对每辆车每天的数据进行聚合;以及根据聚合后的数据调用地图服务软件接口为每一车辆的动力总成数据关联位置环境信息标记,所述位置环境信息标记包括:区域、天气、海拔、地理环境标记。
其中,所述步骤S11进一步包括:
采用Apache Spark***对所述已进行预处理的动力总成数据进行提取,以根据所述动力总成数据中的属性特征信息提取车辆的用户画像的刻画指标,所述刻画指标至少包括动力性、经济性、驾驶性、安全性刻画指标。
其中,所述步骤S12进一步包括:
从驾驶性刻画指标中获得驾驶员对应的驾驶行为分类指标,并按驾驶员分组获取驾驶行为分类指标对应的特征向量的均值,获得驾驶员特征向量矩阵X,所述向量矩阵X为包含n*d个元素的矩阵;其中,n为驾驶员数量,d为每个驾驶员所包含的特征向量的数量;
对特征向量矩阵X进行归一化,使得每一维特征都在同一尺度;
对归一化后的特征向量矩阵X应用聚类算法,利用误差平方和和肘部法则确定最优的聚类数目;
利用归一化后的特征向量矩阵X训练聚类算法,获得所述聚类数目的聚类结果分组,并获得每一车辆的驾驶员所对应特征向量所属的聚类结果分组类别;
输出每个类别对应的典型指标特征,以及每个驾驶员所对应的车辆识别代号及其聚类结果分组类别标签。
其中,所述步骤S13中进一步包括:
获取所有驾驶员指标,并将每一驾驶员按行程分组取各特征的均值,得到驾驶行程特征向量矩阵Z;所述向量矩阵Z为包含m*d个元素的矩阵;其中,m为行程数量,d为每个行程所包含的特征向量的数量;
将所述驾驶员所有组行程得分计算平均值,获得所述驾驶员的驾驶综合评分。
其中,所述步骤S13进一步包括:
展示车辆基本信息、行程统计信息、相关参数分布以及驾驶行为评价,其中,展示指标有:车辆识别代号、驾驶综合评分、驾驶类型、总行驶里程、总能耗、百公里能耗、平均车速、总运行时长。
其中:所述车辆动力性刻画指标包括:驾驶行为油耗排名、三急与油耗关系、车速控制与油耗关系;表显平均油耗的分布、表显平均油耗的季节性分布及均值、表显平均油耗的区域均值;不同驾驶模式下表显平均油耗分布及均值、发动机不同运行区域油耗均值;车辆不同车速下的平均油耗、车辆不同车速、不同油耗占比、不同平均加速度区间的平均油耗分布、不同平均油门区间的平均油耗分布、不同平均油门变化率区间的平均油耗分布、不同平均油门变化率区间不同油耗的占比、车辆不同行驶车速、档位下的平均油耗分布;车辆开关空调占比、不同环境温度下车辆开关空调占比、车辆开关空调下的平均油耗分布;怠速瞬时喷油量分布、不同怠速时长占比;
所述车辆经济性刻画指标包括:起始油门分布、起始档位分布、起始车速分布;车辆不同车速、不同油耗占比;发动机不同运行区域油耗均值分布;发动机进气温度分布、发动机进气温度的逐月分布、发动机进气温度的地理分布;发动机水温分布、发动机水温的逐月分布、发动机水温的地理分布;油门踏板变化率分布、起始油门及油门变化率分布;用户载重分布、用户道路典型载重分布;用户起步/启停/驻停次数分布;各档位次数分布、各档位下转速/行驶里程/滑行里程;各档位各转速下旋转圈数、各档位各扭矩下旋转圈数、各档各扭矩下最大输入转速;
所述车辆安全性刻画指标包括:外部环境以及驾驶行为;其中,所述外部环境包括气候以及路况;驾驶行为包括不良驾驶行为、驾驶平稳性以及车辆载重。
作为本发明的另一方面,提供一种基于动力总成数据的用户画像***,其包括:
预处理单元,用于获得一种车型的多辆车辆的动力总成数据,并对所述数据进行预处理,所述预处理至少包括为每一动力总成数据关联位置环境信息;
刻画指标获取单元,用于根据预处理后的动力总成数据,提取车辆的用户画像的刻画指标;
聚类处理单元,用于利用聚类算法对所述动力总成数据进行自动聚类处理,获得多个聚类结果分组,并把每一车辆归入到对应的聚类结果分组中;
画像处理单元,用于获取每个聚类结果分组内的车辆信息,并对所述聚类结果分组中的每一车辆按照所述刻画指标进行用户画像处理;所述用户画像处理至少包括获得每一车辆的驾驶员的驾驶综合评分信息;
画像结果显示单元,用于显示每一聚类结果分组中车辆的画像结果。
其中,所述聚类处理单元进一步包括:
驾驶员特征向量矩阵获取单元,用于从驾驶性刻画指标中获得驾驶员对应的驾驶行为分类指标,并按驾驶员分组获取驾驶行为分类指标对应的特征向量的均值,获得驾驶员特征向量矩阵X,所述向量矩阵X为包含n*d个元素的矩阵;其中,n为驾驶员数量,d为每个驾驶员所包含的特征向量的数量;
第一归一化处理单元,用于对特征向量矩阵X进行归一化,使得每一维特征都在同一尺度;
聚类数目确定单元,用于对归一化后的特征向量矩阵X应用聚类算法,利用误差平方和和肘部法则确定最优的聚类数目;
聚类训练单元,用于利用归一化后的特征向量矩阵X训练聚类算法,获得所述聚类数目的聚类结果分组,并获得每一车辆的驾驶员所对应特征向量所属的聚类结果分组类别;
聚类结果输出单元,用于输出每个类别对应的典型指标特征,以及每个驾驶员所对应的车辆识别代号及其聚类结果分组类别标签。
其中,所述画像处理单元进一步包括:
行程特征向量矩阵获取单元,用于获取所有驾驶员指标,并将每一驾驶员按行程分组取各特征的均值,得到驾驶行程特征向量矩阵Z;所述向量矩阵Z为包含m*d个元素的矩阵;其中,m为行程数量,d为每个行程所包含的特征向量的数量;
驾驶综合评分区获得单元,用于将所述驾驶员所有组行程得分计算平均值,获得所述驾驶员的驾驶综合评分。
实施本发明实施例,具有如下的有益效果:
本发明实施例提供一种基于动力总成数据的用户画像方法及***。通过对动力总成大数据进行预处理,然后利用Apache Spark提取车辆的动力性、经济性、驾驶性、安全性等刻画指标;并采用聚类算法对用户进行分类,并对每一类分组中的车辆进行用户画像,找出每组类的用户特征。可以发现不同的用户群,并且它通过对不同的用户群的特征的刻画,被用于研究用户驾驶行为,寻找新的潜在市场;
在本发明实施例中,通过刻画每一组用户的动力、经济、安全驾驶特性,有效辅助进行车辆的动力总成的设计开发,同时提高了对动力总成数据进行用户画像的准确性以及丰富性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,根据这些附图获得其他的附图仍属于本发明的范畴。
图1为本发明提供的一种基于动力总成数据对用户进行画像的方法的一个实施例中的主流程示意图;
图2为本发明提供的一种基于动力总成数据对用户进行画像的***的一个实施例的结构示意图;
图3为图2中的聚类处理单元的结构示意图;
图4为图2中的画像处理单元的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述。
如图1所示,示出了本发明提供一种基于动力总成数据的用户画像方法一个实施例的主流程示意图,在本实施例中,所述方法包括如下步骤:
步骤S10,获得一种车型的多辆车辆的动力总成数据,并对所述数据进行预处理,所述预处理至少包括为每一动力总成数据关联位置环境信息;
具体的,其中动力总成数据可以是诸如车辆的行驶轨迹、发动机启动与关闭时间、发动机温度、发动机转速、节气门开度、怠速时间长短、发动机持续工作小时、电瓶电压、是否开空调、变速箱档位信息、变速箱换挡模式、车辆的行驶速度等信息,这些数据可以通过各车辆上的车载的TBOX按一定的采集率进行实时收集汇总;可以理解的是,在其他的实施例中,也可采用其他的方式进行采集,例如通过其他车联网APP进行采集;
在一个具体的例子中,对所述数据进行预处理进一步包括:
对所述动力总成数据进行数据清洗和转换处理,并将数据结果存入相应的数据库;其中,所述数据清洗处理为按照预定规则过滤掉异常数据(如信号值超出正常范围的及跳变太大的异常速度、异常里程等数据);所述数据转换处理包括:对采集频率较低的信号进行前向填充和后向填充;对每辆车每天的数据进行聚合;以及根据聚合后的数据调用地图服务软件(如高德软件)接口为每一车辆的动力总成数据关联位置环境信息标记,所述位置环境信息标记包括:区域、天气、海拔、地理环境标记。
步骤S11,根据预处理后的动力总成数据,提取车辆的用户画像的刻画指标;
在一个具体的例子中,所述步骤S11进一步包括:
采用Apache Spark***(一种大数据处理***)对所述已进行预处理的动力总成数据进行提取,以根据所述动力总成数据中的属性特征信息提取车辆的用户画像的刻画指标,所述刻画指标至少包括动力性、经济性、驾驶性、安全性刻画指标。
其中,动力总成数据中的属性特征信息可以如下表所示:
表1、动力总成数据中的属性特征信息表
人口属性 | 地域分布 |
行为属性 | 时间段、里程、频次、时长、行驶路径 |
驾驶行为属性 | 急加速、急减速、急转弯、疲劳驾驶、经济速度行驶 |
行为场景 | 通勤、周末出游、营运、接送子女 |
...... | ...... |
在一些具体的例子中,所述车辆动力性刻画指标包括:驾驶行为油耗排名、三急与油耗关系、车速控制与油耗关系;表显平均油耗的分布、表显平均油耗的季节性分布及均值、表显平均油耗的区域均值;不同驾驶模式下表显平均油耗分布及均值、发动机不同运行区域油耗均值;车辆不同车速下的平均油耗、车辆不同车速、不同油耗占比、不同平均加速度区间的平均油耗分布、不同平均油门区间的平均油耗分布、不同平均油门变化率区间的平均油耗分布、不同平均油门变化率区间不同油耗的占比、车辆不同行驶车速、档位下的平均油耗分布;车辆开关空调占比、不同环境温度下车辆开关空调占比、车辆开关空调下的平均油耗分布;怠速瞬时喷油量分布、不同怠速时长占比;
所述车辆经济性刻画指标包括:起始油门分布、起始档位分布、起始车速分布;车辆不同车速、不同油耗占比;发动机不同运行区域油耗均值分布;发动机进气温度分布、发动机进气温度的逐月分布、发动机进气温度的地理分布;发动机水温分布、发动机水温的逐月分布、发动机水温的地理分布;油门踏板变化率分布、起始油门及油门变化率分布;用户载重分布、用户道路典型载重分布;用户起步/启停/驻停次数分布;各档位次数分布、各档位下转速/行驶里程/滑行里程;各档位各转速下旋转圈数、各档位各扭矩下旋转圈数、各档各扭矩下最大输入转速;
所述车辆安全性刻画指标包括:外部环境以及驾驶行为;其中,所述外部环境包括气候以及路况,其中气候又可以细分为雨天、雪天、雾天等,路况又可细分为早晚高峰、拥堵路况、夜间行驶、崎岖路况等;驾驶行为包括不良驾驶行为、驾驶平稳性以及车辆载重,其中不良驾驶行为又可以细分为急加速、急刹车、急减速、疲劳驾驶、非经济速度区间行驶等,驾驶平稳性又可以细分为起步稳、转向稳、加速稳、停车稳等;
所述车辆驾驶性刻画指标包括:平均车速排名、平均加速度分布、踏板行程均值、踏板变化率分类分布、档位分布、滑行分布、换挡排名、踏板特性图(pedal map)分布、驾驶模式分布、刹车踏板位置排名、平均油耗排名等。
步骤S12,利用聚类算法对所述动力总成数据进行自动聚类处理,获得多个聚类结果分组,并把每一车辆归入到对应的聚类结果分组中;
在一个具体的例子中,所述步骤S12进一步包括:
从所述动力总成数据中从驾驶性刻画指标中获得驾驶员对应的驾驶行为分类指标,并按驾驶员分组获取驾驶行为分类指标对应的特征向量的均值,所述驾驶行为分类指标可以是诸如:驾驶员驾驶行为分类指标:平均车速、平均加速度、踏板行程、踏板变化率分类、档位、滑行、换挡、踏板特性图、驾驶模式、刹车踏板位置、平均油耗等;
并按驾驶员分组取各特征的均值,获得驾驶员特征向量矩阵X,所述向量矩阵X为包含n*d个元素的矩阵;其中,n为驾驶员数量,d为每个驾驶员所包含的特征向量的数量;
对特征向量矩阵X进行归一化,使得每一维特征都在同一尺度,例如使特征向量矩阵X中的每个元素处于0至1之间;
对归一化后的特征向量矩阵X应用聚类算法,利用误差平方和和肘部法则确定最优的聚类数目;具体地,可以采用Gmeans或其他算法来自动确定聚类个数;
利用归一化后的特征向量矩阵X训练聚类算法,获得所述聚类数目的聚类结果分组,并获得每一车辆的驾驶员所对应特征向量所属的聚类结果分组类别;在具体的例子中,所述聚类算法可以是诸如Fast Unfolding聚类算法、K-means聚类算法或高斯混合算法等;
输出每个类别对应的典型指标特征,以及每个驾驶员所对应的车辆识别代号及其聚类结果分组类别标签。
步骤S13,获取每个聚类结果分组内的车辆信息,并对所述聚类结果分组中的每一车辆按照所述刻画指标进行用户画像处理;所述用户画像处理至少包括获得每一车辆的驾驶员的驾驶综合评分信息;
具体地,在一个例子中,所述步骤S13中进一步包括:
获取所有驾驶员指标,并将每一驾驶员按行程分组取各特征的均值,得到驾驶行程特征向量矩阵Z;所述向量矩阵Z为包含m*d个元素的矩阵;其中,m为行程数量,d为每个行程所包含的特征向量的数量;
将所述驾驶员所有组行程得分计算平均值,获得所述驾驶员的驾驶综合评分。采用类似的方法,可以获得同一聚类结果分组中每一驾驶员的驾驶综合评分。
其中,所述步骤S13进一步包括:
展示车辆基本信息、行程统计信息、相关参数分布以及驾驶行为评价,其中,展示指标有:车辆识别代号VIN、驾驶综合评分、驾驶类型、总行驶里程、总能耗、百公里能耗、平均车速、总运行时长。
步骤S14,显示每一聚类结果分组中车辆的画像结果。
可以理解的是,在具体的例子中,可以选择性地显示上述动力性、经济性、驾驶性、安全性刻画指标中一部分所对应的画像结果。
如图2所示,示出了本发明提供的一种基于动力总成数据的用户画像***1的一个实施例的结构示意图。一并结合图3和图4所示,在本实施例中,所述***1包括:
预处理单元10,用于获得一种车型的多辆车辆的动力总成数据,并对所述数据进行预处理,所述预处理至少包括为每一动力总成数据关联位置环境信息;
刻画指标获取单元11,用于根据预处理后的动力总成数据,提取车辆的用户画像的刻画指标;
聚类处理单元12,用于利用聚类算法对所述动力总成数据进行自动聚类处理,获得多个聚类结果分组,并把每一车辆归入到对应的聚类结果分组中;
画像处理单元13,用于获取每个聚类结果分组内的车辆信息,并对所述聚类结果分组中的每一车辆按照所述刻画指标进行用户画像处理;所述用户画像处理至少包括获得每一车辆的驾驶员的驾驶综合评分信息;
画像结果显示单元14,用于显示每一聚类结果分组中车辆的画像结果。
如图3所示,所述聚类处理单元12进一步包括:
驾驶员特征向量矩阵获取单元120,用于从驾驶性刻画指标中获得驾驶员对应的驾驶行为分类指标,并按驾驶员分组获取驾驶行为分类指标对应的特征向量的均值,获得驾驶员特征向量矩阵X,所述向量矩阵X为包含n*d个元素的矩阵;其中,n为驾驶员数量,d为每个驾驶员所包含的特征向量的数量;
第一归一化处理单元121,用于对特征向量矩阵X进行归一化,使得每一维特征都在同一尺度;
聚类数目确定单元122,用于对归一化后的特征向量矩阵X应用聚类算法,利用误差平方和和肘部法则确定最优的聚类数目;
聚类训练单元123,用于利用归一化后的特征向量矩阵X训练聚类算法,获得所述聚类数目的聚类结果分组,并获得每一车辆的驾驶员所对应特征向量所属的聚类结果分组类别;
聚类结果输出单元124,用于输出每个类别对应的典型指标特征,以及每个驾驶员所对应的车辆识别代号及其聚类结果分组类别标签。
如图4所示,所述画像处理单元13进一步包括:
行程特征向量矩阵获取单元130,用于获取所有驾驶员指标,并将每一驾驶员按行程分组取各特征的均值,得到驾驶行程特征向量矩阵Z;所述向量矩阵Z为包含m*d个元素的矩阵;其中,m为行程数量,d为每个行程所包含的特征向量的数量;
驾驶综合评分区获得单元134,用于将所述驾驶员所有组行程得分计算平均值,获得所述驾驶员的驾驶综合评分。
更多的细节,可以参照前述对图1的描述,在此不进行赘述。
实施本发明实施例,具有如下的有益效果:
本发明实施例提供一种基于动力总成数据的用户画像方法及***。通过对动力总成大数据进行预处理,然后利用Apache Spark提取车辆的动力性、经济性、驾驶性、安全性等刻画指标;并采用聚类算法对用户进行分类,并对每一类分组中的车辆进行用户画像,找出每组类的用户特征。可以发现不同的用户群,并且它通过对不同的用户群的特征的刻画,被用于研究用户驾驶行为,寻找新的潜在市场;
在本发明实施例中,通过刻画每一组用户的动力、经济、安全驾驶特性,有效辅助进行车辆的动力总成的设计开发,同时提高了对动力总成数据进行用户画像的准确性以及丰富性。
本领域内的技术人员应明白,本发明的实施例可提供为方法、装置、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
以上所揭露的仅为本发明一种较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。
Claims (10)
1.一种基于动力总成数据的用户画像方法,其特征在于,包括如下步骤:
步骤S10,获得一种车型的多辆车辆的动力总成数据,并对所述数据进行预处理,所述预处理至少包括为每一动力总成数据关联位置环境信息;
步骤S11,根据预处理后的动力总成数据,提取车辆的用户画像的刻画指标;
步骤S12,利用聚类算法对所述动力总成数据进行自动聚类处理,获得多个聚类结果分组,并把每一车辆归入到对应的聚类结果分组中;
步骤S13,获取每个聚类结果分组内的车辆信息,并对所述聚类结果分组中的每一车辆按照所述刻画指标进行用户画像处理;所述用户画像处理至少包括获得每一车辆的驾驶员的驾驶综合评分信息;
步骤S14,显示每一聚类结果分组中车辆的画像结果。
2.如权利要求1所述的方法,其特征在于,在所述步骤S10中,对所述数据进行预处理进一步包括:
对所述动力总成数据进行数据清洗和转换处理,并将数据结果存入相应的数据库;其中,所述数据清洗为按照预定规则过滤掉异常数据;所述数据转换处理包括:对采集频率较低的信号进行前向填充和后向填充;对每辆车每天的数据进行聚合;以及根据聚合后的数据调用地图服务软件接口为每一车辆的动力总成数据关联位置环境信息标记,所述位置环境信息标记包括:区域、天气、海拔、地理环境标记。
3.如权利要求1或2所述的方法,其特征在于,所述步骤S11进一步包括:
采用Apache Spark***对所述已进行预处理的动力总成数据进行提取,以根据所述动力总成数据中的属性特征信息提取车辆的用户画像的刻画指标,所述刻画指标至少包括动力性、经济性、驾驶性、安全性刻画指标。
4.如权利要求3所述的方法,其特征在于,所述步骤S12进一步包括:
从驾驶性刻画指标中从驾驶性刻画指标中获得驾驶员对应的驾驶行为分类指标,并按驾驶员分组获取驾驶行为分类指标对应的特征向量的均值,并按驾驶员分组获取驾驶行为分类指标对应的特征向量的均值,获得驾驶员特征向量矩阵X,所述向量矩阵X为包含n*d个元素的矩阵;其中,n为驾驶员数量,d为每个驾驶员所包含的特征向量的数量;
对特征向量矩阵X进行归一化,使得每一维特征都在同一尺度;
对归一化后的特征向量矩阵X应用聚类算法,确定最优的聚类数目;
利用归一化后的特征向量矩阵X训练聚类算法,获得所述聚类数目的聚类结果分组,并获得每一车辆的驾驶员所对应特征向量所属的聚类结果分组类别;
输出每个类别对应的典型指标特征,以及每个驾驶员所对应的车辆识别代号及其聚类结果分组类别标签。
6.如权利要求5所述的方法,其特征在于,所述步骤S13进一步包括:
展示车辆基本信息、行程统计信息、相关参数分布以及驾驶行为评价,其中,展示指标有:车辆识别代号、驾驶综合评分、驾驶类型、总行驶里程、总能耗、百公里能耗、平均车速、总运行时长。
7.根据权利要求6所述的方法,其特征在于,其中:
所述车辆动力性刻画指标包括:驾驶行为油耗排名、三急与油耗关系、车速控制与油耗关系;表显平均油耗的分布、表显平均油耗的季节性分布及均值、表显平均油耗的区域均值;不同驾驶模式下表显平均油耗分布及均值、发动机不同运行区域油耗均值;车辆不同车速下的平均油耗、车辆不同车速、不同油耗占比、不同平均加速度区间的平均油耗分布、不同平均油门区间的平均油耗分布、不同平均油门变化率区间的平均油耗分布、不同平均油门变化率区间不同油耗的占比、车辆不同行驶车速、档位下的平均油耗分布;车辆开关空调占比、不同环境温度下车辆开关空调占比、车辆开关空调下的平均油耗分布;怠速瞬时喷油量分布、不同怠速时长占比;
所述车辆经济性刻画指标包括:起始油门分布、起始档位分布、起始车速分布;车辆不同车速、不同油耗占比;发动机不同运行区域油耗均值分布;发动机进气温度分布、发动机进气温度的逐月分布、发动机进气温度的地理分布;发动机水温分布、发动机水温的逐月分布、发动机水温的地理分布;油门踏板变化率分布、起始油门及油门变化率分布;用户载重分布、用户道路典型载重分布;用户起步/启停/驻停次数分布;各档位次数分布、各档位下转速/行驶里程/滑行里程;各档位各转速下旋转圈数、各档位各扭矩下旋转圈数、各档各扭矩下最大输入转速;
所述车辆安全性刻画指标包括:外部环境以及驾驶行为;其中,所述外部环境包括气候以及路况;驾驶行为包括不良驾驶行为、驾驶平稳性以及车辆载重。
8.一种基于动力总成数据的用户画像***,其特征在于,包括:
预处理单元,用于获得一种车型的多辆车辆的动力总成数据,并对所述数据进行预处理,所述预处理至少包括为每一动力总成数据关联位置环境信息;
刻画指标获取单元,用于根据预处理后的动力总成数据,提取车辆的用户画像的刻画指标;
聚类处理单元,用于利用聚类算法对所述动力总成数据进行自动聚类处理,获得多个聚类结果分组,并把每一车辆归入到对应的聚类结果分组中;
画像处理单元,用于获取每个聚类结果分组内的车辆信息,并对所述聚类结果分组中的每一车辆按照所述刻画指标进行用户画像处理;所述用户画像处理至少包括获得每一车辆的驾驶员的驾驶综合评分信息;
画像结果显示单元,用于显示每一聚类结果分组中车辆的画像结果。
9.如权利要求8所述的***,其特征在于,所述聚类处理单元进一步包括:
驾驶员特征向量矩阵获取单元,用于从驾驶性刻画指标中获得驾驶员对应的驾驶行为分类指标,并按驾驶员分组获取驾驶行为分类指标对应的特征向量的均值,获得驾驶员特征向量矩阵X,所述向量矩阵X为包含n*d个元素的矩阵;其中,n为驾驶员数量,d为每个驾驶员所包含的特征向量的数量;
第一归一化处理单元,用于对特征向量矩阵X进行归一化,使得每一维特征都在同一尺度;
聚类数目确定单元,用于对归一化后的特征向量矩阵X应用聚类算法,确定最优的聚类数目;
聚类训练单元,用于利用归一化后的特征向量矩阵X训练聚类算法,获得所述聚类数目的聚类结果分组,并获得每一车辆的驾驶员所对应特征向量所属的聚类结果分组类别;
聚类结果输出单元,用于输出每个类别对应的典型指标特征,以及每个驾驶员所对应的车辆识别代号及其聚类结果分组类别标签。
10.如权利要求9所述的***,其特征在于,所述画像处理单元进一步包括:
行程特征向量矩阵获取单元,用于获取所有驾驶员指标,并将每一驾驶员按行程分组取各特征的均值,得到驾驶行程特征向量矩阵Z;所述向量矩阵Z为包含m*d个元素的矩阵;其中,m为行程数量,d为每个行程所包含的特征向量的数量;
驾驶综合评分区获得单元,用于将所述驾驶员所有组行程得分计算平均值,获得所述驾驶员的驾驶综合评分。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110938111.7A CN115221234A (zh) | 2021-08-16 | 2021-08-16 | 一种基于动力总成数据对用户进行画像的方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110938111.7A CN115221234A (zh) | 2021-08-16 | 2021-08-16 | 一种基于动力总成数据对用户进行画像的方法及*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115221234A true CN115221234A (zh) | 2022-10-21 |
Family
ID=83606228
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110938111.7A Pending CN115221234A (zh) | 2021-08-16 | 2021-08-16 | 一种基于动力总成数据对用户进行画像的方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115221234A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115641160A (zh) * | 2022-12-26 | 2023-01-24 | 中国汽车技术研究中心有限公司 | 新能源汽车的改进方法、设备和存储介质 |
CN117634051A (zh) * | 2024-01-18 | 2024-03-01 | 中汽研汽车检验中心(天津)有限公司 | 基于真实道路环境的热泵空调***仿真预测方法及*** |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106202872A (zh) * | 2016-06-27 | 2016-12-07 | 江苏迪纳数字科技股份有限公司 | 机动车辆驾驶行为评分方法 |
CN109117869A (zh) * | 2018-07-20 | 2019-01-01 | 汉纳森(厦门)数据股份有限公司 | 用户画像方法、介质及*** |
CN110853179A (zh) * | 2018-08-21 | 2020-02-28 | 上海博泰悦臻网络技术服务有限公司 | 车联网服务器、车辆及基于行驶数据的车辆油耗提示方法 |
CN113033651A (zh) * | 2021-03-22 | 2021-06-25 | 上海仙塔智能科技有限公司 | 一种提高驾驶安全性的方法和装置 |
-
2021
- 2021-08-16 CN CN202110938111.7A patent/CN115221234A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106202872A (zh) * | 2016-06-27 | 2016-12-07 | 江苏迪纳数字科技股份有限公司 | 机动车辆驾驶行为评分方法 |
CN109117869A (zh) * | 2018-07-20 | 2019-01-01 | 汉纳森(厦门)数据股份有限公司 | 用户画像方法、介质及*** |
CN110853179A (zh) * | 2018-08-21 | 2020-02-28 | 上海博泰悦臻网络技术服务有限公司 | 车联网服务器、车辆及基于行驶数据的车辆油耗提示方法 |
CN113033651A (zh) * | 2021-03-22 | 2021-06-25 | 上海仙塔智能科技有限公司 | 一种提高驾驶安全性的方法和装置 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115641160A (zh) * | 2022-12-26 | 2023-01-24 | 中国汽车技术研究中心有限公司 | 新能源汽车的改进方法、设备和存储介质 |
CN117634051A (zh) * | 2024-01-18 | 2024-03-01 | 中汽研汽车检验中心(天津)有限公司 | 基于真实道路环境的热泵空调***仿真预测方法及*** |
CN117634051B (zh) * | 2024-01-18 | 2024-04-09 | 中汽研汽车检验中心(天津)有限公司 | 基于真实道路环境的热泵空调***仿真预测方法及*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ferreira et al. | The impact of driving styles on fuel consumption: A data-warehouse-and-data-mining-based discovery process | |
CN111452619B (zh) | 电动车辆在线能耗预测方法及*** | |
Berry | The effects of driving style and vehicle performance on the real-world fuel consumption of US light-duty vehicles | |
CN109552338B (zh) | 一种纯电动汽车生态驾驶行为评估方法及*** | |
CN111461185A (zh) | 一种基于改进K-means的驾驶行为分析方法 | |
CN115221234A (zh) | 一种基于动力总成数据对用户进行画像的方法及*** | |
CN110395245B (zh) | 一种基于固定路线驾驶信息的混动汽车能量管理*** | |
CN110705774A (zh) | 一种车辆能耗分析的预测方法和*** | |
Zhang et al. | The impact of socio-demographic characteristics and driving behaviors on fuel efficiency | |
Yu et al. | Assessing the impact of multi-dimensional driving behaviors on link-level emissions based on a Portable Emission Measurement System (PEMS) | |
CN111931810A (zh) | 一种基于多车的节能驾驶行为分析*** | |
Rettore et al. | A method of eco-driving based on intra-vehicular sensor data | |
CN109115997A (zh) | 油品质量监控方法及服务器 | |
CN114526930B (zh) | 一种智能网联汽车故障检测方法及*** | |
Vámosi et al. | Development of bus driving cycle for debrecen on the basis of real-traffic data | |
CN110867075A (zh) | 一种评估雨天条件下道路测速仪对驾驶人员反应行为影响的方法 | |
Puchalski et al. | Driving style analysis and driver classification using OBD data of a hybrid electric vehicle | |
CN110689131A (zh) | 一种基于朴素贝叶斯模型的车辆能耗影响分析方法 | |
CN114426025B (zh) | 驾驶辅助方法、装置、计算机设备和存储介质 | |
Ma et al. | A Scoping Review of Energy-Efficient Driving Behaviors and Applied State-of-the-Art AI Methods | |
CN114943403A (zh) | 一种基于大数据的公交驾驶员生态驾驶评价***及方法 | |
CN115266135A (zh) | 基于用户工况测试数据的油耗量化分析方法 | |
CN114608604A (zh) | 基于机器学习与gps定位的车辆油耗预测的方法和装置 | |
CN114021931A (zh) | 一种驾驶行为经济性评价方法及*** | |
Peng et al. | Construction of engine emission test driving cycle of city transit buses |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |