CN115423035A

CN115423035A - 基于特征变量评分的用户画像生成方法，设备、汽车及存储介质

Info

Publication number: CN115423035A
Application number: CN202211174138.4A
Authority: CN
Inventors: 李晓光; 刁冠通; 翟钧; 苏琳珂; 万毓森
Original assignee: Chongqing Changan New Energy Automobile Technology Co Ltd
Current assignee: Chongqing Changan New Energy Automobile Technology Co Ltd
Priority date: 2022-09-26
Filing date: 2022-09-26
Publication date: 2022-12-02
Also published as: WO2024067387A1

Abstract

本申请提供一种基于特征变量评分的用户画像构建方法，包括：采集获取车辆的驾驶行程和充电行程数据进行预处理，根据行程数据属性划分为四个不同维度的特征数据集；对数据集中数据标记标签，采用分箱操作将特征变量离散化；计算每个分箱证据权重值、及相关的预测能力IV值，根据IV值筛选对用户画像标签贡献度大的特征变量构建多维特征变量数据库；对逻辑回归模型分别进行训练生成不同维度模型；对各维度模型进行测试，通过ROC曲线结合AUC值采用评分卡转换，评估和检验得到最优模型；利用最优模型根据用户驾驶行为习惯对用户驾驶行为特征进行分类，根据分类结果对用户驾驶行为习惯打分，生成用户画像。能有效提高驾驶安全性。

Description

基于特征变量评分的用户画像生成方法，设备、汽车及存储介质

技术领域

本申请涉及计算机信息处理技术领域，具体涉及一种基于驾驶行为偏好的用户画像构建方法。

背景技术

随着互联网技术与信息技术的高速发展，海量数据源源不断产生。充足的数据量能够直接呈现用户的全貌，可以根据用户的社会属性、消费行为和生活习惯等信息，勾勒出用户的基本特征与框架轮廓，建立对应的符号标签，对客户进行精准定位。

通过建立用户用车画像，真实反映出用户在用车过程中的行为***台等。

目前已有的构建用户画像的方法，通过收集用户的静态信息数据和动态信息数据，即用户的属性信息数据和行为信息数据，分析用户群体的兴趣，偏好，需求；或通过聚类等用户数据建模的方法来划分用户群体，分析各群体的特点。而无法精确度量每个用户的偏好及需求。

公开号：CN111552926A，名称“基于车联网的驾驶行为评价方法、***及存储介质”，公开了一种基于车联网的驾驶行为评价方法、***及存储介质，包括：步骤1.从车联网数据库中提取用户行为数据；步骤2.使用逐步回归对特征变量进行反复筛选，直到筛选出显著性最优的解释变量；步骤3.对特征变量通过变量分箱，再对特征变量进行WOE转换完成自变量构造，使用逻辑回归模型进行训练，得到训练后的模型，输出模型的变量参数；步骤4.根据评分卡转换方法，输出驾驶习惯、充电习惯、安全性以及能耗这四个维度变量的分值，分值越高，表示驾驶行为越好；步骤5.将四个维度变量得分进行加权，得到最终的驾驶行为得分，并进行等级转化，输出驾驶行为评级。本发明从驾驶习惯、充电习惯、安全性和能耗综合对驾驶行为进行评级。

采用的是定性用户画像或统计性用户画像，定性用户画像会忽略一些具有独特特征的用户，或过多的表达了具有不同寻常观点的异常值，也很难用这些分析将用于对用户进行分类的标准说出来。

发明内容

有鉴于此，本申请针对现有技术无法精确度量每个用户的偏好及需求进行偏好画像标记等问题。

根据本申请的一方面，本发明提出一种基于评分的用户画像构建方法，包括：采集获取车辆的驾驶行程和充电行程数据，对获取的行程数据进行预处理，根据行程数据属性划分为四个不同维度的特征变量数据集；对数据集中数据标记正负样本标签，采用分箱操作将特征变量离散化；计算每个分箱证据权重值，及各特征变量相关的预测能力IV值，根据IV值排序，筛选对用户画像标签贡献度大的特征构建特征变量数据库；筛选特征变量数据集中特征变量，划分训练集和测试集，利用训练集中各维度特征变量对逻辑回归模型分别进行训练，训练完成生成不同维度模型；利用测试集数据对对应维度模型进行测试，通过ROC曲线结合AUC值采用评分卡转换进行用户画像分数评分，评估和检验得到最优模型；利用最优模型对用户驾驶行为特征进行分类，根据分类结果对用户驾驶行为习惯打分，生成用户画像。

进一步优选，根据行程数据属性划分为四个不同维度的特征变量数据集包括：根据行程数据的属性构建包括驾驶习惯、充电习惯、安全性和能耗四个维度的多维度特征数据表，多维度特征数据表中包括多个特征，及各维度特征包括的特征变量及变量描述。

进一步优选，对获取的行程数据进行预处理包括：对缺失的空值进行填充、过滤异常数据，采用0填充数据集中的缺失值NAN；采用3σ准则删除异常值和极值数据。

进一步优选，所述3σ准则为，根据采集行程数据的均值μ和标准差σ，提取(μ-σ，μ+σ)区间内数据作为特征数据，过滤掉超出区间的数据。

进一步优选，按照一定比例用1和0标记通过预处理后的数据集中多维度特征数据表中的特征变量，得到各维度数据集中的特征变量标记正、负样本标签，生成多个维度含正、负样本标签的特征样本数据集。

进一步优选，将各维度特征中的特征变量值进行排序，排名前面预定部分数据作为负样本，后面预定部分数据作为正样本，正样本标记为1，负样本标记为0。

进一步优选，所述计算每个分箱证据权重值，及各特征变量相关的预测能力IV值，具体包括：根据各维度特征数据集中每个特征的正样本占比p和负样本占比n，调用公式：

WOE＝ln(p/n)*100％，计算证据权重WOE；根据公式：

计算第i个特征变量的信息量IV_i，构建信息量IV值与预测能力关系表，其中，N为特征变量数，WOE_i为第i个特征变量的证据权重。

进一步优选，所述筛选对用户画像标签贡献度大的特征构建特征变量数据库包括：调用IV值与预测能力关系表，筛选IV>＝0.1的特征变量作为多维度特征变量数据库中的特征样本，按照一定比例将特征样本划分为训练集和测试集。

进一步优选，根据各维度特征模型预测的结果计算评估模型ROC曲线的AUC值，根据AUC值采用评分卡转换进行分数评分转换，得到好用户与坏用户的比例值，以及特征变量对应不同分箱的权重，获得各维度最优模型，结合特征变量中每个分箱的证据权重以及好用户与坏用户的概率值，确定特定比例点分值对应系数A、B值，计算每个分箱的评分结果。

进一步优选，将测试集样本输入对应各维度特征模型进行测试，根据预测准确性确定正类数和负类数，根据公式：TPR＝TP/(TP+FN)计算真正例率TPR，FPR＝FP/(TN+FP)计算假正例率FPR，以真正例率TPR为纵轴，以假正例率FPR为横轴，在不同的阈值下获得对应坐标点，连接各个坐标点，得到ROC曲线，根据ROC曲线下方的面积AUC值采用评分卡转换进行用户画像分数评分，其中，TP为真正类、FN为假负类、FP为假正类、TN为真负类。

进一步优选，设置比例为θ₀的特定点分值为P₀，比例为2θ₀的点的分值为P₀+PDO，根据公式：

计算特定点分值对应系数A、B值，根据公式：score_总＝A+B*ln(odds)，计算分值刻度，odds为坏用户概率与好用户概率的比值。

进一步优选，(B*w_n)*WOE_n1+(B*w_n)*WOE_n2+…+(B*w_n)*WOE_ni计算在某个特征维度用户驾驶行为评分，得到各个维度用户驾驶行为习惯得分，根据得分与设定阈值范围比较对用户驾驶行为习惯进行评级，生成用户画像标签，其中，w_n表示第n个特征变量的权重，WOE_ni表示第n个特征变量的第i个分箱的证据权重值。

根据本发明的第二方面，还提供一种电子设备，包括：

处理器；以及存储程序的存储器，其特征在于，其中，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行根据上面任一项所述的基于评分的用户画像构建方法。

根据本发明第三方面，还提供一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行上面任一项所述的基于评分的用户画像构建方法。

根据本发明的第四方面，还提供一种汽车，包括如本发明所述的电子设备，以及中控设备。

本申请实施例中提供的一个或多个技术方案，可以实现基于评分卡构建用户画像的技术效果。采用评分卡的方法可以精确度量用户的偏好需求，不会忽略其独特的特征，还通过控制变量的权重，加强对用户分类标准的可解释性，根据用户驾驶行为习惯对其进行精确的定量标记画像，提高了驾驶安全性和舒适性。

附图说明

图1示出了根据本申请示例性实施例基于驾驶行为偏好的用户画像生成方法示意图；

图2为根据本申请基于驾驶行为偏好的用户画像生成原理结构框图。

具体实施方式

在下面结合附图对于示例性实施例的描述中，本申请的更多细节、特征和优点被公开。

下面将参照附图更详细地描述本申请的实施例。虽然附图中显示了本申请的某些实施例，然而应当理解的是，本申请可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本申请。应当理解的是，本申请的附图及实施例仅用于示例性作用，并非用于限制本申请的保护范围。

应当理解，本申请的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本申请的范围在此方面不受限制。

本文使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。需要注意，本申请中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意，本申请中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

本申请实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。

下面参照附图对本申请的方案进行进一步的描述，如图1所示为本发明实施例之一的用户画像构建方法流程示意图，包括：获取驾驶行程数据和充电行程数据；数据预处理；构建特征，生成含有标签的数据集；特征离散化、WOE编码，IV排名；训练和评估模型；评分卡转换，结果检验，生成标签。

如图2所示为本发明实施例之一的基于驾驶行为偏好的用户画像生成原理框图。包括：获取数据，检查数据，数据预处理，添加数据标签，特征变量离散化，WOE编码，IV值排序，划分数据局，训练模型，测试模型，模型评价，评分卡转换，生成用户画像。

通过汽车中控仪表数据采集获取车辆的驾驶行程和充电行程数据；.检查数据是否存在空值和超出正常区间范围的异常数据；若存在空值数据，则使用0填充空值，若存在异常值数据，则使用3σ原则删除异常值；将预处理后的数据标记正负样本，生成带有标签的数据集；采用分箱操作将特征变量离散化；计算WOE值，通过WOE转换完成自变量构造；计算各特征变量的IV值，根据IV值排序，完成特征变量的筛选；将数据集划分为训练集和测试集；使用训练集数据，采用逻辑回归模型以交叉验证方式训练模型；训练完成后的模型对测试集进行测试；通过ROC曲线和AUC值评估和检验模型准确率，得到最优模型；采用评分卡转换的方法，根据用户驾驶行为特征分类结果对每个用户打分；根据分数评估用户的驾驶、充电行为习惯，生成用户画像。

通过汽车中控设备数据采集单元获取车辆的全部驾驶行程和充电行程数据。根据数据特征属性构建包括驾驶习惯、充电习惯、安全性和能耗等四个维度的多维度特征数据表，多维度特征数据表中包括多个特征，各维度特征包括的特征变量及变量描述如下表1-4所示。

表1：驾驶习惯维度特征表

特征变量名称	变量描述
		加速踏板标准差	行程内加速踏板标准差
制动踏板标准差	行程内制动踏板标准差
		速度标准差	行程内速度标准差
速度平均值	行程内速度平均值
		加速踏板平均值	行程内加速踏板平均值
制动踏板平均值	行程内制动踏板平均值
		电机转速平均值	电机转速平均值
转角速度平均值	转角速度平均值
		……	……

表2：充电习惯维度特征表

变量名称	变量描述
		最低电量	周期内动力电池的最低电量
开始充电SOC	开始充电时的SOC值
		结束充电SOC	充电结束时的SOC值
快充次数/占比	使用快充充电的次数/占比
		慢充次数/占比	使用慢充充电的次数/占比
过充次数/占比	使用过充充电的次数/占比
		……	……

表3安全性维度特征表

特征变量名称	变量描述
		方向盘震动状态	方向盘震动频率
驾驶员脱手次数	行程内驾驶员脱手次数
		安全带次数	安全带违规次数
速度平均值	速度平均值
		速度峰值	速度最大值
加速踏板峰值	加速踏板最大值
		……	……

表4能耗维度特征表

对采集的各个维度特征数据进行预处理，数据预处理包括：检查数据是否存在空值、超出正常区间等异常数据。

采集的驾驶行程和充电行程数据通常含有噪声数据，噪声数据会造成模型预测偏差，首先,检验采集的充电、放电行为数据中是否存在包括如空值和超出正常区间范围的异常数据等的噪声数据。对检测出的缺失的空值进行填充、过滤异常数据等数据清洗。

缺失值的存在会影响到数据剖析和挖掘的效果，缺失值NAN是数据集中的某些观察存在遗漏的指标值。

常见填充缺失值的方法包括均值、众数填充，直接根据没有缺失的数据线性回归填充，这样填充的好会共线性，填充的不好就没价值；剔除或者设置变量。本发明采用0填充数据集中的缺失值NAN。

采用3σ准则，删除异常值和极值数据。各维度的所有特征符合正态分布，根据每个特征均值μ，标准差σ，特征数据的分布符合3σ原则：

数值分布在中的概率为0.6827，数值分布在(μ-2σ，μ+2σ)中的概率为0.9545，数值分布在(μ-3σ，μ+3σ)中的概率为0.9973。所以，可以认为特征数据的取值几乎集中在(μ-3σ，μ+3σ)区间内，超出该范围的值大部分为噪声数据，故提取(μ-σ，μ+σ)区间内的特征数据，过滤掉超出这个区间的数据。

构建特征数据集，将通过预处理后的驾驶行程和充电行程数据，调用多维度特征数据表，按照特征属性分别标注为驾驶习惯、充电习惯、安全性和能耗四个不同维度的特征，构建特征数据集，对特征数据集标记正负样本标签，生成多个维度含正、负样本标签的特征样本数据集。正、负样本特征数据作为训练、验证和预测模型的输入变量。

对数据集中各维度特征数据划分正、负样本，并用0和1标记得到各维度数据集中的特征变量，生成含有正负样本标签的数据集。本实施例中正、负样本的划分可采用方法为，将各维度特征中的特征变量值进行排序，排名前面预定部分数据作为负样本，后面预定部分数据作为正样本，正样本标记为1，负样本标记为0。

例如驾驶习惯特征包括：驾驶的车辆速度标准差、踩踏油门踏板深度标准差等。如可筛选速度标准差、油门踏板深度标准差最大的前20％的单次行程数据作为负样本，标记为0，后20％作为正样本，标记为1。

安全性特征包括：车辆行驶时的驾驶时长和速度峰值等。将驾驶行程数据分别使用驾驶时长和速度峰值进行排序，排序的前20％的数据为负样本，标记为0，后20％作为正样本，标记为1。

能耗特征包括：车辆行驶时的百公里能耗值等。使用驾驶行程中百公里能耗值进行排序，取能耗最高的前20％为负样本，标记为0，能耗最低的前20％为正样本，标记为1。

充电习惯特征包括：动力电池电量、快充模式充入的电量等。将充电行程数据按周进行分组统计，然后将数据按照动力电池最电量从小到大排序，和快充模式充入的电量从多到少排序，前20％的数据作为负样本，标记为0，后20％为正样本，标记为1。

以上以前某项指标排名前或后20％为正或负样本，具体可根据经验设置为其他比例。

各维度特征数据集中的所有特征都如上文所述划分为正负样本集。

多维度特征数据表中的特征中，有的特征能充分体现驾驶人员的习惯和偏好，对标记用户画像贡献度很大，有些特征受用户行为习惯和偏好的影响会很小，对标记用户画像贡献度较小。因此，需要寻找对结果影响有价值的特征，将贡献度大的特征筛选出来，对数据库中的特征进行离散化处理，计算证据权重WOE编码、IV信息值排名。

本实施例对特征变量通过分箱操作将变量离散化，再进行WOE编码转换完成自变量构造。WOE表示“当前分组中负样本占所有负样本的比例”和“当前分组中正样本占所有正样本的比例”的差异。WOE越大，这种差异越大，这个分组里的负样本可能性就越大；WOE越小，差异越小，这个分组里负样本的可能性越小。

根据各维度特征数据集中正样本和负样本占比，调用公式：

WOE＝ln(p/n)*100％，其中，p表示每个特征的正样本占比，n表示每个特征的负样本占比。计算证据权重WOE。

计算各特征变量的IV值，根据IV值排序，进行特征变量筛选。IV衡量的是某一个特征变量的信息量，根据公式：

计算第i个特征变量的信息量IVi，代表该各种变量的预测能力，其中，p表示每个特征的正样本占比，n表示每个特征的负样本占比，N为特征变量数，WOE_i为第i个特征变量的证据权重。

本实施例根据大量实验数据分析和经验值，构建信息量IV值与预测能力关系表。如表5所示：

表5：IV值与预测能力关系表：

调用IV值与预测能力关系表确定各维度数据库训练样本集中的特征变量，即特征数据库中的元素。

本实施例可选择预测表中预测能力大于等于“中”以上的特征变量，即筛选IV>＝0.1的特征变量作为多维度数据库样本集中的特征变量。

如根据证据权重计算各特征变量的IV值，根据IV值选择预测能力大于等于“中”上的特征变量，得到本实施例样本集各维度特征变量包括：

驾驶***均值、加速踏板平均值、电机转速平均值、转角速度平均值、电机扭矩平均值、行驶平均能耗、怠速占比、低速占比、中速占比和高速占比。

安全性特征：速度平均值、高速占比、百公里加速踏板次数、百公里制动踏板次数和速度峰值。

能耗特征：空调开关占比、中速占比、空调设定温度平均值、加速踏板平均值、百公里加速踏板次数和百公里制动踏板次数。

充电习惯特征：快充次数/占比、快充电量、过充次数/占比、深度使用次数/占比和充电时长。

由筛选出来的各维度特征变量构成的数据集中样本按照一定比例(如本实施例可按照8:2的比例)划分为训练集和测试集，训练集用于训练模型，测试集用于模型的测试。

将训练集样本输入逻辑回归模型进行训练。四个不同维度的特征变量分别对模型单独训练，生成各维度特征模型。

逻辑回归模型，属于二分类模型，本实施例采用ROC曲线结合AUC值的方法进行评估。采用交叉验证的方式，使用测试集对训练后生成的各维度特征模型进行测试，通过ROC感受性曲线和ROC曲线下的面积AUC值评估和检验模型准确率。

重复循环上述训练和测试过程，直至得到最优的参数和模型。

ROC曲线是一种比较两个分类模型的可视化工具。ROC曲线显示了给定模型的真正例率(TPR)和假正例率(FPR)之间的权衡。以真正例率TPR为纵轴，以假正例率FPR为横轴，在不同的阈值下获得对应坐标点，连接各个坐标点，得到ROC曲线。

将测试集样本输入对应各维度特征模型进行测试，测试结果分类与样本的标记进行比较，根据预测准确性确定正类数和负类数。其中一个实例是正类，并且被预测为正类为真正类TP，一个实例是正类，但是被预测为负类为假负类FN，一个实例是负类，但是被预测为正类为假正类FP，一个实例是负类，并且被预测为负类为真负类TN，根据模型预测输出的上述类别数，根据公式：

TPR＝TP/(TP+FN)，计算真正例率TPR，

FPR＝FP/(TN+FP)，计算假正例率FPR。

AUC表示ROC曲线下方的面积，根据业界标准，一般要求AUC>0.7，AUC值越大，表示模型越好。

根据AUC值采用评分卡转换进行分数评分转换，将分数控制在100分之内。

如根据公式：

计算用户概率(1-p)与坏用户概率(p)的比值odds。

评分卡设定的分值刻度可以通过将分值表示为比率对数的现行表达式来定义。

根据公式：score_总＝A+B*ln(odds)，计算总分，确定分值刻度θ。设置比例为θ的特定点分值为P₀，比例为2θ的点的分值为P₀+PDO。其中P₀和PDO是常数，带入上面公式可得到：

P₀＝A+Bln(θ₀)

P₀+PDO＝A+Bln(2θ₀)

计算特定点分值对应系数A、B值：

根据好用户概率与坏用户概率的比值，经过WOE分箱后的特征变量x，第i个特征变量的权重wi，i＝1,2,......n，n代表特征变量的数量。

调用公式：

score_总＝A+B+(θ^Τx)＝A+B*(w₀+w₁x₁+…+w_nx_n)＝(A+B*w₀)+B*w₁x₁+…+B*w_nx_n计算输出特征变量总分。

通过训练集样本对逻辑回归模型的多次训练，根据模型预测的分类结果计算评估模型ROC曲线的AUC值，根据AUC值采用评分卡转换进行分数评分转换，得到好用户与坏用户的概率值，也可得到训练模型时特征变量对应不同分箱的权重。获得各维度最优模型。

结合特征变量中每个分箱的证据权重WOE以及好用户与坏用户的概率值，确定特定比例点分值对应系数A、B值，计算每个分箱的评分结果。如本实施例采用每个变量对应的分数，分别乘以变量中每个分箱的WOE，得到每个分箱的评分，即根据公式：(B*w_n)*WOE_ni计算第n个特征变量第i个分箱的评分。

如下表所示为特征变量对应不同分箱权重分值计算表。

表6：特征变量对应不同分箱权重计算分值表

将所有特征变量所有分数的评分相加，得到某特征维度用户行为习惯的评分。即根据公式：

(B*w_n)*WOE_n1+(B*w_n)*WOE_n2+…+(B*w_n)*WOE_ni计算某特征维度用户行为习惯的评分。其中，w_n表示第n个特征变量的权重，WOE_ni表示第n个特征变量的第i个分箱的证据权重WOE值。

通过汽车中控采集获取某用户驾驶行程和充电行程数据中筛选出来的各维度特征变量，分别针对不同维度，根据上述公式计算用户驾驶行为评分，得到不同维度用户驾驶行为习惯得翻，并根据设定阈值范围对驾驶行为习惯进行评级。

经过大量试验和样本分析，本实施例设置分数评级的合理区间范围，评分的分数设置在[60,100]分区间内。根据分数区间范围划分对应的特征行为，建立特征行为分区表，如：

驾驶行为：[0,60]：驾驶习惯恶劣；[60,70]：驾驶习惯有待改进；[70,80]：驾驶习惯尚可；[80,90]：驾驶习惯良好；[90,100]：驾驶习惯优秀。

充电习惯：[0,60]：充电习惯对电池健康伤害严重；[60,70]：充电习惯有待改进；[70,80]：充电习惯尚可；[80,90]：充电习惯良好；[90,100]：充电习惯优秀。

生成用户画像标签。根据所得分数与特征行为分区表中的分数区间进行对比，根据分数评估用户驾驶、充电行为习惯，生成用户画像标签。

本申请示例性实施例还提供一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器。所述存储器存储有能够被所述至少一个处理器执行的计算机程序，所述计算机程序在被所述至少一个处理器执行时用于使所述电子设备执行根据本申请实施例的方法。

本申请示例性实施例还提供一种存储有计算机程序的非瞬时计算机可读存储介质，其中，所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本申请实施例的方法。

本申请示例性实施例还提供一种计算机程序产品，包括计算机程序，其中，所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本申请实施例的方法。

电子设备旨在表示各种形式的数字电子的计算机设备，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

用于实施本申请的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本申请的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

如本申请使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的***和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***(例如，作为数据服务器)、或者包括中间件部件的计算***(例如，应用服务器)、或者包括前端部件的计算***(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将***的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

Claims

1.一种基于特征变量评分的用户画像构建方法，其特征在于，包括：采集获取车辆的驾驶行程和充电行程数据，进行预处理，根据行程数据属性划分为四个不同维度的特征数据集；对数据集中数据标记正、负样本标签，采用分箱操作将特征变量离散化；计算每个分箱证据权重值、及各特征变量相关的预测能力IV值，根据IV值排序，筛选对用户画像标签贡献度大的特征变量构建多维特征变量数据库；对特征变量数据集中特征变量划分训练集样本和测试集样本，利用训练集样本对逻辑回归模型分别进行训练，训练完成生成不同维度模型；利用测试集样本对对应维度模型进行测试，通过ROC曲线结合AUC值采用评分卡转换，评估和检验得到最优模型；利用最优模型根据用户驾驶行为习惯对用户驾驶行为特征进行分类，根据分类结果对用户驾驶行为习惯打分，生成用户画像。

2.根据权利要求1所述的方法，其特征在于，对获取的行程数据进行预处理包括：对缺失的空值进行填充、过滤异常数据，具体为，采用0填充数据集中的缺失值NAN；采用3σ准则删除异常值和极值数据。

3.根据权利要求2所述的方法，其特征在于，所述3σ准则为，根据采集行程数据的均值μ和标准差σ，提取(μ-σ，μ+σ)区间内数据作为特征数据，过滤掉超出区间的数据。

4.根据权利要求1所述的方法，其特征在于，根据行程数据属性划分为四个不同维度的特征变量数据集包括：根据行程数据的属性构建包括驾驶习惯、充电习惯、安全性和能耗四个维度的多维度特征数据表，多维度特征数据表中包括多个特征，及各维度特征的特征变量及变量描述。

5.根据权利要求4所述的方法，其特征在于，按照一定比例用1和0标记多维度特征数据表中的特征变量，得到各维度数据集中的特征变量标记正、负样本标签，生成多个维度含正、负样本标签的特征样本数据集。

6.根据权利要求4或5所述的方法，其特征在于，将各维度特征中的特征变量值进行排序，排名前面预定部分数据作为负样本，后面预定部分数据作为正样本，正样本标记为1，负样本标记为0。

7.根据权利要求1-5其中之一所述的方法，其特征在于，所述计算每个分箱证据权重值，及各特征变量相关的预测能力IV值，具体包括：根据各维度特征数据集中每个特征的正样本占比p和负样本占比n，调用公式：

WOE＝ln(p/n)*100％，计算证据权重WOE；根据公式：

8.根据权利要求1-5其中之一所述的方法，其特征在于，根据各维度特征模型预测的结果计算评估模型ROC曲线的AUC值，根据AUC值进行分数评分转换，得到好用户与坏用户的比例值，以及特征变量对应不同分箱的权重，获得各维度最优模型，结合特征变量中每个分箱的证据权重以及好用户与坏用户的比例值，确定特定比例点分值对应系数A、B值，计算每个分箱的评分结果。

9.根据权利要求1-5其中之一所述的方法，其特征在于，将测试集样本输入对应各维度特征模型进行测试，根据预测准确性确定正类数和负类数，根据公式：TPR＝TP/(TP+FN)计算真正例率TPR，根据公式：FPR＝FP/(TN+FP)计算假正例率FPR，以真正例率TPR为纵轴，以假正例率FPR为横轴，在不同的阈值下获得对应坐标点，连接各个坐标点，得到ROC曲线，根据ROC曲线下方的面积AUC值采用评分卡转换进行用户画像分数评分，其中，TP为真正类、FN为假负类、FP为假正类、TN为真负类。

10.根据权利要求7所述的方法，其特征在于，所述筛选对用户画像标签贡献度大的特征构建特征变量数据库包括：调用IV值与预测能力关系表，筛选IV>＝0.1的特征变量作为多维度特征变量数据库中的特征样本，按照一定比例将特征样本划分为训练集和测试集。

11.根据权利要求8所述的方法，其特征在于，设置比例为θ₀的特定点分值为P₀，比例为2θ₀的点的分值为P₀+PDO，根据公式：

12.根据权利要求7所述的方法，其特征在于，根据公式：(B*w_n)*WOE_n1+(B*w_n)*WOE_n2+…+(B*w_n)*WOE_ni计算在某个特征维度用户驾驶行为评分，得到各个维度用户驾驶行为习惯得分，根据得分与设定阈值范围比较对用户驾驶行为习惯进行评级，生成用户画像标签，其中，w_n表示第n个特征变量的权重，WOE_ni表示第n个特征变量的第i个分箱的证据权重值。

13.一种电子设备，包括：

处理器；以及存储程序的存储器，其特征在于，其中，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行根据权利要求1-12中任一项所述的用户画像构建方法。

14.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，其中，所述计算机指令用于使所述计算机执行根据权利要求1-12中任一项所述的用户画像构建方法。

15.一种汽车，其特征在于，包括如权利要求13所述的电子设备。