CN117435906B

CN117435906B - 基于交叉熵的新能源汽车配置特征选择方法

Info

Publication number: CN117435906B
Application number: CN202311742380.1A
Authority: CN
Inventors: 黄伟; 梁谷羿; 周浩; 周海
Original assignee: Hunan Xingbida Netlink Technology Co Ltd
Current assignee: Hunan Xingbida Netlink Technology Co Ltd
Priority date: 2023-12-18
Filing date: 2023-12-18
Publication date: 2024-03-12
Anticipated expiration: 2043-12-18
Also published as: CN117435906A

Abstract

本发明提出一种基于交叉熵的新能源汽车配置特征选择方法，涉及特征选择的技术领域，采用栈自动编码模型对配置特征数据进行压缩降维，将压缩降维后输出的配置特征集作为分类器的输入进行训练，调节栈自动编码模型的模型参数，得到训练好的栈自动编码模型；遍历配置特征集中每一个配置特征数据，计算剔除被遍历配置特征数据后的配置特征集在分类器上的交叉熵损失，以交叉熵损失差值阈值为衡量标准，剔除使交叉熵损失增大的配置特征数据，剩余的配置特征数据，用于汽车销量分类预测，特征选择过程计算简单，计算成本低，便于筛选出与汽车销量相关性较高的配置特征集，有助于为车企更准确地预测出最受欢迎的新能源汽车配置特征组合。

Description

基于交叉熵的新能源汽车配置特征选择方法

技术领域

本发明涉及特征选择的技术领域，更具体地，涉及一种基于交叉熵的新能源汽车配置特征选择方法。

背景技术

新能源汽车的配置特征包括：车身结构、动力***、电池容量、充电方式及智能化***等方面，对新能源汽车进行合理的配置特征数据组合，可以更好的满足消费者需求，提高新能源汽车的市场占有率和竞争力，同时也可以降低生产成本，提高新能源汽车销量和利润率。

新能源汽车配置特征数据组合的困难主要在于配置项数目非常多，每个配置项又有多种特征待选择，因此，组合起来的可能性非常大，难以逐一列举和考虑。而且不同的消费者对于汽车的需求和偏好也不同，需要针对不同的消费者提供不同的汽车配置特征数据组合。为了解决这个问题，汽车企业通常会采用数据分析和机器学习等技术，通过对消费者需求和市场趋势的分析，进行特征选择，然后预测出对汽车销量影响最大的配置特征组合，并将其作为主推配置向消费者推荐。

特征选择是一种从原始数据中选择最相关特征的技术，可以帮助汽车企业预测出最受欢迎的新能源汽车配置特征数据组合，从而提高汽车的销量。在新能源汽车配置特征的选择中，有很多特征需要考虑，例如车辆的续航里程、载重能力、充电时间、价格等。传统的特征选择多采用以下方法：（1）相关性分析法。通过计算各个特征与消费者喜好之间的相关性，从而筛选出与消费者喜好高度相关的特征，然而，在新能源配置特征选择中，很多特征数据无法量化，相关性分析法无法解决非量化指标的问题。（2）主成分分析法。通过主成分分析法，将原始特征转化为一组新的综合特征，筛选出对消费者喜好影响较大的综合特征。但主成分分析法假设数据符合高斯分布，但新能源汽车配置数据分布与该假设不符，则可能导致分析结果不准确，特征选择不可靠的后果。（3）装箱式特征选择法。装箱式特征选择法利用选定的特征集对样本集进行分类，获得特征子集，然后利用分类后的分类精度来判定特征子集的优劣性，从而选择最优特征子集。该方法主要是将分类效果作为特征选择的评价函数，从特定分类算法中选取最优子集，但对每一个候选特征子集均需要训练机器学习算法模型进行评估，计算成本高，速度慢，且容易出现过拟合问题，而且不能保证全局最优，仅能确保近似最优。

发明内容

为解决传统特征选择的方法不适用于新能源汽车配置特征选择，导致特征选择结果不可靠，无法准确用于汽车销量分类预测的问题，本发明提出一种基于交叉熵的新能源汽车配置特征选择方法，特征选择过程计算简单，计算成本低，提高了后续预测的准确性，有助于为车企更准确地预测出最受欢迎的新能源汽车配置特征数据组合。

为了达到上述技术效果，本发明的技术方案如下：

一种基于交叉熵的新能源汽车配置特征选择方法，包括以下步骤：

S1:对新能源汽车的配置特征数据进行预处理，由预处理后的配置特征数据形成配置特征集F ₁；

S2:构建栈自动编码模型，利用栈自动编码模型对配置特征集F ₁的配置特征数据进行压缩降维，得到压缩降维后的配置特征数据，形成配置特征集F ₂；

S3:引入分类器，将配置特征集F ₂作为分类器的输入，以配置特征集F ₂中配置特征数据组合下汽车销量作为分类器的输出，结合配置特征数据组合下汽车销量类别的标签，以交叉熵损失作为损失函数进行训练，调节栈自动编码模型的模型参数，得到训练好的栈自动编码模型；

S4:将配置特征集F ₁输入至训练好的栈自动编码模型，经压缩降维后得到配置特征集F ₃，计算配置特征集F ₃在分类器上的交叉熵损失J _f；

S5:从配置特征集F ₁中的第一个配置特征数据开始，对所有配置特征数据依次遍历，每遍历一个配置特征数据，将该配置特征数据从配置特征集F ₁中剔除，计算剔除该配置特征数据后的配置特征集F ₁在分类器上的交叉熵损失；

S6:当配置特征集F ₁中的所有配置特征数据被遍历完全，得到与被剔除配置特征数据对应的若干个交叉熵损失，形成交叉熵损失数组J；

S7:将交叉熵损失J _f与交叉熵损失数组J中的每个交叉熵损失依次作差，得到交叉熵损失差值，形成交叉熵差数组J _s；

S8:将交叉熵差数组J _s中的每个交叉熵损失差值按升序排列，得到升序排列后的交叉熵损失差值；

S9:设置交叉熵损失差值阈值，确定大于交叉熵损失差值阈值的交叉熵损失差值对应的从配置特征集F ₁中已剔除的配置特征数据，进一步得到配置特征集F ₁中剩余的配置特征数据，组成最优的新能源汽车配置特征集。

通过上述技术手段，首先采用栈自动编码模型对配置特征数据进行压缩降维，无需量化配置特征指标，也无需符合一定的分布，将压缩降维后输出的配置特征集作为分类器的输入，将压缩降维后输出的配置特征集作为分类器的输入进行训练，调节栈自动编码模型的模型参数，得到训练好的栈自动编码模型，然后，遍历配置特征集中每一个配置特征数据，每遍历一个配置特征数据，将该配置特征数据从配置特征集中剔除，计算剔除该配置特征数据后的配置特征集在分类器上的交叉熵损失，并计算未剔除配置特征数据前的配置特征集的交叉熵损失与剔除每一配置特征数据后的配置特征集的交叉熵损失之间的交叉熵损失差值，以交叉熵损失差值阈值为衡量标准，剔除使交叉熵损失增大的配置特征数据，将配置特征集中剩余的配置特征数据，组成最优的新能源汽车配置特征集用于汽车销量分类预测，不需要对每一个候选配置特征集均训练机器学习模型，特征选择过程计算简单，计算成本低，便于筛选出与汽车销量相关性较高的配置特征集，提高了后续预测的准确性，有助于为车企更准确地预测出最受欢迎的新能源汽车配置特征数据组合。

优选地，新能源汽车的配置特征数据包括车型参数、功能、车辆颜色、电池容量、电机功率、续航里程、充电时间、价格、车身重量及车辆月销量；对新能源汽车的配置特征数据进行的预处理操作包括：

数据标注，根据配置特征数据的不同，制定不同的标注规则，使配置特征数据转变为能被识别的机器信息；

数据筛选，对异常或错误配置特征数据进行排除；

数据规范标准化，将配置特征数据中的无数值型数据进行编码处理，转换为数值型数据；

数据去重及归一化，将重复或冗余的配置特征数据进行去重，对配置特征数据中的数值型数据进行归一化处理。

优选地，所述栈自动编码模型包括m层堆栈式连接的自动编码器，每一层自动编码器均包括输入层、隐藏层及输出层，第一层自动编码器的输入层的输入数据假定为第一层自动编码器的输出层的输出数据，第一层自动编码器的输出层的输出数据作为第二层自动编码器的输入层的输入数据，第二层自动编码器的输入层的输入数据作为第二层自动编码器的输出层的输出数据，依次类推，第m-1层自动编码器的输出层的输出数据作为第m层自动编码器的输入层的输入数据，第m层自动编码器的输入层的输入数据假定为第m层自动编码器的输出层的输出数据，逐层进行自动编码器无监督训练，获取输入数据与输出数据的映射关系。

优选地，在逐层进行自动编码器无监督训练中，设第k层自动编码器的输入层的输入数据为x _k，x _k的维数为d _x，通过映射函数f(wx _k+b)将x _k从输入层投影到隐藏层，得到隐藏层输出为：h _k=f(wx _k+b)，其中，h _k的维度为d _h，w为维数是d _h×d _x的权重矩阵参数，b为输入层的偏置参数，然后通过映射函数将h _k映射到输出层，其中，/>为维数是d _x×d _h的权重矩阵参数，/>为输出层的偏置参数，采用梯度下降法训练第k层自动编码器，训练完成，重构出原输入数据x _k，去掉用于重构输出的输出层；

设m层堆栈式连接的自动编码器的输入数据为x，则x通过m层自动编码器处理后，得到的映射关系为：，其中，x的维数大于/>的维数，但/>与x的特征信息一致；

设预处理后的配置特征集F ₁表示为：；

n为正整数，f _i表示配置特征集F ₁中第i个配置特征数据，i=1,2,...，n；将预处理后的配置特征集F ₁输入至栈自动编码模型，栈自动编码模型对配置特征集F ₁中的每一个配置特征数据进行压缩降维，得到压缩降维后的配置特征数据，形成配置特征集F ₂，配置特征集F ₂表示为：；

其中，g _i表示配置特征集F ₂中第i个配置特征数据，i=1,2,...，n，g _i的维数小于f _i的维数。

通过上述技术手段，在逐层进行自动编码器无监督训练中，利用无监督训练方式使每一层自动编码器的输出层尽可能复现输入数据，设定每层自动编码器的输出数据与输入数据相同，输入数据以一定维数表示，经过隐藏层编码后，维数被压缩，但最后仍还原成一个与输入数据特征信息一致的输出数据，便于加快特征选择的速度。

优选地，所述的分类器为softmax分类器，根据汽车月销量的数量划分配置特征数据组合下汽车销量类别，以评分函数映射的值作为不同配置特征数据组合下不同汽车销量类别的分值，其中，F表示配置特征数据组合形成的配置特征集，W表示栈自动编码模型的模型参数；

构建交叉熵损失，表达式为：

其中，Li表示交叉熵损失；y _p表示汽车销量正确类别的标签，S _j表示评分函数映射的值向量中的第j个元素，表示配置特征数据组合下汽车销量类别预测为正确类别y _p的评分值，得到softmax分类函数：

softmax分类函数将评分函数映射的值向量中的每个元素压缩到（0,1）之间，且所有元素值之和为1；z表示评分函数映射的值；t表示预测的某一汽车销量类别，/>表示e的分类类别为正确标签y _p的评分函数映射的值的幂次；

将配置特征集F ₂作为分类器的输入，利用评分函数得出配置特征集F ₂中配置特征数据组合下汽车销量类别的分值，结合配置特征数据组合下汽车销量类别的标签，以交叉熵损失作为训练的损失函数，在训练过程中，调节栈自动编码模型的模型参数W，直至损失函数收敛，得到训练好的栈自动编码模型。

通过上述技术手段，引入交叉熵度量预测的汽车销量分类结果与真实汽车销量类别的差异性，采用有监督训练方式，以交叉熵损失作为包括分类器在内的整体模型训练的损失函数，在训练过程中，调节栈自动编码模型的模型参数W，直至损失函数收敛，得到一个具有分类能力的整体模型。

优选地，在步骤S4中，计算配置特征集F ₃在分类器上的交叉熵损失J _f的过程为：

以评分函数映射，得出配置特征集F ₃中配置特征数据组合下不同汽车销量类别的分值；

结合配置特征数据组合下汽车销量类别的标签，以及评分函数映射的值向量中的第j个元素、配置特征数据组合下汽车销量类别预测为正确类别y _p的评分值，根据交叉熵损失的表达式：

求解出配置特征集F ₃在分类器上的交叉熵损失J _f。

优选地，设配置特征集F ₁表示为：，i=1,2,...,n，在步骤S5中，遍历配置特征集F ₁的第i个配置特征数据/>后，将第i个配置特征数据/>剔除，设剔除配置特征数据/>后的配置特征集为F ₁₁，表示为：/>，配置特征集F ₁₁与配置特征集F ₁相比，减少了一个配置特征数据/>。

优选地，对配置特征集中的n个配置特征数据依次遍历，每遍历一个配置特征数据，将被遍历的特征数据从配置特征集F ₁中剔除，剩余的n-1个配置特征数据组成的配置特征集，共形成n个配置特征集，分别计算n个配置特征集在分类器上的交叉熵损失，依次得到n个交叉熵损失J ₁、J ₂、...、J _i、...、J _n，其中，J ₁表示剔除配置特征集F ₁中第一个配置特征数据后，剩余的n-1个配置特征数据组成的配置特征集在分类器上的交叉熵损失，J ₂表示剔除配置特征集F ₁中第二个配置特征数据后，剩余的n-1个配置特征数据组成的配置特征集在分类器上的交叉熵损失，J _i表示剔除配置特征集F ₁中第i个配置特征数据后，剩余的n-1个配置特征数据组成的配置特征集在分类器上的交叉熵损失，J _n表示剔除配置特征集F ₁中第n个配置特征数据后，剩余的n-1个配置特征数据组成的配置特征集在分类器上的交叉熵损失；n个交叉熵损失J ₁、J ₂、...、J _i、...、J _n形成交叉熵损失数组J，表示为J=[J ₁，J ₂，...，J _i，...，J _n]。

优选地，将交叉熵损失J _f与交叉熵损失数组J中的每个交叉熵损失依次作差，得到交叉熵差数组J _s的表达式为：J _s =[，/>，...，/>，...，/>]，其中，表示交叉熵损失J _f与交叉熵损失数组J中的第i个交叉熵损失作差后得到的交叉熵损失差值，将所有交叉熵损失差值按升序排列，设升序排列后的交叉熵差数组表示为/>， =[/>，/>，...，/>，...，/>]，其中，/>，/>，...，/>，...，/>的值依次增大。

通过上述技术手段，将所有交叉熵损失差值按升序排列，可以看出依次剔除了不同配置特征数据后配置特征集在分类器上的交叉熵损失值的大小变化，识别使交叉熵损失增大的配置特征数据。

优选地，交叉熵损失J _f的值恒定，交叉熵损失差值越大，交叉熵损失差值对应的从配置特征集F ₁中剔除配置特征数据后的配置特征集在分类器上的交叉熵损失越小，以交叉熵损失差值阈值为衡量标准，从配置特征集F ₁中剔除大于交叉熵损失差值阈值时，交叉熵损失差值对应的配置特征数据，使从配置特征集F ₁中剔除配置特征数据后的配置特征集在分类器上的交叉熵损失降低。

通过上述技术手段，从配置特征集F ₁中剔除配置特征数据后的配置特征集在分类器上的交叉熵损失降低，交叉熵损失越小，预测结果越接近真实情况，剔除使交叉熵损失增大的配置特征数据的做法提高了后续预测的准确性，有助于为车企更准确地预测出最受欢迎的新能源汽车配置特征数据组合。

与现有技术相比，本发明技术方案的有益效果是：

本发明提出一种基于交叉熵的新能源汽车配置特征选择方法，采用栈自动编码模型对配置特征数据进行压缩降维，无需量化配置特征指标，也无需符合一定的分布，将压缩降维后输出的配置特征集作为分类器的输入进行训练，调节栈自动编码模型的模型参数，得到训练好的栈自动编码模型；遍历配置特征集中每一个配置特征数据，计算剔除被遍历配置特征数据后的配置特征集在分类器上的交叉熵损失，并计算未剔除配置特征数据前的配置特征集的交叉熵损失与剔除每一配置特征数据后的配置特征集的交叉熵损失之间的交叉熵损失差值，以交叉熵损失差值阈值为衡量标准，剔除使交叉熵损失增大的配置特征数据，将配置特征集中剩余的配置特征数据，组成最优的新能源汽车配置特征集用于配置特征组合汽车销量分类预测，不需要对每一个候选配置特征集均训练机器学习模型，特征选择过程计算简单，计算成本低，便于筛选出与汽车销量相关性较高的配置特征集，提高了后续预测的准确性，有助于为车企更准确地预测出最受欢迎的新能源汽车配置特征组合。

附图说明

图1表示本发明实施例中提出的基于交叉熵的新能源汽车配置特征选择方法的流程图；

图2表示本发明实施例中提出的每层自动编码器中输入数据与输出数据的映射示意图；

图3表示本发明实施例中提出的三层堆栈式连接的自动编码器组成的栈自动编码模型中输入数据与输出数据的映射示意图；

图4表示利用本发明实施例中提出的对配置特征集F ₁中的每一个配置特征数据依次进行遍历，并确定交叉熵损失的示意图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好地说明本实施例，附图某些部位会有省略、放大或缩小，并不代表实际尺寸；

对于本领域技术人员来说，附图中某些公知内容说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

附图中描述位置关系的仅用于示例性说明，不能理解为对本专利的限制；

实施例1

本实施例提出了一种基于交叉熵的新能源汽车配置特征选择方法，该方法的流程示意图参见图1，包括以下步骤：

在本实施例中，采用一种嵌入式方法，将特征数据嵌入栈自动编码模型中，首先采用栈自动编码模型对配置特征数据进行压缩降维，不需要量化指标，也不需要符合高斯分布，适用范围广，将压缩降维后输出的配置特征集作为分类器的输入，将压缩降维后输出的配置特征集作为分类器的输入进行训练，调节栈自动编码模型的模型参数，这里采用一种有监督训练的方式，得到训练好的栈自动编码模型，然后，遍历配置特征集中每一个配置特征数据，每遍历一个配置特征数据，将该配置特征数据从配置特征集中剔除，计算剔除该配置特征数据后的配置特征集在分类器上的交叉熵损失，并计算未剔除配置特征数据前的配置特征集的交叉熵损失与剔除每一配置特征数据后的配置特征集的交叉熵损失之间的交叉熵损失差值，以交叉熵损失差值阈值为衡量标准，剔除使交叉熵损失增大的配置特征数据，将配置特征集中剩余的配置特征数据，组成最优的新能源汽车配置特征集用于汽车销量分类预测，特征选择过程计算简单，计算成本低，便于筛选出与汽车销量相关性较高的配置特征集，提高了后续预测的准确性，有助于为车企更准确地预测出最受欢迎的新能源汽车配置特征数据组合。

在本实施例中，新能源汽车的配置特征数据包括车型参数、功能、车辆颜色、电池容量、电机功率、续航里程、充电时间、价格、车身重量及车辆月销量；对新能源汽车的配置特征数据进行的预处理操作包括：

（1）数据标注，考虑数据标注是大部分人工智能算法得以有效运行的关键环节，在本实施例中，根据配置特征数据的不同，制定不同的标注规则，使配置特征数据转变为能被识别的机器信息；首先，收集新能源汽车配置特征数据，确定标注规则：根据车型参数、功能、车辆颜色、电池容量、电机功率、续航里程、充电时间、价格、车身重量及车辆月销量等不同配置特征数据，制定相应的标注规则。例如，对于车辆颜色，可以制定如下的规则：“白色=1、灰色=2、黄色=3、粉色=4、红色=5、紫色=6、绿色=7、蓝色=8、棕色=9、黑色=10”，以此类推，用数字标号标注，非量化指标可以被识别。对于车辆月销量，可以制定如下的标注规则：“车辆月销量低于1000=1、车辆月销量高于1000，低于2000=2、车辆月销量高于2000，低于3000=3”，以此追加。

（2）数据筛选，对异常或错误配置特征数据进行排除；例如空值、超范围值、错误数据等进行处理。

（3）数据规范标准化，将配置特征数据中的无数值型数据进行编码处理，转换为数值型数据；对于新能源汽车的配置特征，例如对于车型、颜色等分类数据进行编码处理，将分类数据转换为可分析的数值型数据。

（4）数据去重及归一化：对于新能源汽车的配置特征数据，可能存在重复或冗余的数据，需要进行去重处理，将重复或冗余的配置特征数据进行去重，对配置特征数据中的数值型数据进行归一化处理，将数据范围归一化到[0,1]之间，以方便后续的分析和处理。

实施例2

本实施例对实施例1中构建的栈自动编码模型进行详细说明。栈自动编码模型包括m层堆栈式连接的自动编码器，以便更好地理解和分析新能源配置特征数据。每一层自动编码器均包括输入层、隐藏层及输出层，在本实施例中，m取3，将每一层的初始输入数据信息作为假定的输出数据信息，当前层自动编码器以前一层自动编码器的输出数据特征为基础，则：第一层自动编码器的输入层的输入数据假定为第一层自动编码器的输出层的输出数据，第一层自动编码器的输出层的输出数据作为第二层自动编码器的输入层的输入数据，第二层自动编码器的输入层的输入数据作为第二层自动编码器的输出层的输出数据，第二层自动编码器的输出层的输出数据作为第三层自动编码器的输入层的输入数据，第三层自动编码器的输入层的输入数据假定为第三层自动编码器的输出层的输出数据，逐层进行自动编码器无监督训练，获取输入数据与输出数据的映射关系。

具体的，在逐层进行自动编码器无监督训练中，以第k层自动编码器为例，参见图2，设第k层自动编码器的输入层的输入数据为x _k，x _k的维数为d _x，通过映射函数f(wx _k+b)将x _k从输入层投影到隐藏层，得到隐藏层输出为：h _k=f(wx _k+b)，其中，h _k的维度为d _h，w为维数是d _h×d _x的权重矩阵参数，b为输入层的偏置参数，然后通过映射函数将h _k映射到输出层，其中，/>为维数是d _x×d _h的权重矩阵参数，/>为输出层的偏置参数，采用梯度下降法训练第k层自动编码器，训练完成，重构出原输入数据x _k，去掉用于重构输出的输出层。那么，设3层堆栈式连接的自动编码器的输入数据为x，则x通过3层自动编码器处理后，得到的映射关系为：/>，其中，x的维数大于/>的维数，但/>与x的特征信息一致；当训练过程结束后，每层自动编码器的输出层部分就可以舍弃，因为栈自动编码模型仅着重于从输入x到隐藏层输出特征表示/>之间的特征映射，例如得到第一层自动编码器的隐藏层输出特征表示h ₁之后，再次将h ₁作为原始输入，训练第二层新的自动编码器，得到新的隐藏层输出特征表示h ₂，以此类推，就可以迭代成为3层栈自动编码模型，映射示意图如图3所示。

设预处理后的配置特征集F ₁表示为：；

在本实施例中，在逐层进行自动编码器无监督训练中，利用无监督训练方式使每一层自动编码器的输出层尽可能复现输入数据，设定每层自动编码器的输出数据与输入数据相同，输入数据以一定维数表示，经过隐藏层编码后，维数被压缩，但最后仍还原成一个与输入数据特征信息一致的输出数据，便于加快特征选择的速度。

实施例3

在本实施例中，分类器为softmax分类器，根据汽车月销量的数量划分配置特征组合汽车销量类别，如前所述，设定车辆月销量低于1000为一类、车辆月销量高于1000，低于2000为二类，车辆月销量高于2000，低于3000为三类，通过新能源汽车配置特征集预测新能源汽车销量分类问题，以评分函数映射的值作为不同配置特征数据组合下不同汽车销量类别的分值，其中，F表示配置特征数据组合形成的配置特征集，W表示栈自动编码模型的模型参数。

在本实施例中，引入交叉熵度量预测的汽车销量分类结果与真实汽车销量类别的差异性，构建交叉熵损失，表达式为：

softmax分类函数将评分函数映射的值向量中的每个元素压缩到（0,1）之间，且所有元素值之和为1；z表示评分函数映射的值；t表示预测的某一汽车销量类别，/>表示e的分类类别为正确标签y _p的评分函数映射的值的幂次。

将配置特征集F ₂作为分类器的输入，利用评分函数得出配置特征集F ₂中配置特征数据组合下汽车销量类别的分值，结合配置特征数据组合下汽车销量类别的标签，以交叉熵损失作为训练的损失函数，在训练过程中，比较分类输出值与汽车销量类别的标签实际值，将分类错误的梯度值反向传播给栈自动编码模型，调节栈自动编码模型的模型参数W，直至损失函数收敛，得到训练好的栈自动编码模型，整个过程采用有监督训练方式，以交叉熵损失作为包括分类器在内的整体模型训练的损失函数，在训练过程中，调节栈自动编码模型的模型参数W，直至损失函数收敛，得到一个具有分类能力的整体模型。

利用上述训练好的栈自动编码模型，在步骤S4中，计算配置特征集F ₃在分类器上的交叉熵损失J _f的过程为：

求解出配置特征集F ₃在分类器上的交叉熵损失J _f。

实施例3

本实施例对配置特征集中配置特征数据的遍历过程进行说明。首先，设配置特征集F ₁表示为：，i=1,2,...,n，在步骤S5中，遍历配置特征集F ₁的第i个配置特征数据/>后，将第i个配置特征数据/>剔除，设剔除配置特征数据/>后的配置特征集为F ₁₁，表示为：/>，配置特征集F ₁₁与配置特征集F ₁相比，减少了一个配置特征数据/>。

如图4所示，对配置特征集中的n个配置特征数据依次遍历，每遍历一个配置特征数据，将被遍历的特征数据从配置特征集F ₁中剔除，剩余的n-1个配置特征数据组成的配置特征集，共形成n个配置特征集，分别计算n个配置特征集在分类器上的交叉熵损失，依次得到n个交叉熵损失J ₁、J ₂、...、J _i、...、J _n，其中，J ₁表示剔除配置特征集F ₁中第一个配置特征数据后，剩余的n-1个配置特征数据组成的配置特征集在分类器上的交叉熵损失，J ₂表示剔除配置特征集F ₁中第二个配置特征数据后，剩余的n-1个配置特征数据组成的配置特征集在分类器上的交叉熵损失，J _i表示剔除配置特征集F ₁中第i个配置特征数据后，剩余的n-1个配置特征数据组成的配置特征集在分类器上的交叉熵损失，J _n表示剔除配置特征集F ₁中第n个配置特征数据后，剩余的n-1个配置特征数据组成的配置特征集在分类器上的交叉熵损失；n个交叉熵损失J ₁、J ₂、...、J _i、...、J _n形成交叉熵损失数组J，表示为J=[J ₁，J ₂，...，J _i，...，J _n]。

然后，将交叉熵损失J _f与交叉熵损失数组J中的每个交叉熵损失依次作差，得到交叉熵差数组J _s的表达式为：J _s =[，/>，...，/>，...，/>]，其中，/>表示交叉熵损失J _f与交叉熵损失数组J中的第i个交叉熵损失作差后得到的交叉熵损失差值，将所有交叉熵损失差值按升序排列，设升序排列后的交叉熵差数组表示为/>，/> =[/>，/>，...，/>，...，/>]，其中，/>，/>，...，/>，...，/>的值依次增大。在本实施例中，将所有交叉熵损失差值按升序排列，可以看出依次剔除了不同配置特征数据后配置特征集在分类器上的交叉熵损失值的大小变化，识别使交叉熵损失增大的配置特征数据。

在该过程中，交叉熵损失J _f的值恒定，交叉熵损失差值越大，交叉熵损失差值对应的从配置特征集F ₁中剔除配置特征数据后的配置特征集在分类器上的交叉熵损失越小，以交叉熵损失差值阈值为衡量标准，从配置特征集F ₁中剔除大于交叉熵损失差值阈值时，交叉熵损失差值对应的配置特征数据，使从配置特征集F ₁中剔除配置特征数据后的配置特征集在分类器上的交叉熵损失降低。交叉熵损失越小，预测结果越接近真实情况，剔除使交叉熵损失增大的配置特征数据的做法提高了后续预测的准确性，有助于为车企更准确地预测出最受欢迎的新能源汽车配置特征数据组合。

实施例仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于交叉熵的新能源汽车配置特征选择方法，其特征在于，包括以下步骤：

交叉熵损失表达式为：

其中，Li表示交叉熵损失；y _p表示汽车销量正确类别的标签，S _j表示评分函数映射的值向量中的第j个元素，表示配置特征数据组合下汽车销量类别预测为正确类别y _p的评分值;

2.根据权利要求1所述的基于交叉熵的新能源汽车配置特征选择方法，其特征在于，新能源汽车的配置特征数据包括车型参数、功能、车辆颜色、电池容量、电机功率、续航里程、充电时间、价格、车身重量及车辆月销量；对新能源汽车的配置特征数据进行的预处理操作包括：

数据筛选，对异常或错误配置特征数据进行排除；

3.根据权利要求1所述的基于交叉熵的新能源汽车配置特征选择方法，其特征在于，所述栈自动编码模型包括m层堆栈式连接的自动编码器，每一层自动编码器均包括输入层、隐藏层及输出层，第一层自动编码器的输入层的输入数据假定为第一层自动编码器的输出层的输出数据，第一层自动编码器的输出层的输出数据作为第二层自动编码器的输入层的输入数据，第二层自动编码器的输入层的输入数据作为第二层自动编码器的输出层的输出数据，依次类推，第m-1层自动编码器的输出层的输出数据作为第m层自动编码器的输入层的输入数据，第m层自动编码器的输入层的输入数据假定为第m层自动编码器的输出层的输出数据，逐层进行自动编码器无监督训练，获取输入数据与输出数据的映射关系。

4.根据权利要求3所述的基于交叉熵的新能源汽车配置特征选择方法，其特征在于，在逐层进行自动编码器无监督训练中，设第k层自动编码器的输入层的输入数据为x _k，x _k的维数为d _x，通过映射函数f(wx _k+b)将x _k从输入层投影到隐藏层，得到隐藏层输出为：h _k=f(wx _k+b)，其中，h _k的维度为d _h，w为维数是d _h×d _x的权重矩阵参数，b为输入层的偏置参数，然后通过映射函数将h _k映射到输出层，其中，/>为维数是d _x×d _h的权重矩阵参数，/>为输出层的偏置参数，采用梯度下降法训练第k层自动编码器，训练完成，重构出原输入数据x _k，去掉用于重构输出的输出层；

设预处理后的配置特征集F ₁表示为：；

5.根据权利要求4所述的基于交叉熵的新能源汽车配置特征选择方法，其特征在于，所述的分类器为softmax分类器，根据汽车月销量的数量划分配置特征数据组合下汽车销量类别，以评分函数映射的值作为不同配置特征数据组合下不同汽车销量类别的分值，其中，F表示配置特征数据组合形成的配置特征集，W表示栈自动编码模型的模型参数；

构建交叉熵损失，表达式为：

softmax分类函数将评分函数映射的值向量中的每个元素压缩到（0,1）之间，且所有元素值之和为1；z表示评分函数映射的值；t表示预测的某一汽车销量类别，表示e的分类类别为正确标签y _p的评分函数映射的值的幂次；

6.根据权利要求5所述的基于交叉熵的新能源汽车配置特征选择方法，其特征在于，在步骤S4中，计算配置特征集F ₃在分类器上的交叉熵损失J _f的过程为：

求解出配置特征集F ₃在分类器上的交叉熵损失J _f。

7.根据权利要求6所述的基于交叉熵的新能源汽车配置特征选择方法，其特征在于，设配置特征集F ₁表示为：，i=1,2,...,n，在步骤S5中，遍历配置特征集F ₁的第i个配置特征数据/>后，将第i个配置特征数据/>剔除，设剔除配置特征数据/>后的配置特征集为F ₁₁，表示为：/>，配置特征集F ₁₁与配置特征集F ₁相比，减少了一个配置特征数据/>。

8.根据权利要求7所述的基于交叉熵的新能源汽车配置特征选择方法，其特征在于，对配置特征集中的n个配置特征数据依次遍历，每遍历一个配置特征数据，将被遍历的特征数据从配置特征集F ₁中剔除，剩余的n-1个配置特征数据组成的配置特征集，共形成n个配置特征集，分别计算n个配置特征集在分类器上的交叉熵损失，依次得到n个交叉熵损失J ₁、J ₂、...、J _i、...、J _n，其中，J ₁表示剔除配置特征集F ₁中第一个配置特征数据后，剩余的n-1个配置特征数据组成的配置特征集在分类器上的交叉熵损失，J ₂表示剔除配置特征集F ₁中第二个配置特征数据后，剩余的n-1个配置特征数据组成的配置特征集在分类器上的交叉熵损失，J _i表示剔除配置特征集F ₁中第i个配置特征数据后，剩余的n-1个配置特征数据组成的配置特征集在分类器上的交叉熵损失，J _n表示剔除配置特征集F ₁中第n个配置特征数据后，剩余的n-1个配置特征数据组成的配置特征集在分类器上的交叉熵损失；n个交叉熵损失J ₁、J ₂、...、J _i、...、J _n形成交叉熵损失数组J，表示为J=[J ₁，J ₂，...，J _i，...，J _n]。

9.根据权利要求8所述的基于交叉熵的新能源汽车配置特征选择方法，其特征在于，将交叉熵损失J _f与交叉熵损失数组J中的每个交叉熵损失依次作差，得到交叉熵差数组J _s的表达式为：J _s =[，/>，...，/>，...，/>]，其中，/>表示交叉熵损失J _f与交叉熵损失数组J中的第i个交叉熵损失作差后得到的交叉熵损失差值，将所有交叉熵损失差值按升序排列，设升序排列后的交叉熵差数组表示为/>，/> =[/>，/>，...，/>，...，/>]，其中，/>，/>，...，/>，...，/>的值依次增大。

10.根据权利要求1或9所述的基于交叉熵的新能源汽车配置特征选择方法，其特征在于，交叉熵损失J _f的值恒定，交叉熵损失差值越大，交叉熵损失差值对应的从配置特征集F ₁中剔除配置特征数据后的配置特征集在分类器上的交叉熵损失越小，以交叉熵损失差值阈值为衡量标准，从配置特征集F ₁中剔除大于交叉熵损失差值阈值时，交叉熵损失差值对应的配置特征数据，使从配置特征集F ₁中剔除配置特征数据后的配置特征集在分类器上的交叉熵损失降低。