CN117435906B - 基于交叉熵的新能源汽车配置特征选择方法 - Google Patents
基于交叉熵的新能源汽车配置特征选择方法 Download PDFInfo
- Publication number
- CN117435906B CN117435906B CN202311742380.1A CN202311742380A CN117435906B CN 117435906 B CN117435906 B CN 117435906B CN 202311742380 A CN202311742380 A CN 202311742380A CN 117435906 B CN117435906 B CN 117435906B
- Authority
- CN
- China
- Prior art keywords
- configuration
- data
- cross entropy
- configuration feature
- entropy loss
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000010187 selection method Methods 0.000 title claims abstract description 18
- 230000006835 compression Effects 0.000 claims abstract description 15
- 238000007906 compression Methods 0.000 claims abstract description 15
- 230000009467 reduction Effects 0.000 claims abstract description 15
- 238000005259 measurement Methods 0.000 claims abstract description 8
- 238000000034 method Methods 0.000 claims description 50
- 230000006870 function Effects 0.000 claims description 35
- 238000012549 training Methods 0.000 claims description 32
- 238000013507 mapping Methods 0.000 claims description 22
- 230000008569 process Effects 0.000 claims description 19
- 230000001174 ascending effect Effects 0.000 claims description 14
- 239000013598 vector Substances 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 9
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 6
- 230000037396 body weight Effects 0.000 claims description 4
- 239000003086 colorant Substances 0.000 claims description 4
- 230000002159 abnormal effect Effects 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 239000000463 material Substances 0.000 claims description 3
- 238000002360 preparation method Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 230000000875 corresponding effect Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 5
- 238000009826 distribution Methods 0.000 description 4
- 238000002372 labelling Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000012847 principal component analysis method Methods 0.000 description 3
- 238000013139 quantization Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000010219 correlation analysis Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012856 packing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
- G06F18/2113—Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/10—Pre-processing; Data cleansing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提出一种基于交叉熵的新能源汽车配置特征选择方法,涉及特征选择的技术领域,采用栈自动编码模型对配置特征数据进行压缩降维,将压缩降维后输出的配置特征集作为分类器的输入进行训练,调节栈自动编码模型的模型参数,得到训练好的栈自动编码模型;遍历配置特征集中每一个配置特征数据,计算剔除被遍历配置特征数据后的配置特征集在分类器上的交叉熵损失,以交叉熵损失差值阈值为衡量标准,剔除使交叉熵损失增大的配置特征数据,剩余的配置特征数据,用于汽车销量分类预测,特征选择过程计算简单,计算成本低,便于筛选出与汽车销量相关性较高的配置特征集,有助于为车企更准确地预测出最受欢迎的新能源汽车配置特征组合。
Description
技术领域
本发明涉及特征选择的技术领域,更具体地,涉及一种基于交叉熵的新能源汽车配置特征选择方法。
背景技术
新能源汽车的配置特征包括:车身结构、动力***、电池容量、充电方式及智能化***等方面,对新能源汽车进行合理的配置特征数据组合,可以更好的满足消费者需求,提高新能源汽车的市场占有率和竞争力,同时也可以降低生产成本,提高新能源汽车销量和利润率。
新能源汽车配置特征数据组合的困难主要在于配置项数目非常多,每个配置项又有多种特征待选择,因此,组合起来的可能性非常大,难以逐一列举和考虑。而且不同的消费者对于汽车的需求和偏好也不同,需要针对不同的消费者提供不同的汽车配置特征数据组合。为了解决这个问题,汽车企业通常会采用数据分析和机器学习等技术,通过对消费者需求和市场趋势的分析,进行特征选择,然后预测出对汽车销量影响最大的配置特征组合,并将其作为主推配置向消费者推荐。
特征选择是一种从原始数据中选择最相关特征的技术,可以帮助汽车企业预测出最受欢迎的新能源汽车配置特征数据组合,从而提高汽车的销量。在新能源汽车配置特征的选择中,有很多特征需要考虑,例如车辆的续航里程、载重能力、充电时间、价格等。传统的特征选择多采用以下方法:(1)相关性分析法。通过计算各个特征与消费者喜好之间的相关性,从而筛选出与消费者喜好高度相关的特征,然而,在新能源配置特征选择中,很多特征数据无法量化,相关性分析法无法解决非量化指标的问题。(2)主成分分析法。通过主成分分析法,将原始特征转化为一组新的综合特征,筛选出对消费者喜好影响较大的综合特征。但主成分分析法假设数据符合高斯分布,但新能源汽车配置数据分布与该假设不符,则可能导致分析结果不准确,特征选择不可靠的后果。(3)装箱式特征选择法。装箱式特征选择法利用选定的特征集对样本集进行分类,获得特征子集,然后利用分类后的分类精度来判定特征子集的优劣性,从而选择最优特征子集。该方法主要是将分类效果作为特征选择的评价函数,从特定分类算法中选取最优子集,但对每一个候选特征子集均需要训练机器学习算法模型进行评估,计算成本高,速度慢,且容易出现过拟合问题,而且不能保证全局最优,仅能确保近似最优。
发明内容
为解决传统特征选择的方法不适用于新能源汽车配置特征选择,导致特征选择结果不可靠,无法准确用于汽车销量分类预测的问题,本发明提出一种基于交叉熵的新能源汽车配置特征选择方法,特征选择过程计算简单,计算成本低,提高了后续预测的准确性,有助于为车企更准确地预测出最受欢迎的新能源汽车配置特征数据组合。
为了达到上述技术效果,本发明的技术方案如下:
一种基于交叉熵的新能源汽车配置特征选择方法,包括以下步骤:
S1:对新能源汽车的配置特征数据进行预处理,由预处理后的配置特征数据形成配置特征集F 1;
S2:构建栈自动编码模型,利用栈自动编码模型对配置特征集F 1的配置特征数据进行压缩降维,得到压缩降维后的配置特征数据,形成配置特征集F 2;
S3:引入分类器,将配置特征集F 2作为分类器的输入,以配置特征集F 2中配置特征数据组合下汽车销量作为分类器的输出,结合配置特征数据组合下汽车销量类别的标签,以交叉熵损失作为损失函数进行训练,调节栈自动编码模型的模型参数,得到训练好的栈自动编码模型;
S4:将配置特征集F 1输入至训练好的栈自动编码模型,经压缩降维后得到配置特征集F 3,计算配置特征集F 3在分类器上的交叉熵损失J f;
S5:从配置特征集F 1中的第一个配置特征数据开始,对所有配置特征数据依次遍历,每遍历一个配置特征数据,将该配置特征数据从配置特征集F 1中剔除,计算剔除该配置特征数据后的配置特征集F 1在分类器上的交叉熵损失;
S6:当配置特征集F 1中的所有配置特征数据被遍历完全,得到与被剔除配置特征数据对应的若干个交叉熵损失,形成交叉熵损失数组J;
S7:将交叉熵损失J f与交叉熵损失数组J中的每个交叉熵损失依次作差,得到交叉熵损失差值,形成交叉熵差数组J s;
S8:将交叉熵差数组J s中的每个交叉熵损失差值按升序排列,得到升序排列后的交叉熵损失差值;
S9:设置交叉熵损失差值阈值,确定大于交叉熵损失差值阈值的交叉熵损失差值对应的从配置特征集F 1中已剔除的配置特征数据,进一步得到配置特征集F 1中剩余的配置特征数据,组成最优的新能源汽车配置特征集。
通过上述技术手段,首先采用栈自动编码模型对配置特征数据进行压缩降维,无需量化配置特征指标,也无需符合一定的分布,将压缩降维后输出的配置特征集作为分类器的输入,将压缩降维后输出的配置特征集作为分类器的输入进行训练,调节栈自动编码模型的模型参数,得到训练好的栈自动编码模型,然后,遍历配置特征集中每一个配置特征数据,每遍历一个配置特征数据,将该配置特征数据从配置特征集中剔除,计算剔除该配置特征数据后的配置特征集在分类器上的交叉熵损失,并计算未剔除配置特征数据前的配置特征集的交叉熵损失与剔除每一配置特征数据后的配置特征集的交叉熵损失之间的交叉熵损失差值,以交叉熵损失差值阈值为衡量标准,剔除使交叉熵损失增大的配置特征数据,将配置特征集中剩余的配置特征数据,组成最优的新能源汽车配置特征集用于汽车销量分类预测,不需要对每一个候选配置特征集均训练机器学习模型,特征选择过程计算简单,计算成本低,便于筛选出与汽车销量相关性较高的配置特征集,提高了后续预测的准确性,有助于为车企更准确地预测出最受欢迎的新能源汽车配置特征数据组合。
优选地,新能源汽车的配置特征数据包括车型参数、功能、车辆颜色、电池容量、电机功率、续航里程、充电时间、价格、车身重量及车辆月销量;对新能源汽车的配置特征数据进行的预处理操作包括:
数据标注,根据配置特征数据的不同,制定不同的标注规则,使配置特征数据转变为能被识别的机器信息;
数据筛选,对异常或错误配置特征数据进行排除;
数据规范标准化,将配置特征数据中的无数值型数据进行编码处理,转换为数值型数据;
数据去重及归一化,将重复或冗余的配置特征数据进行去重,对配置特征数据中的数值型数据进行归一化处理。
优选地,所述栈自动编码模型包括m层堆栈式连接的自动编码器,每一层自动编码器均包括输入层、隐藏层及输出层,第一层自动编码器的输入层的输入数据假定为第一层自动编码器的输出层的输出数据,第一层自动编码器的输出层的输出数据作为第二层自动编码器的输入层的输入数据,第二层自动编码器的输入层的输入数据作为第二层自动编码器的输出层的输出数据,依次类推,第m-1层自动编码器的输出层的输出数据作为第m层自动编码器的输入层的输入数据,第m层自动编码器的输入层的输入数据假定为第m层自动编码器的输出层的输出数据,逐层进行自动编码器无监督训练,获取输入数据与输出数据的映射关系。
优选地,在逐层进行自动编码器无监督训练中,设第k层自动编码器的输入层的输入数据为x k,x k的维数为d x,通过映射函数f(wx k+b)将x k从输入层投影到隐藏层,得到隐藏层输出为:h k=f(wx k+b),其中,h k的维度为d h,w为维数是d h×d x的权重矩阵参数,b为输入层的偏置参数,然后通过映射函数将h k映射到输出层,其中,/>为维数是d x×d h的权重矩阵参数,/>为输出层的偏置参数,采用梯度下降法训练第k层自动编码器,训练完成,重构出原输入数据x k,去掉用于重构输出的输出层;
设m层堆栈式连接的自动编码器的输入数据为x,则x通过m层自动编码器处理后,得到的映射关系为:,其中,x的维数大于/>的维数,但/>与x的特征信息一致;
设预处理后的配置特征集F 1表示为:;
n为正整数,f i表示配置特征集F 1中第i个配置特征数据,i=1,2,...,n;将预处理后的配置特征集F 1输入至栈自动编码模型,栈自动编码模型对配置特征集F 1中的每一个配置特征数据进行压缩降维,得到压缩降维后的配置特征数据,形成配置特征集F 2,配置特征集F 2表示为:;
其中,g i表示配置特征集F 2中第i个配置特征数据,i=1,2,...,n,g i的维数小于f i的维数。
通过上述技术手段,在逐层进行自动编码器无监督训练中,利用无监督训练方式使每一层自动编码器的输出层尽可能复现输入数据,设定每层自动编码器的输出数据与输入数据相同,输入数据以一定维数表示,经过隐藏层编码后,维数被压缩,但最后仍还原成一个与输入数据特征信息一致的输出数据,便于加快特征选择的速度。
优选地,所述的分类器为softmax分类器,根据汽车月销量的数量划分配置特征数据组合下汽车销量类别,以评分函数映射的值作为不同配置特征数据组合下不同汽车销量类别的分值,其中,F表示配置特征数据组合形成的配置特征集,W表示栈自动编码模型的模型参数;
构建交叉熵损失,表达式为:
其中,Li表示交叉熵损失;y p表示汽车销量正确类别的标签,S j表示评分函数映射的值向量中的第j个元素,表示配置特征数据组合下汽车销量类别预测为正确类别y p的评分值,得到softmax分类函数:
softmax分类函数将评分函数映射的值向量中的每个元素压缩到(0,1)之间,且所有元素值之和为1;z表示评分函数映射的值;t表示预测的某一汽车销量类别,/>表示e的分类类别为正确标签y p的评分函数映射的值的幂次;
将配置特征集F 2作为分类器的输入,利用评分函数得出配置特征集F 2中配置特征数据组合下汽车销量类别的分值,结合配置特征数据组合下汽车销量类别的标签,以交叉熵损失作为训练的损失函数,在训练过程中,调节栈自动编码模型的模型参数W,直至损失函数收敛,得到训练好的栈自动编码模型。
通过上述技术手段,引入交叉熵度量预测的汽车销量分类结果与真实汽车销量类别的差异性,采用有监督训练方式,以交叉熵损失作为包括分类器在内的整体模型训练的损失函数,在训练过程中,调节栈自动编码模型的模型参数W,直至损失函数收敛,得到一个具有分类能力的整体模型。
优选地,在步骤S4中,计算配置特征集F 3在分类器上的交叉熵损失J f的过程为:
以评分函数映射,得出配置特征集F 3中配置特征数据组合下不同汽车销量类别的分值;
结合配置特征数据组合下汽车销量类别的标签,以及评分函数映射的值向量中的第j个元素、配置特征数据组合下汽车销量类别预测为正确类别y p的评分值,根据交叉熵损失的表达式:
求解出配置特征集F 3在分类器上的交叉熵损失J f。
优选地,设配置特征集F 1表示为:,i=1,2,...,n,在步骤S5中,遍历配置特征集F 1的第i个配置特征数据/>后,将第i个配置特征数据/>剔除,设剔除配置特征数据/>后的配置特征集为F 11,表示为:/>,配置特征集F 11与配置特征集F 1相比,减少了一个配置特征数据/>。
优选地,对配置特征集中的n个配置特征数据依次遍历,每遍历一个配置特征数据,将被遍历的特征数据从配置特征集F 1中剔除,剩余的n-1个配置特征数据组成的配置特征集,共形成n个配置特征集,分别计算n个配置特征集在分类器上的交叉熵损失,依次得到n个交叉熵损失J 1、J 2、...、J i、...、J n,其中,J 1表示剔除配置特征集F 1中第一个配置特征数据后,剩余的n-1个配置特征数据组成的配置特征集在分类器上的交叉熵损失,J 2表示剔除配置特征集F 1中第二个配置特征数据后,剩余的n-1个配置特征数据组成的配置特征集在分类器上的交叉熵损失,J i表示剔除配置特征集F 1中第i个配置特征数据后,剩余的n-1个配置特征数据组成的配置特征集在分类器上的交叉熵损失,J n表示剔除配置特征集F 1中第n个配置特征数据后,剩余的n-1个配置特征数据组成的配置特征集在分类器上的交叉熵损失;n个交叉熵损失J 1、J 2、...、J i、...、J n形成交叉熵损失数组J,表示为J=[J 1,J 2,...,J i,...,J n]。
优选地,将交叉熵损失J f与交叉熵损失数组J中的每个交叉熵损失依次作差,得到交叉熵差数组J s的表达式为:J s =[,/>,...,/>,...,/>],其中,表示交叉熵损失J f与交叉熵损失数组J中的第i个交叉熵损失作差后得到的交叉熵损失差值,将所有交叉熵损失差值按升序排列,设升序排列后的交叉熵差数组表示为/>, =[/>,/>,...,/>,...,/>],其中,/>,/>,...,/>,...,/>的值依次增大。
通过上述技术手段,将所有交叉熵损失差值按升序排列,可以看出依次剔除了不同配置特征数据后配置特征集在分类器上的交叉熵损失值的大小变化,识别使交叉熵损失增大的配置特征数据。
优选地,交叉熵损失J f的值恒定,交叉熵损失差值越大,交叉熵损失差值对应的从配置特征集F 1中剔除配置特征数据后的配置特征集在分类器上的交叉熵损失越小,以交叉熵损失差值阈值为衡量标准,从配置特征集F 1中剔除大于交叉熵损失差值阈值时,交叉熵损失差值对应的配置特征数据,使从配置特征集F 1中剔除配置特征数据后的配置特征集在分类器上的交叉熵损失降低。
通过上述技术手段,从配置特征集F 1中剔除配置特征数据后的配置特征集在分类器上的交叉熵损失降低,交叉熵损失越小,预测结果越接近真实情况,剔除使交叉熵损失增大的配置特征数据的做法提高了后续预测的准确性,有助于为车企更准确地预测出最受欢迎的新能源汽车配置特征数据组合。
与现有技术相比,本发明技术方案的有益效果是:
本发明提出一种基于交叉熵的新能源汽车配置特征选择方法,采用栈自动编码模型对配置特征数据进行压缩降维,无需量化配置特征指标,也无需符合一定的分布,将压缩降维后输出的配置特征集作为分类器的输入进行训练,调节栈自动编码模型的模型参数,得到训练好的栈自动编码模型;遍历配置特征集中每一个配置特征数据,计算剔除被遍历配置特征数据后的配置特征集在分类器上的交叉熵损失,并计算未剔除配置特征数据前的配置特征集的交叉熵损失与剔除每一配置特征数据后的配置特征集的交叉熵损失之间的交叉熵损失差值,以交叉熵损失差值阈值为衡量标准,剔除使交叉熵损失增大的配置特征数据,将配置特征集中剩余的配置特征数据,组成最优的新能源汽车配置特征集用于配置特征组合汽车销量分类预测,不需要对每一个候选配置特征集均训练机器学习模型,特征选择过程计算简单,计算成本低,便于筛选出与汽车销量相关性较高的配置特征集,提高了后续预测的准确性,有助于为车企更准确地预测出最受欢迎的新能源汽车配置特征组合。
附图说明
图1表示本发明实施例中提出的基于交叉熵的新能源汽车配置特征选择方法的流程图;
图2表示本发明实施例中提出的每层自动编码器中输入数据与输出数据的映射示意图;
图3表示本发明实施例中提出的三层堆栈式连接的自动编码器组成的栈自动编码模型中输入数据与输出数据的映射示意图;
图4表示利用本发明实施例中提出的对配置特征集F 1中的每一个配置特征数据依次进行遍历,并确定交叉熵损失的示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好地说明本实施例,附图某些部位会有省略、放大或缩小,并不代表实际尺寸;
对于本领域技术人员来说,附图中某些公知内容说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
附图中描述位置关系的仅用于示例性说明,不能理解为对本专利的限制;
实施例1
本实施例提出了一种基于交叉熵的新能源汽车配置特征选择方法,该方法的流程示意图参见图1,包括以下步骤:
S1:对新能源汽车的配置特征数据进行预处理,由预处理后的配置特征数据形成配置特征集F 1;
S2:构建栈自动编码模型,利用栈自动编码模型对配置特征集F 1的配置特征数据进行压缩降维,得到压缩降维后的配置特征数据,形成配置特征集F 2;
S3:引入分类器,将配置特征集F 2作为分类器的输入,以配置特征集F 2中配置特征数据组合下汽车销量作为分类器的输出,结合配置特征数据组合下汽车销量类别的标签,以交叉熵损失作为损失函数进行训练,调节栈自动编码模型的模型参数,得到训练好的栈自动编码模型;
S4:将配置特征集F 1输入至训练好的栈自动编码模型,经压缩降维后得到配置特征集F 3,计算配置特征集F 3在分类器上的交叉熵损失J f;
S5:从配置特征集F 1中的第一个配置特征数据开始,对所有配置特征数据依次遍历,每遍历一个配置特征数据,将该配置特征数据从配置特征集F 1中剔除,计算剔除该配置特征数据后的配置特征集F 1在分类器上的交叉熵损失;
S6:当配置特征集F 1中的所有配置特征数据被遍历完全,得到与被剔除配置特征数据对应的若干个交叉熵损失,形成交叉熵损失数组J;
S7:将交叉熵损失J f与交叉熵损失数组J中的每个交叉熵损失依次作差,得到交叉熵损失差值,形成交叉熵差数组J s;
S8:将交叉熵差数组J s中的每个交叉熵损失差值按升序排列,得到升序排列后的交叉熵损失差值;
S9:设置交叉熵损失差值阈值,确定大于交叉熵损失差值阈值的交叉熵损失差值对应的从配置特征集F 1中已剔除的配置特征数据,进一步得到配置特征集F 1中剩余的配置特征数据,组成最优的新能源汽车配置特征集。
在本实施例中,采用一种嵌入式方法,将特征数据嵌入栈自动编码模型中,首先采用栈自动编码模型对配置特征数据进行压缩降维,不需要量化指标,也不需要符合高斯分布,适用范围广,将压缩降维后输出的配置特征集作为分类器的输入,将压缩降维后输出的配置特征集作为分类器的输入进行训练,调节栈自动编码模型的模型参数,这里采用一种有监督训练的方式,得到训练好的栈自动编码模型,然后,遍历配置特征集中每一个配置特征数据,每遍历一个配置特征数据,将该配置特征数据从配置特征集中剔除,计算剔除该配置特征数据后的配置特征集在分类器上的交叉熵损失,并计算未剔除配置特征数据前的配置特征集的交叉熵损失与剔除每一配置特征数据后的配置特征集的交叉熵损失之间的交叉熵损失差值,以交叉熵损失差值阈值为衡量标准,剔除使交叉熵损失增大的配置特征数据,将配置特征集中剩余的配置特征数据,组成最优的新能源汽车配置特征集用于汽车销量分类预测,特征选择过程计算简单,计算成本低,便于筛选出与汽车销量相关性较高的配置特征集,提高了后续预测的准确性,有助于为车企更准确地预测出最受欢迎的新能源汽车配置特征数据组合。
在本实施例中,新能源汽车的配置特征数据包括车型参数、功能、车辆颜色、电池容量、电机功率、续航里程、充电时间、价格、车身重量及车辆月销量;对新能源汽车的配置特征数据进行的预处理操作包括:
(1)数据标注,考虑数据标注是大部分人工智能算法得以有效运行的关键环节,在本实施例中,根据配置特征数据的不同,制定不同的标注规则,使配置特征数据转变为能被识别的机器信息;首先,收集新能源汽车配置特征数据,确定标注规则:根据车型参数、功能、车辆颜色、电池容量、电机功率、续航里程、充电时间、价格、车身重量及车辆月销量等不同配置特征数据,制定相应的标注规则。例如,对于车辆颜色,可以制定如下的规则:“白色=1、灰色=2、黄色=3、粉色=4、红色=5、紫色=6、绿色=7、蓝色=8、棕色=9、黑色=10”,以此类推,用数字标号标注,非量化指标可以被识别。对于车辆月销量,可以制定如下的标注规则:“车辆月销量低于1000=1、车辆月销量高于1000,低于2000=2、车辆月销量高于2000,低于3000=3”,以此追加。
(2)数据筛选,对异常或错误配置特征数据进行排除;例如空值、超范围值、错误数据等进行处理。
(3)数据规范标准化,将配置特征数据中的无数值型数据进行编码处理,转换为数值型数据;对于新能源汽车的配置特征,例如对于车型、颜色等分类数据进行编码处理,将分类数据转换为可分析的数值型数据。
(4)数据去重及归一化:对于新能源汽车的配置特征数据,可能存在重复或冗余的数据,需要进行去重处理,将重复或冗余的配置特征数据进行去重,对配置特征数据中的数值型数据进行归一化处理,将数据范围归一化到[0,1]之间,以方便后续的分析和处理。
实施例2
本实施例对实施例1中构建的栈自动编码模型进行详细说明。栈自动编码模型包括m层堆栈式连接的自动编码器,以便更好地理解和分析新能源配置特征数据。每一层自动编码器均包括输入层、隐藏层及输出层,在本实施例中,m取3,将每一层的初始输入数据信息作为假定的输出数据信息,当前层自动编码器以前一层自动编码器的输出数据特征为基础,则:第一层自动编码器的输入层的输入数据假定为第一层自动编码器的输出层的输出数据,第一层自动编码器的输出层的输出数据作为第二层自动编码器的输入层的输入数据,第二层自动编码器的输入层的输入数据作为第二层自动编码器的输出层的输出数据,第二层自动编码器的输出层的输出数据作为第三层自动编码器的输入层的输入数据,第三层自动编码器的输入层的输入数据假定为第三层自动编码器的输出层的输出数据,逐层进行自动编码器无监督训练,获取输入数据与输出数据的映射关系。
具体的,在逐层进行自动编码器无监督训练中,以第k层自动编码器为例,参见图2,设第k层自动编码器的输入层的输入数据为x k,x k的维数为d x,通过映射函数f(wx k+b)将x k从输入层投影到隐藏层,得到隐藏层输出为:h k=f(wx k+b),其中,h k的维度为d h,w为维数是d h×d x的权重矩阵参数,b为输入层的偏置参数,然后通过映射函数将h k映射到输出层,其中,/>为维数是d x×d h的权重矩阵参数,/>为输出层的偏置参数,采用梯度下降法训练第k层自动编码器,训练完成,重构出原输入数据x k,去掉用于重构输出的输出层。那么,设3层堆栈式连接的自动编码器的输入数据为x,则x通过3层自动编码器处理后,得到的映射关系为:/>,其中,x的维数大于/>的维数,但/>与x的特征信息一致;当训练过程结束后,每层自动编码器的输出层部分就可以舍弃,因为栈自动编码模型仅着重于从输入x到隐藏层输出特征表示/>之间的特征映射,例如得到第一层自动编码器的隐藏层输出特征表示h 1之后,再次将h 1作为原始输入,训练第二层新的自动编码器,得到新的隐藏层输出特征表示h 2,以此类推,就可以迭代成为3层栈自动编码模型,映射示意图如图3所示。
设预处理后的配置特征集F 1表示为:;
n为正整数,f i表示配置特征集F 1中第i个配置特征数据,i=1,2,...,n;将预处理后的配置特征集F 1输入至栈自动编码模型,栈自动编码模型对配置特征集F 1中的每一个配置特征数据进行压缩降维,得到压缩降维后的配置特征数据,形成配置特征集F 2,配置特征集F 2表示为:;
其中,g i表示配置特征集F 2中第i个配置特征数据,i=1,2,...,n,g i的维数小于f i的维数。
在本实施例中,在逐层进行自动编码器无监督训练中,利用无监督训练方式使每一层自动编码器的输出层尽可能复现输入数据,设定每层自动编码器的输出数据与输入数据相同,输入数据以一定维数表示,经过隐藏层编码后,维数被压缩,但最后仍还原成一个与输入数据特征信息一致的输出数据,便于加快特征选择的速度。
实施例3
在本实施例中,分类器为softmax分类器,根据汽车月销量的数量划分配置特征组合汽车销量类别,如前所述,设定车辆月销量低于1000为一类、车辆月销量高于1000,低于2000为二类,车辆月销量高于2000,低于3000为三类,通过新能源汽车配置特征集预测新能源汽车销量分类问题,以评分函数映射的值作为不同配置特征数据组合下不同汽车销量类别的分值,其中,F表示配置特征数据组合形成的配置特征集,W表示栈自动编码模型的模型参数。
在本实施例中,引入交叉熵度量预测的汽车销量分类结果与真实汽车销量类别的差异性,构建交叉熵损失,表达式为:
其中,Li表示交叉熵损失;y p表示汽车销量正确类别的标签,S j表示评分函数映射的值向量中的第j个元素,表示配置特征数据组合下汽车销量类别预测为正确类别y p的评分值,得到softmax分类函数:
softmax分类函数将评分函数映射的值向量中的每个元素压缩到(0,1)之间,且所有元素值之和为1;z表示评分函数映射的值;t表示预测的某一汽车销量类别,/>表示e的分类类别为正确标签y p的评分函数映射的值的幂次。
将配置特征集F 2作为分类器的输入,利用评分函数得出配置特征集F 2中配置特征数据组合下汽车销量类别的分值,结合配置特征数据组合下汽车销量类别的标签,以交叉熵损失作为训练的损失函数,在训练过程中,比较分类输出值与汽车销量类别的标签实际值,将分类错误的梯度值反向传播给栈自动编码模型,调节栈自动编码模型的模型参数W,直至损失函数收敛,得到训练好的栈自动编码模型,整个过程采用有监督训练方式,以交叉熵损失作为包括分类器在内的整体模型训练的损失函数,在训练过程中,调节栈自动编码模型的模型参数W,直至损失函数收敛,得到一个具有分类能力的整体模型。
利用上述训练好的栈自动编码模型,在步骤S4中,计算配置特征集F 3在分类器上的交叉熵损失J f的过程为:
以评分函数映射,得出配置特征集F 3中配置特征数据组合下不同汽车销量类别的分值;
结合配置特征数据组合下汽车销量类别的标签,以及评分函数映射的值向量中的第j个元素、配置特征数据组合下汽车销量类别预测为正确类别y p的评分值,根据交叉熵损失的表达式:
求解出配置特征集F 3在分类器上的交叉熵损失J f。
实施例3
本实施例对配置特征集中配置特征数据的遍历过程进行说明。首先,设配置特征集F 1表示为:,i=1,2,...,n,在步骤S5中,遍历配置特征集F 1的第i个配置特征数据/>后,将第i个配置特征数据/>剔除,设剔除配置特征数据/>后的配置特征集为F 11,表示为:/>,配置特征集F 11与配置特征集F 1相比,减少了一个配置特征数据/>。
如图4所示,对配置特征集中的n个配置特征数据依次遍历,每遍历一个配置特征数据,将被遍历的特征数据从配置特征集F 1中剔除,剩余的n-1个配置特征数据组成的配置特征集,共形成n个配置特征集,分别计算n个配置特征集在分类器上的交叉熵损失,依次得到n个交叉熵损失J 1、J 2、...、J i、...、J n,其中,J 1表示剔除配置特征集F 1中第一个配置特征数据后,剩余的n-1个配置特征数据组成的配置特征集在分类器上的交叉熵损失,J 2表示剔除配置特征集F 1中第二个配置特征数据后,剩余的n-1个配置特征数据组成的配置特征集在分类器上的交叉熵损失,J i表示剔除配置特征集F 1中第i个配置特征数据后,剩余的n-1个配置特征数据组成的配置特征集在分类器上的交叉熵损失,J n表示剔除配置特征集F 1中第n个配置特征数据后,剩余的n-1个配置特征数据组成的配置特征集在分类器上的交叉熵损失;n个交叉熵损失J 1、J 2、...、J i、...、J n形成交叉熵损失数组J,表示为J=[J 1,J 2,...,J i,...,J n]。
然后,将交叉熵损失J f与交叉熵损失数组J中的每个交叉熵损失依次作差,得到交叉熵差数组J s的表达式为:J s =[,/>,...,/>,...,/>],其中,/>表示交叉熵损失J f与交叉熵损失数组J中的第i个交叉熵损失作差后得到的交叉熵损失差值,将所有交叉熵损失差值按升序排列,设升序排列后的交叉熵差数组表示为/>,/> =[/>,/>,...,/>,...,/>],其中,/>,/>,...,/>,...,/>的值依次增大。在本实施例中,将所有交叉熵损失差值按升序排列,可以看出依次剔除了不同配置特征数据后配置特征集在分类器上的交叉熵损失值的大小变化,识别使交叉熵损失增大的配置特征数据。
在该过程中,交叉熵损失J f的值恒定,交叉熵损失差值越大,交叉熵损失差值对应的从配置特征集F 1中剔除配置特征数据后的配置特征集在分类器上的交叉熵损失越小,以交叉熵损失差值阈值为衡量标准,从配置特征集F 1中剔除大于交叉熵损失差值阈值时,交叉熵损失差值对应的配置特征数据,使从配置特征集F 1中剔除配置特征数据后的配置特征集在分类器上的交叉熵损失降低。交叉熵损失越小,预测结果越接近真实情况,剔除使交叉熵损失增大的配置特征数据的做法提高了后续预测的准确性,有助于为车企更准确地预测出最受欢迎的新能源汽车配置特征数据组合。
实施例仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (10)
1.一种基于交叉熵的新能源汽车配置特征选择方法,其特征在于,包括以下步骤:
S1:对新能源汽车的配置特征数据进行预处理,由预处理后的配置特征数据形成配置特征集F 1;
S2:构建栈自动编码模型,利用栈自动编码模型对配置特征集F 1的配置特征数据进行压缩降维,得到压缩降维后的配置特征数据,形成配置特征集F 2;
S3:引入分类器,将配置特征集F 2作为分类器的输入,以配置特征集F 2中配置特征数据组合下汽车销量作为分类器的输出,结合配置特征数据组合下汽车销量类别的标签,以交叉熵损失作为损失函数进行训练,调节栈自动编码模型的模型参数,得到训练好的栈自动编码模型;
交叉熵损失表达式为:
其中,Li表示交叉熵损失;y p表示汽车销量正确类别的标签,S j表示评分函数映射的值向量中的第j个元素,表示配置特征数据组合下汽车销量类别预测为正确类别y p的评分值;
S4:将配置特征集F 1输入至训练好的栈自动编码模型,经压缩降维后得到配置特征集F 3,计算配置特征集F 3在分类器上的交叉熵损失J f;
S5:从配置特征集F 1中的第一个配置特征数据开始,对所有配置特征数据依次遍历,每遍历一个配置特征数据,将该配置特征数据从配置特征集F 1中剔除,计算剔除该配置特征数据后的配置特征集F 1在分类器上的交叉熵损失;
S6:当配置特征集F 1中的所有配置特征数据被遍历完全,得到与被剔除配置特征数据对应的若干个交叉熵损失,形成交叉熵损失数组J;
S7:将交叉熵损失J f与交叉熵损失数组J中的每个交叉熵损失依次作差,得到交叉熵损失差值,形成交叉熵差数组J s;
S8:将交叉熵差数组J s中的每个交叉熵损失差值按升序排列,得到升序排列后的交叉熵损失差值;
S9:设置交叉熵损失差值阈值,确定大于交叉熵损失差值阈值的交叉熵损失差值对应的从配置特征集F 1中已剔除的配置特征数据,进一步得到配置特征集F 1中剩余的配置特征数据,组成最优的新能源汽车配置特征集。
2.根据权利要求1所述的基于交叉熵的新能源汽车配置特征选择方法,其特征在于,新能源汽车的配置特征数据包括车型参数、功能、车辆颜色、电池容量、电机功率、续航里程、充电时间、价格、车身重量及车辆月销量;对新能源汽车的配置特征数据进行的预处理操作包括:
数据标注,根据配置特征数据的不同,制定不同的标注规则,使配置特征数据转变为能被识别的机器信息;
数据筛选,对异常或错误配置特征数据进行排除;
数据规范标准化,将配置特征数据中的无数值型数据进行编码处理,转换为数值型数据;
数据去重及归一化,将重复或冗余的配置特征数据进行去重,对配置特征数据中的数值型数据进行归一化处理。
3.根据权利要求1所述的基于交叉熵的新能源汽车配置特征选择方法,其特征在于,所述栈自动编码模型包括m层堆栈式连接的自动编码器,每一层自动编码器均包括输入层、隐藏层及输出层,第一层自动编码器的输入层的输入数据假定为第一层自动编码器的输出层的输出数据,第一层自动编码器的输出层的输出数据作为第二层自动编码器的输入层的输入数据,第二层自动编码器的输入层的输入数据作为第二层自动编码器的输出层的输出数据,依次类推,第m-1层自动编码器的输出层的输出数据作为第m层自动编码器的输入层的输入数据,第m层自动编码器的输入层的输入数据假定为第m层自动编码器的输出层的输出数据,逐层进行自动编码器无监督训练,获取输入数据与输出数据的映射关系。
4.根据权利要求3所述的基于交叉熵的新能源汽车配置特征选择方法,其特征在于,在逐层进行自动编码器无监督训练中,设第k层自动编码器的输入层的输入数据为x k,x k的维数为d x,通过映射函数f(wx k+b)将x k从输入层投影到隐藏层,得到隐藏层输出为:h k=f(wx k+b),其中,h k的维度为d h,w为维数是d h×d x的权重矩阵参数,b为输入层的偏置参数,然后通过映射函数将h k映射到输出层,其中,/>为维数是d x×d h的权重矩阵参数,/>为输出层的偏置参数,采用梯度下降法训练第k层自动编码器,训练完成,重构出原输入数据x k,去掉用于重构输出的输出层;
设m层堆栈式连接的自动编码器的输入数据为x,则x通过m层自动编码器处理后,得到的映射关系为:,其中,x的维数大于/>的维数,但/>与x的特征信息一致;
设预处理后的配置特征集F 1表示为:;
n为正整数,f i表示配置特征集F 1中第i个配置特征数据,i=1,2,...,n;将预处理后的配置特征集F 1输入至栈自动编码模型,栈自动编码模型对配置特征集F 1中的每一个配置特征数据进行压缩降维,得到压缩降维后的配置特征数据,形成配置特征集F 2,配置特征集F 2表示为:;
其中,g i表示配置特征集F 2中第i个配置特征数据,i=1,2,...,n,g i的维数小于f i的维数。
5.根据权利要求4所述的基于交叉熵的新能源汽车配置特征选择方法,其特征在于,所述的分类器为softmax分类器,根据汽车月销量的数量划分配置特征数据组合下汽车销量类别,以评分函数映射的值作为不同配置特征数据组合下不同汽车销量类别的分值,其中,F表示配置特征数据组合形成的配置特征集,W表示栈自动编码模型的模型参数;
构建交叉熵损失,表达式为:
其中,Li表示交叉熵损失;y p表示汽车销量正确类别的标签,S j表示评分函数映射的值向量中的第j个元素,表示配置特征数据组合下汽车销量类别预测为正确类别y p的评分值,得到softmax分类函数:
softmax分类函数将评分函数映射的值向量中的每个元素压缩到(0,1)之间,且所有元素值之和为1;z表示评分函数映射的值;t表示预测的某一汽车销量类别,表示e的分类类别为正确标签y p的评分函数映射的值的幂次;
将配置特征集F 2作为分类器的输入,利用评分函数得出配置特征集F 2中配置特征数据组合下汽车销量类别的分值,结合配置特征数据组合下汽车销量类别的标签,以交叉熵损失作为训练的损失函数,在训练过程中,调节栈自动编码模型的模型参数W,直至损失函数收敛,得到训练好的栈自动编码模型。
6.根据权利要求5所述的基于交叉熵的新能源汽车配置特征选择方法,其特征在于,在步骤S4中,计算配置特征集F 3在分类器上的交叉熵损失J f的过程为:
以评分函数映射,得出配置特征集F 3中配置特征数据组合下不同汽车销量类别的分值;
结合配置特征数据组合下汽车销量类别的标签,以及评分函数映射的值向量中的第j个元素、配置特征数据组合下汽车销量类别预测为正确类别y p的评分值,根据交叉熵损失的表达式:
求解出配置特征集F 3在分类器上的交叉熵损失J f。
7.根据权利要求6所述的基于交叉熵的新能源汽车配置特征选择方法,其特征在于,设配置特征集F 1表示为:,i=1,2,...,n,在步骤S5中,遍历配置特征集F 1的第i个配置特征数据/>后,将第i个配置特征数据/>剔除,设剔除配置特征数据/>后的配置特征集为F 11,表示为:/>,配置特征集F 11与配置特征集F 1相比,减少了一个配置特征数据/>。
8.根据权利要求7所述的基于交叉熵的新能源汽车配置特征选择方法,其特征在于,对配置特征集中的n个配置特征数据依次遍历,每遍历一个配置特征数据,将被遍历的特征数据从配置特征集F 1中剔除,剩余的n-1个配置特征数据组成的配置特征集,共形成n个配置特征集,分别计算n个配置特征集在分类器上的交叉熵损失,依次得到n个交叉熵损失J 1、J 2、...、J i、...、J n,其中,J 1表示剔除配置特征集F 1中第一个配置特征数据后,剩余的n-1个配置特征数据组成的配置特征集在分类器上的交叉熵损失,J 2表示剔除配置特征集F 1中第二个配置特征数据后,剩余的n-1个配置特征数据组成的配置特征集在分类器上的交叉熵损失,J i表示剔除配置特征集F 1中第i个配置特征数据后,剩余的n-1个配置特征数据组成的配置特征集在分类器上的交叉熵损失,J n表示剔除配置特征集F 1中第n个配置特征数据后,剩余的n-1个配置特征数据组成的配置特征集在分类器上的交叉熵损失;n个交叉熵损失J 1、J 2、...、J i、...、J n形成交叉熵损失数组J,表示为J=[J 1,J 2,...,J i,...,J n]。
9.根据权利要求8所述的基于交叉熵的新能源汽车配置特征选择方法,其特征在于,将交叉熵损失J f与交叉熵损失数组J中的每个交叉熵损失依次作差,得到交叉熵差数组J s的表达式为:J s =[,/>,...,/>,...,/>],其中,/>表示交叉熵损失J f与交叉熵损失数组J中的第i个交叉熵损失作差后得到的交叉熵损失差值,将所有交叉熵损失差值按升序排列,设升序排列后的交叉熵差数组表示为/>,/> =[/>,/>,...,/>,...,/>],其中,/>,/>,...,/>,...,/>的值依次增大。
10.根据权利要求1或9所述的基于交叉熵的新能源汽车配置特征选择方法,其特征在于,交叉熵损失J f的值恒定,交叉熵损失差值越大,交叉熵损失差值对应的从配置特征集F 1中剔除配置特征数据后的配置特征集在分类器上的交叉熵损失越小,以交叉熵损失差值阈值为衡量标准,从配置特征集F 1中剔除大于交叉熵损失差值阈值时,交叉熵损失差值对应的配置特征数据,使从配置特征集F 1中剔除配置特征数据后的配置特征集在分类器上的交叉熵损失降低。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311742380.1A CN117435906B (zh) | 2023-12-18 | 2023-12-18 | 基于交叉熵的新能源汽车配置特征选择方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311742380.1A CN117435906B (zh) | 2023-12-18 | 2023-12-18 | 基于交叉熵的新能源汽车配置特征选择方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117435906A CN117435906A (zh) | 2024-01-23 |
CN117435906B true CN117435906B (zh) | 2024-03-12 |
Family
ID=89551860
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311742380.1A Active CN117435906B (zh) | 2023-12-18 | 2023-12-18 | 基于交叉熵的新能源汽车配置特征选择方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117435906B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105046277A (zh) * | 2015-07-15 | 2015-11-11 | 华南农业大学 | 特征显著性在图像质量评价中的鲁棒机理研究方法 |
CN105975518A (zh) * | 2016-04-28 | 2016-09-28 | 吴国华 | 基于信息熵的期望交叉熵特征选择文本分类***及方法 |
CN112418653A (zh) * | 2020-11-19 | 2021-02-26 | 重庆邮电大学 | 一种基于机器学习算法的携号转网潜客识别***及方法 |
CN112633346A (zh) * | 2020-12-17 | 2021-04-09 | 西安理工大学 | 一种基于特征交互性的特征选择方法 |
WO2021139309A1 (zh) * | 2020-07-31 | 2021-07-15 | 平安科技(深圳)有限公司 | 人脸识别模型的训练方法、装置、设备及存储介质 |
CN113177608A (zh) * | 2021-05-21 | 2021-07-27 | 河南大学 | 一种针对不完整数据的近邻模型特征选择方法及装置 |
CN113762005A (zh) * | 2020-11-09 | 2021-12-07 | 北京沃东天骏信息技术有限公司 | 特征选择模型的训练、对象分类方法、装置、设备及介质 |
CN114215706A (zh) * | 2021-12-27 | 2022-03-22 | 南京邮电大学 | 一种风电机组叶片开裂故障预警方法和装置 |
WO2022074840A1 (ja) * | 2020-10-09 | 2022-04-14 | 日本電信電話株式会社 | ドメイン特徴抽出器学習装置、ドメイン予測装置、学習方法、学習装置、クラス識別装置及びプログラム |
CN115019319A (zh) * | 2022-04-20 | 2022-09-06 | 华东师范大学 | 一种基于动态特征提取的结构化图片内容识别方法 |
CN115860147A (zh) * | 2022-01-28 | 2023-03-28 | 福建电子口岸股份有限公司 | 基于非平衡集成学习的报关单预判模型训练方法及装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210142210A1 (en) * | 2019-11-11 | 2021-05-13 | Alibaba Group Holding Limited | Multi-task segmented learning models |
US11475280B2 (en) * | 2019-11-15 | 2022-10-18 | Disney Enterprises, Inc. | Data object classification using an optimized neural network |
US11917162B2 (en) * | 2021-04-30 | 2024-02-27 | Tencent America LLC | Content-adaptive online training with feature substitution in neural image compression |
US20230024884A1 (en) * | 2021-07-20 | 2023-01-26 | Oracle International Corporation | Balancing feature distributions using an importance factor |
-
2023
- 2023-12-18 CN CN202311742380.1A patent/CN117435906B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105046277A (zh) * | 2015-07-15 | 2015-11-11 | 华南农业大学 | 特征显著性在图像质量评价中的鲁棒机理研究方法 |
CN105975518A (zh) * | 2016-04-28 | 2016-09-28 | 吴国华 | 基于信息熵的期望交叉熵特征选择文本分类***及方法 |
WO2021139309A1 (zh) * | 2020-07-31 | 2021-07-15 | 平安科技(深圳)有限公司 | 人脸识别模型的训练方法、装置、设备及存储介质 |
WO2022074840A1 (ja) * | 2020-10-09 | 2022-04-14 | 日本電信電話株式会社 | ドメイン特徴抽出器学習装置、ドメイン予測装置、学習方法、学習装置、クラス識別装置及びプログラム |
CN113762005A (zh) * | 2020-11-09 | 2021-12-07 | 北京沃东天骏信息技术有限公司 | 特征选择模型的训练、对象分类方法、装置、设备及介质 |
CN112418653A (zh) * | 2020-11-19 | 2021-02-26 | 重庆邮电大学 | 一种基于机器学习算法的携号转网潜客识别***及方法 |
CN112633346A (zh) * | 2020-12-17 | 2021-04-09 | 西安理工大学 | 一种基于特征交互性的特征选择方法 |
CN113177608A (zh) * | 2021-05-21 | 2021-07-27 | 河南大学 | 一种针对不完整数据的近邻模型特征选择方法及装置 |
CN114215706A (zh) * | 2021-12-27 | 2022-03-22 | 南京邮电大学 | 一种风电机组叶片开裂故障预警方法和装置 |
CN115860147A (zh) * | 2022-01-28 | 2023-03-28 | 福建电子口岸股份有限公司 | 基于非平衡集成学习的报关单预判模型训练方法及装置 |
CN115019319A (zh) * | 2022-04-20 | 2022-09-06 | 华东师范大学 | 一种基于动态特征提取的结构化图片内容识别方法 |
Non-Patent Citations (2)
Title |
---|
Robust feature selection based on regularized brownboost loss;Pan Wei 等;《Knowledge-Based Systems》;20130228;第第54卷卷;第180-198页 * |
基于K近邻分类间隔的特征选择方法研究;李云 等;《南京邮电大学学报》;20091231;第第29卷卷(第第6期期);第68-74页 * |
Also Published As
Publication number | Publication date |
---|---|
CN117435906A (zh) | 2024-01-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111414942B (zh) | 一种基于主动学习和卷积神经网络的遥感图像分类方法 | |
CN113191215B (zh) | 融合注意力机制与孪生网络结构的滚动轴承故障诊断方法 | |
CN106407464A (zh) | 一种基于knn的改进缺失数据填补算法 | |
CN112487193B (zh) | 一种基于自编码器的零样本图片分类方法 | |
CN112906500B (zh) | 基于深度特权网络的人脸表情识别方法及*** | |
CN109858972B (zh) | 广告点击率的预测方法和装置 | |
CN111079941B (zh) | 信用信息处理方法、***、终端和存储介质 | |
CN112687349A (zh) | 一种降低辛烷值损失模型的构建方法 | |
CN114943694A (zh) | 一种基于对抗生成网络与注意力的缺陷检测方法 | |
CN112115806B (zh) | 基于Dual-ResNet小样本学习的遥感影像场景精确分类方法 | |
CN114019370A (zh) | 基于灰度图像和轻量级cnn-svm模型的电机故障检测方法 | |
CN115526236A (zh) | 一种基于多模态对比学习的文本网络图分类方法 | |
CN112085384A (zh) | 一种基于模糊推理与lstm结合的邮寄物风险评价方法与*** | |
CN114841268B (zh) | 基于Transformer和LSTM融合算法的异常电力客户识别方法 | |
CN115795351A (zh) | 一种基于残差网络和2d特征表示的电梯大数据风险预警方法 | |
CN117237559A (zh) | 面向数字孪生城市的三维模型数据智能分析方法及*** | |
CN113837266B (zh) | 一种基于特征提取和Stacking集成学习的软件缺陷预测方法 | |
CN108985462B (zh) | 基于互信息和分形维数的无监督特征选择方法 | |
CN117435906B (zh) | 基于交叉熵的新能源汽车配置特征选择方法 | |
CN106570514A (zh) | 一种基于词袋模型和支持向量机的汽车轮毂分类方法 | |
CN117495422A (zh) | 基于电力通信网建设的造价管理***及其方法 | |
CN117392450A (zh) | 一种基于进化多尺度特征学习的钢铁材料质量解析方法 | |
CN115310999B (zh) | 基于多层感知机和排序网络的企业用电行为分析方法及*** | |
CN116977723A (zh) | 基于空间-光谱混合自注意力机制的高光谱图像分类方法 | |
CN115081514A (zh) | 一种数据不平衡情况下的工业设备故障识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |