CN104200087B

CN104200087B - 用于机器学习的参数寻优及特征调优的方法及***

Info

Publication number: CN104200087B
Application number: CN201410422475.XA
Authority: CN
Inventors: 杨广文; 季颖生; 陈宇澍; 付昊桓
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2014-06-05
Filing date: 2014-08-25
Publication date: 2018-10-02
Anticipated expiration: 2034-08-25
Also published as: WO2015184729A1; CN104200087A

Abstract

本发明提出一种用于机器学习的参数寻优及特征调优的方法，包括以下步骤：随机生成多个参数集合；分别对多个参数集合进行基于EnKF的迭代优化；分别对优化后的多个参数集合进行性能评估，并根据评估结果得到集合池和补充参数集合，其中，集合池中的参数集合的性能高于补充参数集合中的参数集合的性能；对集合池中的参数集合和补充参数集合中的参数集合再次进行基于EnKF的迭代优化和性能评估，以得到最优参数集合。本发明的方法能够提升处理参数寻优的计算结果和计算效率，并且通用性强。本发明还提供了一种用于机器学习的参数寻优及特征调优的***。

Description

用于机器学习的参数寻优及特征调优的方法及***

技术领域

本发明涉及机器学习的参数寻优技术领域，特别涉及一种用于机器学习的参数寻优及特征调优的方法及***。

背景技术

对于一般的机器学习算法而言，模型的性能主要取决于它的参数配置。采用不同的参数组合生成的模型往往具有很大的性能差异。参数寻优是一个随机优化问题，其随机性主要体现在：生成模型所用的训练数据和测试数据包含了有限的样本，无法反映整体，而参数空间基于未知的联合分布函数。该问题的基本定义如下：给定一个训练数据集X_T，其中X_T基于未知的数据分布G，参数寻优的目标是找一个机器学习算法F的参数组合θ，在X_T上建立一个模型f，使得f在给定性能评测准则g(·)下最大化(或者最小化)性能评测值。基本问题表示如下，

然而，直接计算G的期望是非常困难的。因此，一般的方式是最优化模型f在给定的验证数据集x_V上的期望平均，在此过程中为了确保泛化性能会采用模型选择技术，诸如，交叉验证。对于未知的参数空间，寻找到最优参数组合θ_opt是从参数空间中选择有限的参数组合进行训练生成模型，然后进行性能评估，最终输出性能评测最优的参数组合。

对于机器学习而言，参数寻优始终是个挑战，因为在有多个参数构成的高维连续数值空间中存在海量的参数组合。网格搜索是一种最基本最常用的参数寻优技术。机器学习的参数构成一个网格空间，每个参数给定一组可行值，每个组合表示一个网格格点。网格搜索采用穷尽的方式测试每一种给定的参数组合。网格搜索技术实现简单，通用性好，确保在给定的参数空间内找到全局最优解。其缺点在于，采用穷尽的搜索方式存在扩展性问题(计算量随参数规模或搜索粒度呈指数规模上升)，使得计算开销大。

在过去十多年间，许多优化技术被开发出来用于加速机器学习的参数寻优过程。这些大致可以分为两大类：一类是数值型优化方法，另一类是进化型优化算法。数值型参数寻优技术，诸如梯度下降。该类方法通过数值计算得到相应信息决定下一个迭代步的搜索方向和搜索步长，搜索是有明确方向因此能够快速收敛。相比于其他技术，数值型参数寻优技术具有很高的搜索效率。然而，这类方法容易陷入局部最优，其效果十分受制于初始点。其次，对于大量参数的寻优问题，这类方法收敛速度会明显降低。除此之外，大部分数值型方法都是内嵌的，需要对原算法进行针对性的公式推导和程序实现，通用性较差。进化型参数寻优技术，包括了遗传算法，模拟退火算法，粒子群算法，等等。较之数值型方法，该类方法能够有效地避免局部最优，并且确保找到近似全局最优的参数组合。由于，进化类算法多为随机的邻近搜索，没有明确的方向和步长，收敛速度慢，耗时长。

在机器学习领域，另一个基本的问题是特征调优，包括了特征增强以及特征选择。模型训练的一个前处理步骤是对样本特征进行缩放，将样本的特征数据归一化到统一的值域范围内用于避免因数值差异而导致模型的性能下降，反之可以根据特征的重要性，对权值(缩放因子)进行相应调整，目的是用于提高模型性能，称之为特征增强。特征选择，用于去除冗余的和不相关的特征，找到一个特征子集用于建立模型，能够减少维数从而减少模型的训练时间，甚至可以增强模型的泛化性。特征选择包含了三类技术：过滤式，包裹式，以及内嵌式。过滤式技术，根据某种统计量，对特征进行评估并且选出最重要的特征，计算简单但是缺乏模型验证，精度较差。包裹式技术，采用迭代的方式，每次选择一个特征子集，生成模型进行性能评估，得到的特征子集精确性高，但是计算开销大。内嵌式技术在模型训练过程中进行特征选择，这种需要对算法进行改动，通用性不强。除了上述三类之外，通过对特征缩放因子进行调优，同样可以达到特征选择。在特征调优的过程中，同样需要进行参数寻优来找到最适合的参数才能确定最终的模型性能。因此，可以考虑将两个过程合并为一个过程同时进行调优。

将特征的缩放因子作为一类参数来完成特征调优，与机器学习算法的参数一起进行寻优会导致大量的参数。然而，目前仍然缺乏快速、准确、通用、能够有效用于机器学习参数寻优的技术，尤其是高维连续参数空间的寻优。

发明内容

本发明旨在至少在一定程度上解决上述相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种用于机器学习的参数寻优及特征调优的方法，该方法能够提升处理参数寻优的计算结果和计算效率，并且通用性强。

本发明的另一个目的在于提供一种用于机器学习的参数寻优及特征调优的***。

为了实现上述目的，本发明第一方面的实施例提出了一种用于机器学习的参数寻优及特征调优的方法，包括以下步骤：随机生成多个参数集合；分别对所述多个参数集合进行基于EnKF的迭代优化；分别对优化后的多个参数集合进行性能评估，并根据评估结果得到集合池和补充参数集合，其中，所述集合池中的参数集合的性能高于所述补充参数集合中的参数集合的性能；对集合池中的参数集合和所述补充参数集合中的参数集合再次进行基于EnKF的迭代优化和性能评估，以得到最优参数集合。

根据本发明实施例的用于机器学习的参数寻优及特征调优的方法，能够高效地在高维连续的参数空间中找到最优解；并且该方法可以同时处理参数寻优和特征调优两个问题，能够提升处理参数寻优的计算结果的准确性和计算效率；另外，该方法将用于处理特征数据的缩放因子作为参数对特征进行调优；并且，该方法通用性强，适用于机器学习的各种算法。

另外，根据本发明上述实施例的用于机器学习的参数寻优及特征调优的方法还可以具有如下附加的技术特征：

在一些示例中，所述对所述多个参数集合进行基于EnKF的迭代优化，具体包括：通过机器学习算法在预定的训练数据集上对每个参数集合进行训练以生成模型；在预定的验证数据集上对所述模型进行性能评估；通过EnKF算法对所述多个参数集合进行更新。

在一些示例中，所述随机生成多个参数集合，具体包括以下步骤：随机生成一个参数向量θ∈R^m×1，其中每个参数在预定的参数范围内生成随机值；随机生成一组归一化的向量{ρ_i|ρ_i∈R^m×1，i＝1，...，N}，对其进行正交化以确保扰动线性无关；生成参数集合扰动，具体包括：

A′＝(F_ar₁ρ₁，F_ar₂ρ₂，...，F_ar_Nρ_N)∈R^m×N，r_i～N(0，S_p)，

其中，A′表示参数几何扰动，ρ_i表示随机生成的扰动向量，变量r_i表示随机步长，并且服从高斯分布，方差S_p是可配置的，矩阵F_a＝(f₁e₁，f₂e₂，...，f_Ne_N)，e_i表示单位向量，f_i是一个可配置的缩放变量，用于调整扰动幅度；将参数向量θ，分别加上扰动集合A′中的每一组扰动向量ε_i∈A′，得到一组参数θ_i＝θ+ε_i，共生成N组参数构成参数集合A；重复上述几个步骤，以生成N_e个参数集合。

在一些示例中，还包括：对所述训练数据集和验证数据集进行特征缩放；将参数集合中的参数输入机器学习算法，在训练数据集中进行训练以生成模型；通过所述模型对每个样本进行预测，得到所述模型的估计值；得到所有参数的模型，并进行性能评估，具体包括：

其中，HA表示集合包含了采用每一组参数生成模型得到的预测值，n表示验证数据集样本的个数。

在一些示例中，还包括：通过下式对所述参数集合进行更新：

A^a＝A^f+A′(HA′)^T(HA′(HA′)^T+γγ^T)^-1(D-HA)，

其中，A表示参数集合，A^f表示当前的参数集合，A^a表示更新的参数集合，A′表示参数集合扰动，D表示观测集合，γ表示观测集合扰动，HA表示模型预测结果集合，HA′表示HA的集合扰动。

在一些示例中，所述分别对优化后的多个参数集合进行性能评估，并根据评估结果得到集合池和补充参数集合，进一步包括：根据评估结果将所述优化后的多个参数集合分为三类，设score(A)表示参数集合的性能值；如果score(A)≥thresh1，则判定该参数集合性能很好，并将该参数集合保存在集合池中；如果score(A)≤thresh2，则判定该参数集合性能较差，并丢弃该参数集合；如果thresh2＜score(A)＜thresh1，则判定该参数集合的性能一般，并将性能一般的参数集合随机进行两两合并，以生成补充参数集合。

在一些示例中，还包括：在性能一般的参数集合中选取一对参数集合，通过基于EnKF的合并算法生成新的参数集合，具体包括：假设选取的一对参数集合为A_i，A_j，则通过下列公式分别计算Q_ij以及Q_ji：

分别计算A_ij以及A_ji，其中：

对于Q_ij以及Q_ji分别进行UR分解；从矩阵以及中分别选出具有最大主元的N列，根据其在参数集合以及中选出对应的参数向量组成最后的参数集合A^m；若待合并的参数集合列表为空，则随机生成新的参数集合，否则随机选择另一对参数集合进行合并。

本发明第二方面的实施例提供了一种用于机器学习的参数寻优及特征调优的***，包括：生成模块，所述生成模块用于生成多个参数集合；优化模块，所述优化模块用于分别对所述多个参数集合进行基于EnKF的迭代优化；评估模块，所述评估模块用于分别对优化后的多个参数集合进行性能评估，并根据评估结果得到集合池和补充参数集合，其中，所述集合池中的参数集合的性能高于所述补充参数集合中的参数集合的性能；获取模块，所述获取模块用于对集合池中的参数集合和所述补充参数集合中的参数集合再次进行基于EnKF的迭代优化和性能评估，以得到最优参数集合。

根据本发明实施例的用于机器学习的参数寻优及特征调优的***，能够高效地在高维连续的参数空间中找到最优解；并且该***可以同时处理参数寻优和特征调优两个问题，能够提升处理参数寻优的计算结果的准确性和计算效率；另外，该***将用于处理特征数据的缩放因子作为参数对特征进行调优；并且，该***通用性强，适用于机器学习的各种算法。

另外，根据本发明上述实施例的用于机器学习的参数寻优及特征调优的***还可以具有如下附加的技术特征：

在一些示例中，所述优化模块用于通过机器学习算法在预定的训练数据集上对每个参数集合进行训练以生成模型，并在预定的验证数据集上对所述模型进行性能评估，并通过EnKF算法对所述多个参数集合进行更新。

在一些示例中，所述生成模块生成多个参数集合，具体包括：随机生成一个参数向量θ∈R^m×1，其中每个参数在预定的参数范围内生成随机值；随机生成一组归一化的向量{ρ_i|ρ_i∈R^m×1，i＝1，...，N}，对其进行正交化以确保扰动线性无关；生成参数集合扰动，具体包括：

在一些示例中，所述优化模块还用于对所述训练数据集和验证数据集进行特征缩放；将参数集合中的参数输入机器学习算法，在训练数据集中进行训练以生成模型；通过所述模型对每个样本进行预测，得到所述模型的估计值；得到所有参数的模型，并进行性能评估，具体包括：

在一些示例中，通过下式对所述参数集合进行更新：

A^a＝A^f+A′(HA′)^T(HA′(HA′)^T+γγ^T)^-1(D-HA)，

在一些示例中，所述评估模块用于根据评估结果将所述优化后的多个参数集合分为三类，设score(A)表示参数集合的性能值，并且当score(A)≥thresh1时，判定该参数集合性能很好，并将该参数集合保存在集合池中，以及当score(A)≤thresh2时，判定该参数集合性能较差，并丢弃该参数集合，以及当thresh2＜score(A)＜thresh1时，则该参数集合的性能一般，并将性能一般的参数集合随机进行两两合并，以生成补充参数集合。

在一些示例中，所述评估模块还用于在性能一般的参数集合中选取一对参数集合，通过基于EnKF的合并算法生成新的参数集合，具体包括：假设选取的一对参数集合为A_i，A_j，则通过下列公式分别计算Q_ij以及Q_ji：

分别计算A_ij以及A_ji，其中：

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1是根据本发明一个实施例的用于机器学习的参数寻优及特征调优的方法的流程图；

图2是根据本发明另一个实施例的用于机器学习的参数寻优及特征调优的方法的原理示意图；

图3是根据本发明一个实施例对单个集合进行更新的流程图；

图4是根据本发明一个实施例的集合进化的运行流程图；

图5是根据本发明一个实施例的融合搜索的运行流程图；

图6是根据本发明另一个实施例的用于机器学习的参数寻优及特征调优的方法的流程图；以及

图7是根据本发明一个实施例的用于机器学习的参数寻优及特征调优的***的结构框图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

以下结合附图描述根据本发明实施例的用于机器学习的参数寻优及特征调优的方法及***。

图1是根据本发明一个实施例的用于机器学习的参数寻优及特征调优的方法的流程图。图6是根据本发明另一个实施例的用于机器学习的参数寻优及特征调优的方法的流程图。结合图1和图6所示，该方法包括以下步骤：

步骤S101，随机生成多个参数集。

如果特征增强功能未启动，参数集合包括了机器学习算法的参数；如果特征调优功能启动，参数集合包括了机器学习算法的参数以及特征缩放因子。假设参数集合用A表示，其中集合成员θ_i表示一组参数(在EnKF算法中作为一组***状态)，A是一个m×N的状态矩阵，其中，m表示参数个数，N表示集合成员的个数。在一些示例中，假设N_e表示参数集合的个数，参数集合随机生成的具体步骤包括：

步骤1-1：随机生成一个参数向量其中每个参数在预定的参数范围内生成随机值。

步骤1-2：随机生成一组归一化的向量{ρ_i|ρ_i∈R^m×1，i＝1，...，N}，对其进行正交化以确保扰动线性无关。

步骤1-3：生成参数集合扰动，具体包括：

其中，A′表示参数几何扰动，ρ_i表示随机生成的扰动向量，变量r_i表示随机步长，并且服从高斯分布，方差S_p是可配置的，矩阵F_a＝(f₁e₁，f₂e₂，...，f_Ne_N)，e_i表示单位向量，f_i是一个可配置的缩放变量，用于调整扰动幅度。

步骤1-4：将参数向量θ，分别加上扰动集合A′中的每一组扰动向量ε_i∈A′，得到一组参数θ_i＝θ+ε_i，共生成N组参数构成参数集合A。

步骤1-5：重复上述步骤，即重复执行步骤1-1至步骤1-4，以生成N_e个参数集合。

步骤S102，分别对多个参数集合进行基于EnKF的迭代优化。在一些示例中，具体包括：通过机器学习算法在预定的训练数据集上对每个参数集合进行训练以生成模型，并在预定的验证数据集上对模型进行性能评估，最后通过EnKF算法对多个参数集合进行更新。更为具体地，如图3所示，该步骤包括以下步骤：

步骤2-1：对训练数据集(例如记作X_T)和验证数据集(例如记作X_V)进行特征缩放。

如果特征调优的功能未启动，将每个样本的特征数据统一归一化到指定的值域内，这些归一化的训练数据和验证数据将一直使用直至整个寻优结束为止。如果特征调优功能启动，假设缩放因子δ_j∈θ_i，如果不进行特征选择，根据δ_j对每一个特征进行数值上的缩放；如果进行特征选择，则首先对缩放因子归一化到[0，1]，通过公式δ_i/δ_max，然后选择大于给定值域的缩放因子对相应的特征进行数值上的缩放，只有缩放后的特征数据进行训练和验证，所有的δ_i参与EnKF计算。若特征调优功能未启动，则步骤2-1仅执行首次，否则，该步骤每次执行。

步骤2-2：将θ_i中的参数输入到机器学习算法，并在训练数据集X_T中进行训练生成模型，并且，通常采用模型选择技术来确保泛化性能。

步骤2-3：通过模型对每个样本进行预测，得到模型的估计值。更为具体地，即采用θ_i生成的模型在验证数据集X_V上，对每个样本进行预测，输出一个rank值，即模型输出的估计值，假设Hθ_i表示包含预测结果的向量。

步骤2-4：得到所有参数的模型，并进行性能评估。具体地说，即对每一组参数θ_i∈A，重复步骤2-1到步骤2-3，生成模型并进行性能评估，假设HA表示集合包含了采用每一组参数生成模型得到的预测值(在EnKF算法中，其表示状态到观测的映射)，则HA可以表示为：

其中，n表示验证数据集样本的个数。

进一步地，对于每一个参数集合A，重复执行上述步骤进行训练评估，得到相应的HA。

进一步地，在一些示例中，在步骤S102之后，还可包括以下步骤：

步骤3：生成观测集合，假设D表示观测集合，则D表示为：

其中，表示第i组观测向量。观测表示给定的样本先验概率，若是没有提供样本的先验概率，给予一个初始观测值，假设d₀表示观测向量包含了样本的初始观测，观测集合生成的具体步骤包括：

步骤3-1：随机生成一组归一化的向量，如果样本数量n不多，对随机向量进行正交化，否则不执行。

步骤3-2：生成随机的观测扰动，假设γ表示观测集合扰动，则：

其中，表示步骤3-1中随机生成的扰动向量，变量v_i表示随机步长，并且服从高斯分布，其中方差S_o是可配置的。

步骤3-3：将初始观测向量d₀，分别加上每一组扰动向量v_iβ_i∈γ，计算得到一个观测向量d_i＝d₀+v_iβ_i，共生成N组观测构成观测集合D。

步骤3-4：重复步骤3-1至步骤3-3，生成N_e个观测扰动集合以及观测集合。

在步骤S102中，通过以下公式对参数集合进行更新：

A^a＝A^f+A′(HA′)^T(HA′(HA′)^T+γγ^T)^-1(D-HA)，

其中，A表示参数集合，A^f表示当前的参数集合，A^a表示更新的参数集合，A′表示参数集合扰动，D表示观测集合，γ表示观测集合扰动，HA表示模型预测结果集合，HA′表示HA的集合扰动。进一步地，HA′通过如下公式计算：

其中，表示集合平均值，中的每个元素为在EnKF的计算过程中，由于(HA′(HA′)^T+γγ^T)^-1的计算开销过大，因此采用householder变换进行UR分解来优化计算。假设表示HA′，X(i，j)表示X中的一个元素，X(：，j)表示其中的一列，令τ表示一个相对残差的边界，令1＞＞τ＞0，则对于X中的每一列i＝1，...，N，执行以下步骤：

步骤4-1：计算剩余列的残差范数，计算公式如下：

ResNorm(k)＝||X(i：n，k)||₂ k＝i，...，N。

步骤4-2：若(其中，表示最大残差范数的列号)，那么p＝i-1，循环结束，转至步骤4-7；否则，p＝i，将两列进行交换

步骤4-3：初始化向量其中

步骤4-4：计算并且

若X(i，i)＞0，那么ω_i＝ω_i+Norm×e_i，更新X(i)，满足如下条件：

否则，ω_i＝ω_i-Norm×e_i，更新X(i)，满足如下条件：

步骤4-5：计算ω_i＝ω_i/||ω_i||₂，对k＝i+1：N，进行如下更新计算：

X(i：n，k)＝X(i：n，k)-2ω_i(i：n)(ω_i(i：n)^TX(i：n，k))。

步骤4-6：i＝i+1，若i＞N，循环结束，转至步骤4-7；否则，从步骤4-1开始执行。

步骤4-7：建立矩阵S定义为S＝X(：，1：p)。

通过上述步骤4-1至步骤4-7的UR分解之后，得到如下的估计公式：

其中，U表示正交矩阵，表示上三角矩阵包含矩阵S中非零元的列，矩阵由p列对角元绝对值最大的列构成。经过分解后，矩阵U有p个householder变换组成，表示为U＝H(ω₁)H(ω₂)…H(ω_P)，其中householder变换H(ω_i)定义为H(ω_i)＝I-2ω_iω_i ^T。那么，优化的EnKF计算公式转化为：

当UR分解完成之后，出于计算效率的考虑，上述公式中剩余计算严格从右到左执行，最终得到更新的参数集合A^a。

步骤5：如果EnKF更新轮数达到设置的最大轮数，则转至步骤S102，用更新得到的参数集合A^a训练模型并且进行性能评估，然后转至后述的步骤6；否则，转至步骤S102进行下一次EnKF的更新计算。

步骤S103，分别对优化后的多个参数集合进行性能评估，并根据评估结果得到集合池和补充参数集合，其中，集合池中的参数集合的性能高于补充参数集合中的参数集合的性能。如图4所示，具体包括以下步骤：

步骤6：在每一个EnKF更新计算过程中，保存所有EnKF更新过程中的参数集合A及对应的HA，对其进行统一的性能评估，输出这个过程中最优的参数集合，每一个参数集合的计算任务输出一组A及HA。除此之外，所有的性能评估结果将被记录下来。

步骤7：若集合进化的轮数达到设置的最大轮数，则转至后述的步骤14；否则，转至后述步骤8，继续进行集合进化。

步骤8：收集每一个计算任务输出的参数集合及预测结果，进行集合评估，并根据评估结果将优化后的多个参数集合分为三类，具体地，采用了两个阈值将参数集合分成三类，假设score(A)表示参数集合的性能值，则评估方式如下：

如果score(A)≥thresh1，则判定该参数集合性能很好，并将该参数集合保存在集合池中，如果集合池中的数量为N_e，则转至后述步骤12；否则，继续执行该步骤。

如果score(A)≤thresh2，则判定该参数集合性能较差，并丢弃该参数集合。

如果thresh2＜score(A)＜thresh1，则判定该参数集合的性能一般，并将性能一般的参数集合随机进行两两合并，以生成补充参数集合。在评估完所有的参数集合之后，若存在需要进行合并的参数集合，则转至后述步骤9；否则，转至后述步骤10。

步骤9：对性能一般的参数集合，选取一对参数集合，然后采用基于EnKF的合并算法生成新的参数集合A^m，具体包括以下步骤：

步骤9-1：假设选取的一对参数集合为A_i，A_j，则通过下列公式分别计算Q_ij以及Q_ji：

其中，上述计算采用了步骤4中的优化计算。

步骤9-2：分别计算A_ij以及A_ji，具体为；

步骤9-3：对Q_ij以及Q_ji分别进行UR分解。具体为：

其中，表示一个上三角矩阵，其中矩阵的列根据主元(对角元)的绝对值按从大到小进行排列，表示置换矩阵，用于在选择主元时对列进行交换。

步骤9-4：从矩阵以及分别选出具有最大主元(对角元)的N列，根据其在参数集合以及中选出对应的参数向量组成最后的参数集合A^m。

步骤9-5：若待合并的参数集合列表为空，则转至后述步骤10，即随机生成新的参数集合，否则随机选择另一对参数集合进行合并，即重复执行步骤9-1至步骤9-5。

步骤S104，对集合池中的参数集合和补充参数集合中的参数集合再次进行基于EnKF的迭代优化和性能评估，以得到最优参数集合。如图4所示，具体包括以下步骤：

步骤10：如果有参数集合被丢弃或者进行合并的，则执行步骤S101随机生成新的参数集合。

步骤11：对经过合并或者随机生成的参数集合进行新一轮的集合进化，并转至步骤S102。

步骤12：在集合进化阶段结束之后，进行融合搜索，如图2所示。若在融合搜索迭代步初始，集合池中的参数集合个数为1，则转至后述步骤15；否则，从集合池中选取一对参数集合进行合并生成新的参数集合，并执行步骤9-1至步骤9-4。

步骤13：对每一个新生成的参数集合进行EnKF更新，即转至步骤S102。

步骤14：当EnKF更新后，收集这一过程中性能最优的参数集合，然后进行集合评估，将score(A)≥thresh1的参数集合加入到集合池中。然后，转至步骤12进行下一个迭代步的融合搜索。

步骤15：从记录中找出性能评测最好的一组参数，作为最优参数集合并输出。

综上所述，本发明的方法采用了EnKF技术，能够用于机器学习的参数寻优及特征调优两方面问题，将特征缩放因子作为一类参数，通过对缩放因子进行寻优来处理特征增强和特征选择，并且可以跟机器学习算法的参数一同进行参数寻优。如图2所示，该方法主要包括了集合进化以及融合搜索两个阶段。

更为具体地，本发明的方法基于EnKF技术，EnKF技术可以估计包含大量随机变量的非线性问题，同时建立了一个基于EnKF技术的框架，并且采用了多种优化技术。具体来说，首先，该方法采用了EnKF技术，将机器学习的参数寻优和特征调优问题统一看作是对于一个非线性***，将参数作为***的状态进行估计；其次，该方法建立了一个基于EnKF的框架，采用了多集合技术针对数值优化方法容易陷入局部最优的问题，采用了集合进化技术，对多个经过EnKF计算之后的参数集合进行评估，保留性能好的，抛弃性能差的，合并性能一般的，主要用于提高搜索范围和搜索效率，当集合进化结束之后，采用融合搜索技术，合并性能较好的参数集合，进行更进一步地搜索，确保在高维空间中找到近似最优解；然后，由于机器学习的数据量大，使得在EnKF计算过程中，部分矩阵运算的计算和存储开销很大，为此采用了高效的UR分解技术，增加EnKF的运算效率，从而增强了实用性。

本发明的进一步实施例还提供了一种用于机器学习的参数寻优及特征调优的***。

图7是根据本发明一个实施例的用于机器学习的参数寻优及特征调优的***的结构框图。如图7所示，根据本发明一个实施例的用于机器学习的参数寻优及特征调优的***700，包括：生成模块710、优化模块720、评估模块730和获取模块740。

其中，生成模块710用于生成多个参数集合。

如果特征增强功能未启动，参数集合包括了机器学习算法的参数；如果特征调优功能启动，参数集合包括了机器学习算法的参数以及特征缩放因子。假设参数集合用A表示，其中集合成员θ_i表示一组参数(在EnKF算法中作为一组***状态)，A是一个m×N的状态矩阵，其中，m表示参数个数，N表示集合成员的个数。在一些示例中，假设N_e表示参数集合的个数，生成模块710随机生成参数集合的具体步骤包括：

步骤1-3：生成参数集合扰动，具体包括：

优化模块720用于分别对多个参数集合进行基于EnKF的迭代优化。在一些示例中，具体包括：有化模块720通过机器学习算法在预定的训练数据集上对每个参数集合进行训练以生成模型，并在预定的验证数据集上对模型进行性能评估，最后通过EnKF算法对多个参数集合进行更新。更为具体地，如图3所示，该该过程可包括以下步骤：

步骤2-4：得到所有参数的模型，并进行性能评估。具体地说，即对每一组参θ_i∈A数，重复步骤2-1到步骤2-3，生成模型并进行性能评估，假设HA表示集合包含了采用每一组参数生成模型得到的预测值(在EnKF算法中，其表示状态到观测的映射)，则HA可以表示为：

其中，n表示验证数据集样本的个数。

进一步地，在一些示例中，在上述过程之后，还可包括以下步骤：

步骤3：生成观测集合，假设D表示观测集合，则D表示为：

其中，在该示例中，优化模块720通过以下公式对参数集合进行更新：

A^a＝A^f+A′(HA′)^T(HA′(HA′)^T+γγ^T)^-1(D-HA)，

其中，A表示参数集合，A^f表示当前的参数集合，A^a表示更新的参数集合，A′表示参数集合扰动，D表示观测集合，γ表示观测集合扰动，HA表示模型预测结果集合，HA′表示HA的集合扰动。。进一步地，HA′通过如下公式计算：

步骤4-1：计算剩余列的残差范数，计算公式如下：

ResNorm(k)＝||X(i：n，k)||₂ k＝i，...，N。

步骤4-2：若(其中，表示最大残差范数的列号)，那么p＝i-1，循环结束，转至后述步骤4-7；否则，p＝i，将两列进行交换

步骤4-3：初始化向量其中

步骤4-4：计算并且

否则ω_i＝ω_i-Norm×e_i，，更新X(i)，满足如下条件：

X(i：n，k)＝X(i：n，k)-2ω_i(i：n)(ω_i(i：n)^TX(i：n，k))。

步骤4-6：i＝i+1，若i＞N，循环结束，转至后述步骤4-7；否则，从步骤4-1开始执行。

步骤4-7：建立矩阵S定义为S＝X(：，1：p)。

步骤5：如果EnKF更新轮数达到设置的最大轮数，则转至步骤S102，用更新得到的参数集合A^a训练模型并且进行性能评估，然后转至后述的步骤6；否则，进行下一次EnKF的更新计算。

评估模块730用于分别对优化后的多个参数集合进行性能评估，并根据评估结果得到集合池和补充参数集合，其中，集合池中的参数集合的性能高于补充参数集合中的参数集合的性能。在一些示例中，该过程可概述为以下步骤：

步骤7：若集合进化的轮数达到设置的最大轮数，则转至后述的步骤14；否则，转至后述的步骤8，继续进行集合进化。

其中，上述计算采用了步骤4中的优化计算。

步骤9-2：分别计算A_ij以及A_ji，具体为；

步骤9-3：对Q_ij以及Q_ji分别进行UR分解。具体为：

获取模块740用于对集合池中的参数集合和补充参数集合中的参数集合再次进行基于EnKF的迭代优化和性能评估，以得到最优参数集合。在一些示例中，该过程可概述为以下步骤：

步骤10：如果有参数集合被丢弃或者进行合并的，则随机生成新的参数集合。

步骤11：对经过合并或者随机生成的参数集合进行新一轮的集合进化。

步骤13：对每一个新生成的参数集合进行EnKF更新。

综上所述，本发明的***采用了EnKF技术，能够用于机器学习的参数寻优及特征调优两方面问题，将特征缩放因子作为一类参数，通过对缩放因子进行寻优来处理特征增强和特征选择，并且可以跟机器学习算法的参数一同进行参数寻优。如图2所示，该***运行时主要包括了集合进化以及融合搜索两个阶段。

更为具体地，本发明的***基于EnKF技术，EnKF技术可以估计包含大量随机变量的非线性问题，同时建立了一个基于EnKF技术的框架，并且采用了多种优化技术。具体来说，首先，该***采用了EnKF技术，将机器学习的参数寻优和特征调优问题统一看作是对于一个非线性***，将参数作为***的状态进行估计；其次，该***建立了一个基于EnKF的框架，采用了多集合技术针对数值优化方法容易陷入局部最优的问题，采用了集合进化技术，对多个经过EnKF计算之后的参数集合进行评估，保留性能好的，抛弃性能差的，合并性能一般的，主要用于提高搜索范围和搜索效率，当集合进化结束之后，采用融合搜索技术，合并性能较好的参数集合，进行更进一步地搜索，确保在高维空间中找到近似最优解；然后，由于机器学习的数据量大，使得在EnKF计算过程中，部分矩阵运算的计算和存储开销很大，为此采用了高效的UR分解技术，增加EnKF的运算效率，从而增强了实用性。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本发明中，除非另有明确的规定和限定，第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触，或第一和第二特征通过中间媒介间接接触。而且，第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方，或仅仅表示第一特征水平高度小于第二特征。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种用于机器学习的参数寻优及特征调优的***，其特征在于，包括：

生成模块，所述生成模块用于生成多个参数集合，其中，如果特征增强功能未启动，则所述参数集合包括了机器学习算法的参数，如果特征调优功能启动，则所述参数集合包括了机器学习算法的参数以及特征缩放因子，其中，所述生成模块生成多个参数集合，具体包括：

随机生成一个参数向量θ∈R^m×1，其中每个参数在预定的参数范围内生成随机值，

随机生成一组归一化的向量{ρ_i|ρ_i∈R^m×1,i＝1,…,N}，对其进行正交化以确保扰动线性无关，

生成参数集合扰动，具体包括：

A′＝(F_ar₁ρ₁,F_ar₂ρ₂,…,F_ar_Nρ_N)∈R^m×N,r_i～N(0,S_p)，

其中，A′表示参数几何扰动，ρ_i表示随机生成的扰动向量，变量r_i表示随机步长，并且服从高斯分布，方差S_p是可配置的，矩阵F_a＝(f₁e₁,f₂e₂,…,f_Ne_N)，e_i表示单位向量，f_i是一个可配置的缩放变量，用于调整扰动幅度，

将参数向量θ，分别加上扰动集合A′中的每一组扰动向量ε_i∈A′，得到一组参数θ_i＝θ+ε_i，共生成N组参数构成参数集合A，

重复上述几个步骤，以生成N_e个参数集合；

优化模块，所述优化模块用于分别对所述多个参数集合进行基于EnKF的迭代优化，所述优化模块用于通过机器学习算法在预定的训练数据集上对每个参数集合进行训练以生成模型，并在预定的验证数据集上对所述模型进行性能评估，并通过EnKF算法对所述多个参数集合进行更新，所述优化模块还用于：

对所述训练数据集和验证数据集进行特征缩放；将参数集合中的参数输入机器学习算法，在训练数据集中进行训练以生成模型；通过所述模型对每个样本进行预测，得到所述模型的估计值；得到所有参数的模型，并进行性能评估，具体包括：

其中，HA表示集合包含了采用每一组参数生成模型得到的预测值，n表示验证数据集样本的个数，

其中，通过下式对所述参数集合进行更新：

A^a＝A^f+A′(HA′)^T(HA′(HA′)^T+ΥΥ^T)^-1(D-HA)，

其中，A表示参数集合，A^f表示当前的参数集合，A^a表示更新的参数集合，A′表示参数集合扰动，D表示观测集合，Υ表示观测集合扰动，HA表示模型预测结果集合，HA′表示HA的集合扰动；

评估模块，所述评估模块用于分别对优化后的多个参数集合进行性能评估，并根据评估结果得到集合池和补充参数集合，其中，所述集合池中的参数集合的性能高于所述补充参数集合中的参数集合的性能，所述评估模块用于根据评估结果将所述优化后的多个参数集合分为三类，设score(A)表示参数集合的性能值，并且当score(A)≥thresh1时，判定该参数集合性能很好，并将该参数集合保存在集合池中，以及当score(A)≤thresh2时，判定该参数集合性能较差，并丢弃该参数集合，以及当thresh2<score(A)<thresh1时，则该参数集合的性能一般，并将性能一般的参数集合随机进行两两合并，以生成补充参数集合；

获取模块，所述获取模块用于对集合池中的参数集合和所述补充参数集合中的参数集合再次进行基于EnKF的迭代优化和性能评估，以得到最优参数集合。

2.根据权利要求1所述的用于机器学习的参数寻优及特征调优的***，其特征在于，所述评估模块还用于在性能一般的参数集合中选取一对参数集合，通过基于EnKF的合并算法生成新的参数集合，具体包括：

假设选取的一对参数集合为A_i,A_j，则通过下列公式分别计算Q_ij以及Q_ji：

分别计算A_ij以及A_ji，其中：

对于Q_ij以及Q_ji分别进行UR分解；

从矩阵以及中分别选出具有最大主元的N列，根据其在参数集合以及中选出对应的参数向量组成最后的参数集合A^m；

若待合并的参数集合列表为空，则随机生成新的参数集合，否则随机选择另一对参数集合进行合并。