CN115600121A

CN115600121A - 数据分层分类方法及装置、电子设备、存储介质

Info

Publication number: CN115600121A
Application number: CN202210446117.7A
Authority: CN
Inventors: 张明; 张儒; 郭震; 金云峰; 孙自飞; 甘雨; 路明标; 姜栋
Original assignee: Nanjing Tianfu Software Co ltd
Current assignee: Nanjing Tianfu Software Co ltd
Priority date: 2022-04-26
Filing date: 2022-04-26
Publication date: 2023-01-13
Anticipated expiration: 2042-04-26
Also published as: CN115600121B

Abstract

本公开涉及船体型线设计中的数据处理技术领域，提供一种数据分层分类方法及装置、电子设备、存储介质，应用于船体型线设计，方法包括：S101前置分割原始数据集；S102分类训练子数据集；S103验证数据分割方案；S104选择最终的数据分割方案。本公开基于工业设计中数据规模的客观限制，针对工业设计数据集中存在多种混合模式或数据集内部一致性较差的问题，首次在工业数据集驱动的船体型线设计中使用数据分层分类方法对数据集进行前置处理，挖掘样本训练集内部的多种混合模式，以前置分层操作来提纯数据集质量，提高了数据建模的精度，提高了设计人员对积累船型数据的利用率，应用范围广泛，有效辅助了船体型线的智能化设计。

Description

数据分层分类方法及装置、电子设备、存储介质

技术领域

本公开涉及船体型线设计中的数据处理技术领域，特别涉及一种数据分层分类方法及装置、电子设备、存储介质。

背景技术

传统的船舶设计本质上是一种经验设计，最终的决策结果很大程度上取决于决策者的主观经验和知识结构水平。其中，专家咨询法(Delphi)以专家的主观判断为决策依据，以“分数”、“指数”、“序数”、“评语”等作为评价准则，是一种简单、缺乏理论性和***性的方法，难以保证评价结果的客观真实性。层次分析法(Analytic Hierarchy Process，AHP)用于研究结构更为复杂的多目标决策问题，它可以把定性问题定量化，从而使评价结果更趋于科学和合理。该方法通过两两比较评价指标，得出反映各属性相对重要性的判断矩阵，因而可靠度高、误差小，其不足之处是，由于受到决策者的知识结构、个人偏好、评判水平等的限制，判断矩阵难以满足一致性要求。

随着先进智能技术的出现和发展，科学合理的决策方式被引入了设计过程中，决策支持***(Decision Support System，DSS)的概念将决策理论推向了一个新的发展高潮，在***工程和管理科学等领域均取得了很大的成果，常用于解决半结构化和非结构化的复杂信息***决策问题。近年来，基于数据仓库(Data Warehouse，DW)的联机分析处理(Online Analytical Processing，OLAP)和数据挖掘(Data Mining，DM)等先进智能技术的出现为DSS的发展开辟了新的途径。

船型决策支持***由数据库和数据库管理模块、模型库和模型库管理模块、知识库和知识库管理模块、数据仓库和数据仓库管理模块、数据挖掘模块、知识发现模块、人机交互等模块组成。其中，数据挖掘模块和知识发现模块负责对数据进行查询、分析、开采、选择、评价等操作，并采用遗传算法、神经网络、统计分析、机器学习、模糊决策等智能技术挖掘出隐藏在其中的决策信息。

智能技术多以数据为驱动，如何利用企业累积的船型数据以为设计人员提供高效的参考是数据挖掘的主要研究内容。现有技术中，大多考虑从累积的船型数据中选择与设计需求高度相关的船型作为母型，以对船型设计进行指引，但这对船型数据的利用率极低，仅有与设计需求高度相关的优秀船型数据才会被利用，且没有考虑各选出船型之间的相互联系。

引入基于人工智能技术的代理模型训练技术是解决上述问题的关键技术之一。考虑到船型试验或实测数据是有限的现状，故而，代理模型的训练样本可以是计算流体力学(Computational Fluid Dynamics，CFD)求解工具提供的仿真数据样本，试验或实测数据可用于修正CFD求解模型或边界条件。通过该技术，船型数据库中的绝大多数数据均可被利用起来，从而指导设计人员进行船型设计，船型数据的利用率得到大幅提高。同时，代理模型的评估时长远远小于CFD仿真计算时长，代理模型的使用可以极大程度的缩短工程设计周期。

基于人工智能技术的代理模型训练技术固然能够有效解决数据利用率和设计周期漫长的问题，但代理模型的训练和使用也存在一些问题。例如，数据训练样本数量有限、样本点类别的一致性等都会导致提升代理模型训练精度的难度变大，尤其在工业数据集数据驱动学习问题中，工业流程特别是靠前的“设计段”数据价值呈现单点价值密度高、数据集规模较小的情况下。此时，由于机器学习等学习算法普遍存在数据匮乏(data-hungry)问题和维数灾难(dimension-curse)问题，即，模型非线性表达能力越强，对于训练数据规模和多样性需求越高；而非线性表达能力一般的算法模型，却无法有效提取训练数据集中复杂的映射模式，模型效果难以承担相关应用。

由于工业设计段数据集规模的客观限制，诸如深度学习等复杂模型无法得到有效的激活使用，只能使用统计属性更强的机器学习算法，而机器学习算法的非线性表达能力有限，尤其在工业设计段数据集存在多种混合模式或数据集内部一致性较差的情况下，这类学习算法的建模效果将被进一步削弱。

发明内容

本公开旨在至少解决现有技术中存在的问题之一，提供一种数据分层分类方法及装置、电子设备、存储介质。

本公开的一个方面，提供一种数据分层分类方法，应用于船体型线设计，包括以下步骤：

前置分割原始数据集：根据用户指定的样本分类数，采用高斯混合模型(GaussianMixture Model，GMM)对原始数据集进行聚类分层处理，将其分割成与样本分类数对应的多个子数据集，得到当前数据分割方案，其中，原始数据集为船体型线设计中的工业数据集；

分类训练子数据集：分别为每个子数据集添加子类标签，得到训练数据集，基于训练数据集，对随机森林(RandomForest，RF)分类器进行训练，得到子类分类器；

验证数据分割方案：利用基于梯度提升决策树(Gradient Boosting DecisionTree，GBDT)的回归算法模型，分别对原始数据集和多个子数据集进行回归训练，得到原始数据集回归模型和多个子数据集回归模型，其中，每个子数据集回归模型分别对应一个子数据集，结合子类分类器和交叉验证，分别确定当前数据分割方案的代理性能和原始数据集的代理性能；

选择最终的数据分割方案：基于当前数据分割方案的代理性能和原始数据集的代理性能，对当前数据分割方案进行评价，并根据评价结果，确定最终的数据分割结果。

可选的，交叉验证包括K折交叉验证，在得到原始数据集回归模型和多个子数据集回归模型之后，结合子类分类器和交叉验证，分别确定当前数据分割方案的代理性能和原始数据集的代理性能，包括：

将原始数据集随机等分成K个原始数据子集，轮流将其中一个原始数据子集作为测试集，对应的其余原始数据子集作为训练集，基于训练集、测试集和子类分类器，对多个子数据集回归模型以及原始数据集回归模型进行训练和测试，分别得到多个子数据集回归模型对应的误差和原始数据集回归模型对应的误差；

基于多个子数据集回归模型对应的误差和原始数据集回归模型对应的误差，分别确定当前数据分割方案的代理性能和原始数据集的代理性能。

可选的，基于训练集、测试集和子类分类器，对多个子数据集回归模型以及原始数据集回归模型进行训练和测试，分别得到多个子数据集回归模型对应的误差和原始数据集回归模型对应的误差，包括：

基于训练集，训练多个子数据集回归模型；

基于子类分类器，判别测试集中每个样本的子类类别，并基于判别出的子类类别，从训练好的多个子数据集回归模型中确定出各个样本对应的子数据集回归模型，将测试集中的各个样本分别输入对应的子数据集回归模型，得到各个样本对应的预测值；

基于测试集中各个样本的真实值及其对应的预测值，确定多个子数据集回归模型对应的误差。

可选的，基于测试集中各个样本的真实值及其对应的预测值，确定多个子数据集回归模型对应的误差，包括：

根据下式(1)，确定多个子数据集回归模型对应的误差：

其中，j＝1,2,…,K为测试集的编号，E_j为多个子数据集回归模型与测试集j对应的相对平均绝对误差(Relative Mean Absolute Error，RMAE)，i＝1,2,…,n为测试集j中的样本编号，n为测试集j中的样本数量，y_i为测试集j中第i个样本的真实值，

为测试集j中第i个样本对应的预测值。

可选的，基于多个子数据集回归模型对应的误差和原始数据集回归模型对应的误差，分别确定当前数据分割方案的代理性能和原始数据集的代理性能，包括：

根据下式(2)，确定当前数据分割方案的代理性能：

其中，splitperf为当前数据分割方案的代理性能。

可选的，基于训练集、测试集和子类分类器，对多个子数据集回归模型以及原始数据集回归模型进行训练和测试，分别得到多个子数据集回归模型对应的误差和原始数据集回归模型对应的误差，还包括：

基于训练集，训练原始数据集回归模型；

将测试集中的各个样本分别输入训练好的原始数据集回归模型，得到各个样本对应的预测值；

基于测试集中的各个样本的真实值及其对应的预测值，确定原始数据集回归模型对应的误差。

可选的，随机森林分类器基于分类回归树(Classification And RegressionTree，CART)模型建立。

本公开的另一个方面，提供一种数据分层分类装置，应用于船体型线设计，装置包括：

前置分割模块，用于前置分割原始数据集：根据用户指定的样本分类数，采用高斯混合模型对原始数据集进行聚类分层处理，将其分割成与样本分类数对应的多个子数据集，得到当前数据分割方案，其中，原始数据集为船体型线设计中的工业数据集；

分类训练模块，用于分类训练子数据集：分别为每个子数据集添加子类标签，得到训练数据集，基于训练数据集，对随机森林分类器进行训练，得到子类分类器；

验证模块，用于验证数据分割方案：利用基于梯度提升决策树的回归算法模型，分别对原始数据集和多个子数据集进行回归训练，得到原始数据集回归模型和多个子数据集回归模型，其中，每个子数据集回归模型分别对应一个子数据集，结合子类分类器和交叉验证，分别确定当前数据分割方案的代理性能和原始数据集的代理性能；

选择模块，用于选择最终的数据分割方案：基于当前数据分割方案的代理性能和原始数据集的代理性能，对当前数据分割方案进行评价，并根据评价结果，确定最终的数据分割结果。

本公开的另一个方面，提供了一种电子设备，包括：

至少一个处理器；以及，

与至少一个处理器通信连接的存储器；其中，

存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行前文记载的数据分层分类方法。

本公开的另一个方面，提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时实现前文记载的数据分层分类方法。

本公开相对于现有技术而言，基于工业设计问题数据规模的客观限制，针对工业设计段数据集中存在多种混合模式或数据集内部一致性较差的问题，首次在工业数据集驱动的船体型线设计中使用数据分层分类方法对数据集进行前置处理，通过挖掘样本训练集内部的多种混合模式，以前置分层操作来提纯数据集质量，提高了数据建模的精度，提高了设计人员对企业积累船型数据的利用率，应用范围广泛，有效辅助了船体型线的智能化设计。

附图说明

一个或多个实施方式通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施方式的限定，附图中具有相同参考数字标号的元件表示为类似的元件，除非有特别申明，附图中的图不构成比例限制。

图1为本公开一实施方式提供的一种数据分层分类方法的流程图；

图2为本公开另一实施方式提供的一种数据分层分类方法的流程图；

图3为本公开另一实施方式提供的一种数据分层分类方法的流程图；

图4为本公开另一实施方式提供的一种数据分层分类方法的流程图；

图5为本公开另一实施方式提供的两种建模方案的预测值和真实值的对比效果图；

图6为本公开另一实施方式提供的三种建模方案的误差对比结果图；

图7为本公开另一实施方式提供的测试数据集的可视化结果示意图；

图8为本公开另一实施方式提供的一种数据分层分类装置的结构示意图；

图9为本公开另一实施方式提供的电子设备的结构示意图。

具体实施方式

为使本公开实施方式的目的、技术方案和优点更加清楚，下面将结合附图对本公开的各实施方式进行详细的阐述。然而，本领域的普通技术人员可以理解，在本公开各实施方式中，为了使读者更好地理解本公开而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本公开所要求保护的技术方案。以下各个实施方式的划分是为了描述方便，不应对本公开的具体实现方式构成任何限定，各个实施方式在不矛盾的前提下可以相互结合相互引用。

本公开的一个实施方式涉及一种数据分层分类方法，应用于船体型线设计，其流程如图1所示，包括以下步骤：

S101：前置分割原始数据集：根据用户指定的样本分类数，采用高斯混合模型对原始数据集进行聚类分层处理，将其分割成与样本分类数对应的多个子数据集，得到当前数据分割方案，其中，原始数据集为船体型线设计中的工业数据集。

具体的，对于原始数据集D，可以利用无监督聚类算法高斯混合模型，根据样本分类数split_n，将原始数据集D分割为split_n个子数据集即(D₁，D₂，...，D_{split_n})，得到当前数据分割方案。该当前数据分割方案即指根据用户指定的样本分类数split_n，采用高斯混合模型对原始数据集进行聚类分层处理，将原始数据集分割成split_n个子数据集。

S102：分类训练子数据集：分别为每个子数据集添加子类标签，得到训练数据集，基于训练数据集，对随机森林分类器进行训练，得到子类分类器。

具体的，将子类标签记为lable＝1，2，...，split-n，训练数据集记为D_{_splited}，则为子数据集(D₁，D₂，...，D_{split_n})添加子类标签后，得到的训练数据集可以表示为D_{_splited}＝{(D₁，lable＝1)，(D₂，lable＝2)，...，(D_split-n，lable＝split-n)}。基于训练数据集，采用有监督算法中的随机森林分类器进行训练，得到子类分类器classifier，将该子类分类器classifier作为中段的分类器，用于判别新进数据样本的子类归属，从而决定要激活的回归模型。

随机森林分类器是一种特殊的引导聚集算法(Bootstrap aggregating，bagging算法，又称装袋算法)，它将决策树CART算法用作bagging策略中的基元模型。首先，用自助抽样集成方法在原生数据集上生成m个训练集，然后，对于每个训练集，构造一颗独立的决策树，在节点找特征进行***的时候，并不是对所有特征找到能使得指标(如信息增益)最大的，而是在特征中随机抽取一部分特征，在抽到的特征中间找到最优解，应用于节点，进行***。随机森林的方法相当于对于样本和特征都进行了采样，所以可以有效地避免过拟合问题。

S103：验证数据分割方案：利用基于梯度提升决策树的回归算法模型，分别对原始数据集和多个子数据集进行回归训练，得到原始数据集回归模型和多个子数据集回归模型，其中，每个子数据集回归模型分别对应一个子数据集，结合子类分类器和交叉验证，分别确定当前数据分割方案的代理性能和原始数据集的代理性能。

具体的，本步骤可以利用基于梯度提升决策树的回归算法模型，分别对原始数据集D和split_n个子数据集(D₁，D₂，...，D_{split_n})进行回归训练，得到原始数据集回归模型estimator_baseline和split_n个子数据集回归模型estimator₁，estimator₂，...，estimator_{split_n}。以交叉验证作为流程逻辑，分别得到当前数据分割方案的代理性能split_perf和原始数据集的代理性能baseline_perf，从而验证当前数据分割方案是否可以有效提升建模回归效果。

S104：选择最终的数据分割方案：基于当前数据分割方案的代理性能和原始数据集的代理性能，对当前数据分割方案进行评价，并根据评价结果，确定最终的数据分割结果。

具体的，根据当前数据分割方案的代理性能split_perf和原始数据集的代理性能baseline_perf对当前数据分割方案进行评价，比较split_perf和baseline_perf的大小。若满足split_perf＞baseline_perf，则说明当前数据分割方案的性能更高，分割有效，输出子数据集(D₁，D₂，...，D_{split_n})，该子数据集(D₁，D₂，...，D_{split_n})即为最终的数据分割结果。若不满足split_perf＞baseline_perf，则说明当前数据分割方案的性能较低，分割无效，输出原始数据集D。

本公开实施方式相对于现有技术而言，基于工业设计问题数据规模的客观限制，针对工业设计段数据集中存在多种混合模式或数据集内部一致性较差的问题，首次在工业数据集驱动的船体型线设计中使用数据分层分类方法对数据集进行前置处理，通过挖掘样本训练集内部的多种混合模式，以前置分层操作来提纯数据集质量，提高了数据建模的精度，提高了设计人员对企业积累船型数据的利用率，应用范围广泛，有效辅助了船体型线的智能化设计。

示例性的，在步骤S101前，还可以包括获取步骤，即获取用户指定的样本分类数以及原始数据集。

示例性的，交叉验证包括K折(K-fold)交叉验证。

具体的，K折交叉验证的基本思想是，初始采样分割成K个子样本，一个单独的子样本被保留作为验证模型的数据，其他K-1个样本用来训练。交叉验证重复K次，每个子样本验证一次，平均K次的结果或者使用其它结合方式，最终得到一个单一估测。K折交叉验证的优势在于，同时重复运用随机产生的子样本进行训练和验证，每次的结果验证一次，训练集的所有样本都必然会成为训练数据同时也必然有机会成为一次测试集，可以更好的利用训练集数据。其中，K一般取2-10，10折交叉验证是最常用的。

示例性的，在得到原始数据集回归模型和多个子数据集回归模型之后，结合子类分类器和交叉验证，分别确定当前数据分割方案的代理性能和原始数据集的代理性能，包括：

将原始数据集随机等分成K个原始数据子集，轮流将其中一个原始数据子集作为测试集，对应的其余原始数据子集作为训练集，基于训练集、测试集和子类分类器，对多个子数据集回归模型以及原始数据集回归模型进行训练和测试，分别得到多个子数据集回归模型对应的误差和原始数据集回归模型对应的误差。

具体的，将原始数据集D随机等分成K个原始数据子集(D′₁，D′₂，...，D′_K)，轮流将D′₁，D′₂，...，D′_K作为测试集，对应的其余原始数据子集即(D′₂，D′₃，...，D′_K)，(D′₁，D′₃，...，D′_K)，...，(D′₁，D′₂，...，D′_K-1)作为训练集，利用子类分类器对split_n个子数据集回归模型estimator₁，estimator₂，...，estimator_{split_n}和原始数据集回归模型estimator_{baselin_e}进行训练和测试，分别得到split_n个子数据集回归模型对应的误差和原始数据集回归模型对应的误差。

通过对当前数据分割方案进行K折交叉验证，可以更好的利用训练集数据，且得到的评估结果即当前数据分割方案的代理性能和原始数据集的代理性能可以尽可能接近模型在测试集上的表现。

示例性的，基于训练集、测试集和子类分类器，对多个子数据集回归模型以及原始数据集回归模型进行训练和测试，分别得到多个子数据集回归模型对应的误差和原始数据集回归模型对应的误差，包括以下步骤，如图2所示：

S201：基于训练集，训练多个子数据集回归模型；

S202：基于子类分类器，判别测试集中每个样本的子类类别，并基于判别出的子类类别，从训练好的多个子数据集回归模型中确定出各个样本对应的子数据集回归模型，将测试集中的各个样本分别输入对应的子数据集回归模型，得到各个样本对应的预测值；

S203：基于测试集中各个样本的真实值及其对应的预测值，确定多个子数据集回归模型对应的误差。

具体的，由于需要轮流将K个原始数据子集作为测试集，对应的其余原始数据子集作为训练集，因此，需要分别将原始数据子集D′₁，D′₂，...，D′_K作为测试集，对应的其余原始数据子集即(D′₂，D′₃，...，D′_K)，(D′₁，D′₃，...，D′_K)，...，(D′₁，D′₂，...，D′_K-1)作为训练集，将步骤S201至步骤S203重复K次，得到split_n个子数据集回归模型分别与各个测试集对应的误差。

示例性的，基于训练集、测试集和子类分类器，对多个子数据集回归模型以及原始数据集回归模型进行训练和测试，分别得到多个子数据集回归模型对应的误差和原始数据集回归模型对应的误差，还包括以下步骤，如图3所示：

S301：基于训练集，训练原始数据集回归模型；

S302：将测试集中的各个样本分别输入训练好的原始数据集回归模型，得到各个样本对应的预测值；

S303：基于测试集中的各个样本的真实值及其对应的预测值，确定原始数据集回归模型对应的误差。

具体的，由于需要轮流将K个原始数据子集作为测试集，对应的其余原始数据子集作为训练集，因此，需要分别将原始数据子集D′₁，D′₂，...，D′_K作为测试集，对应的其余原始数据子集即(D′₂，D′₃，...，D′_K)，(D′₁，D′₃，...，D′_K)，...，(D′₁，D′₂，...，D′_K-1)作为训练集，将步骤S301至步骤S303重复K次，得到原始数据集回归模型分别与各个测试集对应的误差。

示例性的，基于测试集中各个样本的真实值及其对应的预测值，确定多个子数据集回归模型对应的误差，包括：

根据下式(1)，确定多个子数据集回归模型对应的误差：

其中，j＝1，2，...，K为测试集的编号，E_j为多个子数据集回归模型与测试集j对应的相对平均绝对误差，i＝1，2，...，n为测试集j中的样本编号，n为测试集j中的样本数量，y_i为测试集j中第i个样本的真实值，

为测试集j中第i个样本对应的预测值。

需要说明的是，将E_j替换为原始数据集回归模型与测试集j对应的相对平均绝对误差，将y_i替换为测试集j中第i个样本的真实值，将

替换为测试集j中第i个样本对应的预测值，即可得到原始数据集回归模型对应的误差。

示例性的，基于多个子数据集回归模型对应的误差和原始数据集回归模型对应的误差，分别确定当前数据分割方案的代理性能和原始数据集的代理性能，包括：

根据下式(2)，确定当前数据分割方案的代理性能：

其中，splitperf为当前数据分割方案的代理性能。

需要说明的是，将splitperf替换为原始数据集的代理性能，将E_j替换为原始数据集回归模型与测试集j对应的相对平均绝对误差，即可得到原始数据集的代理性能。

示例性的，随机森林分类器基于分类回归树模型建立。

具体的，分类回归树CART模型的原理如下：

输入：训练数据集；

输出：分类回归树f(x)；

在训练数据集所在的输入空间中，递归的将每个区域划分为两个子区域，并决定每个子区域上的输出值，构建二叉决策树：

1)选择最优切分变量j与切分点s，求解：

遍历变量j，对固定的切分变量j扫描切分点s，选择使得上式达到最小值的对(j，s)；

2)用选定的对(j，s)划分区域并决定相应的输出值：

R₁(j，s)＝x|x^(j)≤s，R₂(j，s)＝x|x^(j)＞s

3)继续对两个子区域调用步骤1)和2)，直至满足停止条件；

4)将输入空间划分为M个区域R₁，R₂，...，R_M，生成决策树：

示例性的，步骤S101中的高斯混合模型GMM是多个高斯分布函数的线性组合，其公式为：

其中，(μ_k，∑_k)为第k类高斯分布函数的参数，π_k为当前点被选为第k类的概率。GMM算法的思想核是：通过调整(π_k，μ_k，∑_k)参数组合，使得GMM模型在当前数据集上取得似然概率最大，其似然概率计算公式如下：

GMM算法的求解过程涉及到最大期望EM(Expectation-Maximization)算法的使用，分为两步，第一步先求出要估计参数的粗略值，第二步使用第一步的参数估计值最大化似然函数。引入中间隐式变量γ(z_nk)，其代表第n个点x_n归属于第k类的后验概率：

根据EM算法的M步(Maximization step，m-step)，针对似然概率求(π，μ，∑)参数的偏导，并置为0，得到如下计算公式：

其中：

基于更新后的(π，μ，∑)参数，重新计算GMM模型的对数似然函数，即：

检查参数(π，μ，∑)是否收敛或对数似然函数是否收敛，若不收敛，则重复上述迭代过程。至此，基于GMM迭代修正逻辑可以获取当前混合数据集的混合分布统计模型，基于该混合分布统计模型，从而实现对于训练集样本的分类。

示例性的，步骤S103中的梯度提升决策树GBDT算法是一种迭代的决策树算法。该算法是一系列回归树(CART)的加法组合：后一颗树拟合之前预测结果与目标的“残差”，所有树的结果累加得出最终答案。GBDT算法的原理如下：

1)初始化弱学习器：

2)对m＝1，2，...，M有：

(a)对每个样本i＝1，2，...，N，计算负梯度，即残差：

(b)将上步得到的残差作为样本新的真实值，并将数据(x_i，r_mi)，i＝1，2，...，N作为下棵树的训练数据，得到一颗新的回归树f_m(x)，其对应的叶子节点区域为R_jm，j＝1,2，...，J。其中，J为回归树t的叶子节点的个数。

(c)对叶子区域j＝1，2，...，J计算最佳拟合值：

(d)更新强学习器：

3)得到最终学习器：

为使本领域技术人员能够更好地理解上述实施方式，下面以一具体示例进行说明。

如图4所示，一种数据分层分类方法，应用于船体型线设计，包括以下步骤：

前置分割原始数据集：根据用户配置的参数即样本分类数n，采用GMM对原始数据集D进行聚类分层操作，将其分割成n个子数据集，输出将原始数据集D分割后得到的子数据集(D₁，D₂，...，D_n)，得到当前数据分割方案其中，原始数据集为船体型线设计中的工业数据集；

分类训练子数据集：分别为n个子数据集(D₁，D₂，...，D_n)添加子类标签，得到训练数据集(D₁，lable＝1)，(D₂，lable＝2)，...，(D_n，lable＝n)，基于训练数据集，对数据分类识别器进行RF训练，得到子类分类器；

验证数据分割方案：利用基于GBDT的回归算法模型，对子数据集代理进行预估器(estimators)训练，得到n个子数据集回归模型，每个子数据集回归模型分别对应一个子数据集，并对未分割(No-split)的原始数据集即全数据集代理进行基分类器训练即base_estimator训练，得到原始数据集回归模型；采用K折交叉验证(Cross-validation)测试当前分割方案，得到当前分割方案的代理性能split_perf，并通过相同的K折交叉验证得到原始方案即原始数据集的代理性能baseline_perf；

选择最终的数据分割方案：判断是否满足split_perf＞baseline_perf，若是，则说明当前分割方案有效，输出将原始数据集分割后得到的子数据集(D₁，D₂，...，D_n)，若否，则说明当前分割方案无效，输出原始数据集D。

对图4所示的数据分层分类方法进行测试验证，原始数据集和实验结果如下：

1)原始数据集说明：选取一份含有2000个样本的测试数据集进行验证，其设计参数分别为x₁，x₂，x₃，目标参数为y。

2)参数设置：将要分割的子数据集的个数设置为2，即将样本分类数n设置为2，表示需要将原始数据集分割为2个子数据集，将K折交叉验证的折数设置为10，并开启模型的超参优化，以便在更准确的GBDT树模型上进行分割独立建模工作，从而更客观地判断当前数据分层分类操作是否能够有效提升建模精度。

3)评价指标：选择RMAE作为评估模型性能的评价指标，其定义如下：

其中，i＝1,2，...，n为样本编号，n为样本数量，y_i为样本i的真实值，

为样本i对应的预测值。RMAE越小，说明模型的精度越高。

4)实验结果：数据分层分类方法操作逻辑直观，针对测试数据集，在未开启超参优化功能之前，得到如表1所示的性能提升：

表1基于数据分层分类方法的回归模型误差

类型	RMAE值
		baseline_estimator	9.81％
estimators(n＝2)	3.64％

即，在测试数据集上，通过针对n＝2，并通过相同的交叉验证操作获取模型预估精度的保守性能估计，可以发现，在不增加数据规模和改变机器学习算法的情况下，仅通过引入数据分层分类方法便可以取得模型性能的大幅提升，将原先的近10％预估误差降低到3.64％。两种模型的预测值与真实值的对比如图5所示，图5中的基本方案即指对原始数据集进行基分类器训练得到的方案，分割方案即指当前分割方案。

修改样本分类数n，开启分层分类的优选分割功能，可以发现，分层分类方法推荐分割方案为n＝3，并得到如下表2所示的性能统计情况：

表2开启优选分割功能后基于数据分层分类方法的回归模型误差

类型	RMAE值
		baseline_estimator	9.81％
estimators(n＝3)	2.79％

相较于用户提供的分割方案，采用数据分层分类方法的智能分割功能可以提供更进一步的性能挖掘与提升。三种回归模型的误差对比如图6所示，其中，基本模型是指不分割原始数据集的情况下训练得到的回归模型；用户指定数据分割模型，是指原始数据集由用户指定的方案进行分割后训练得到的回归模型；智能分割模型，是指原始数据集由数据分层分类方法智能分割后训练得到的回归模型。

通过图7所示的测试数据集的可视化结果也可发现，测试数据集中明显存在多种子类模式，数据分层分类方法成功的通过“分而治之”两种子类模式提高了数据建模的精度。

本公开的另一个实施方式涉及一种数据分层分类装置，应用于船体型线设计，如图8所示，包括：

前置分割模块801，用于前置分割原始数据集：根据用户指定的样本分类数，采用高斯混合模型对原始数据集进行聚类分层处理，将其分割成与样本分类数对应的多个子数据集，得到当前数据分割方案，其中，原始数据集为船体型线设计中的工业数据集；

分类训练模块802，用于分类训练子数据集：分别为每个子数据集添加子类标签，得到训练数据集，基于训练数据集，对随机森林分类器进行训练，得到子类分类器；

验证模块803，用于验证数据分割方案：利用基于梯度提升决策树的回归算法模型，分别对原始数据集和多个子数据集进行回归训练，得到原始数据集回归模型和多个子数据集回归模型，其中，每个子数据集回归模型分别对应一个子数据集，结合子类分类器和交叉验证，分别确定当前数据分割方案的代理性能和原始数据集的代理性能；

选择模块804，用于选择最终的数据分割方案：基于当前数据分割方案的代理性能和原始数据集的代理性能，对当前数据分割方案进行评价，并根据评价结果，确定最终的数据分割结果。

本公开实施方式提供的数据分层分类装置的具体实现方法，可以参见本公开实施方式提供的数据分层分类方法所述，此处不再赘述。

本公开的另一个实施方式涉及一种电子设备，如图9所示，包括：

至少一个处理器901；以及，

与至少一个处理器901通信连接的存储器902；其中，

存储器902存储有可被至少一个处理器901执行的指令，指令被至少一个处理器901执行，以使至少一个处理器901能够执行上述实施方式所述的数据分层分类方法。

其中，存储器和处理器采用总线方式连接，总线可以包括任意数量的互联的总线和桥，总线将一个或多个处理器和存储器的各种电路连接在一起。总线还可以将诸如***设备、稳压器和功率管理电路等之类的各种其他电路连接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器处理的数据通过天线在无线介质上进行传输，进一步，天线还接收数据并将数据传送给处理器。

处理器负责管理总线和通常的处理，还可以提供各种功能，包括定时，***接口，电压调节、电源管理以及其他控制功能。而存储器可以被用于存储处理器在执行操作时所使用的数据。

本公开的另一个实施方式涉及一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时实现上述实施方式所述的数据分层分类方法。

即，本领域技术人员可以理解，实现上述实施方式所述方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本公开各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM(Read-OnlyMemory，只读存储器)、RAM(Random Access Memory，随机存取存储器)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域的普通技术人员可以理解，上述各实施方式是实现本公开的具体实施方式，而在实际应用中，可以在形式上和细节上对其作各种改变，而不偏离本公开的精神和范围。

Claims

1.一种数据分层分类方法，应用于船体型线设计，其特征在于，所述方法包括以下步骤：

前置分割原始数据集：根据用户指定的样本分类数，采用高斯混合模型对原始数据集进行聚类分层处理，将其分割成与所述样本分类数对应的多个子数据集，得到当前数据分割方案，其中，所述原始数据集为船体型线设计中的工业数据集；

分类训练子数据集：分别为每个所述子数据集添加子类标签，得到训练数据集，基于所述训练数据集，对随机森林分类器进行训练，得到子类分类器；

验证数据分割方案：利用基于梯度提升决策树的回归算法模型，分别对所述原始数据集和所述多个子数据集进行回归训练，得到原始数据集回归模型和多个子数据集回归模型，其中，每个所述子数据集回归模型分别对应一个所述子数据集，结合所述子类分类器和交叉验证，分别确定所述当前数据分割方案的代理性能和所述原始数据集的代理性能；

选择最终的数据分割方案：基于所述当前数据分割方案的代理性能和所述原始数据集的代理性能，对所述当前数据分割方案进行评价，并根据评价结果，确定最终的数据分割结果。

2.根据权利要求1所述的方法，其特征在于，所述交叉验证包括K折交叉验证，在得到原始数据集回归模型和多个子数据集回归模型之后，所述结合所述子类分类器和交叉验证，分别确定所述当前数据分割方案的代理性能和所述原始数据集的代理性能，包括：

将所述原始数据集随机等分成K个原始数据子集，轮流将其中一个原始数据子集作为测试集，对应的其余原始数据子集作为训练集，基于所述训练集、所述测试集和所述子类分类器，对所述多个子数据集回归模型以及所述原始数据集回归模型进行训练和测试，分别得到所述多个子数据集回归模型对应的误差和所述原始数据集回归模型对应的误差；

基于所述多个子数据集回归模型对应的误差和所述原始数据集回归模型对应的误差，分别确定所述当前数据分割方案的代理性能和所述原始数据集的代理性能。

3.根据权利要求2所述的方法，其特征在于，所述基于所述训练集、所述测试集和所述子类分类器，对所述多个子数据集回归模型以及所述原始数据集回归模型进行训练和测试，分别得到所述多个子数据集回归模型对应的误差和所述原始数据集回归模型对应的误差，包括：

基于所述训练集，训练所述多个子数据集回归模型；

基于所述子类分类器，判别所述测试集中每个样本的子类类别，并基于判别出的子类类别，从训练好的所述多个子数据集回归模型中确定出各个样本对应的子数据集回归模型，将所述测试集中的各个样本分别输入对应的子数据集回归模型，得到各个样本对应的预测值；

基于所述测试集中各个样本的真实值及其对应的所述预测值，确定所述多个子数据集回归模型对应的误差。

4.根据权利要求3所述的方法，其特征在于，所述基于所述测试集中各个样本的真实值及其对应的所述预测值，确定所述多个子数据集回归模型对应的误差，包括：

根据下式(1)，确定所述多个子数据集回归模型对应的误差：

其中，j＝1,2,…,K为测试集的编号，E_j为所述多个子数据集回归模型与测试集j对应的相对平均绝对误差，i＝1,2,…,n为测试集j中的样本编号，n为测试集j中的样本数量，y_i为测试集j中第i个样本的真实值，

为测试集j中第i个样本对应的预测值。

5.根据权利要求4所述的方法，其特征在于，所述基于所述多个子数据集回归模型对应的误差和所述原始数据集回归模型对应的误差，分别确定所述当前数据分割方案的代理性能和所述原始数据集的代理性能，包括：

根据下式(2)，确定所述当前数据分割方案的代理性能：

其中，splitperf为所述当前数据分割方案的代理性能。

6.根据权利要求2所述的方法，其特征在于，所述基于所述训练集、所述测试集和所述子类分类器，对所述多个子数据集回归模型以及所述原始数据集回归模型进行训练和测试，分别得到所述多个子数据集回归模型对应的误差和所述原始数据集回归模型对应的误差，还包括：

基于所述训练集，训练所述原始数据集回归模型；

将所述测试集中的各个样本分别输入训练好的原始数据集回归模型，得到各个样本对应的预测值；

基于所述测试集中的各个样本的真实值及其对应的预测值，确定所述原始数据集回归模型对应的误差。

7.根据权利要求1至6任一项所述的方法，其特征在于，所述随机森林分类器基于分类回归树模型建立。

8.一种数据分层分类装置，应用于船体型线设计，其特征在于，所述装置包括：

前置分割模块，用于前置分割原始数据集：根据用户指定的样本分类数，采用高斯混合模型对原始数据集进行聚类分层处理，将其分割成与所述样本分类数对应的多个子数据集，得到当前数据分割方案，其中，所述原始数据集为船体型线设计中的工业数据集；

分类训练模块，用于分类训练子数据集：分别为每个所述子数据集添加子类标签，得到训练数据集，基于所述训练数据集，对随机森林分类器进行训练，得到子类分类器；

验证模块，用于验证数据分割方案：利用基于梯度提升决策树的回归算法模型，分别对所述原始数据集和所述多个子数据集进行回归训练，得到原始数据集回归模型和多个子数据集回归模型，其中，每个所述子数据集回归模型分别对应一个所述子数据集，结合所述子类分类器和交叉验证，分别确定所述当前数据分割方案的代理性能和所述原始数据集的代理性能；

选择模块，用于选择最终的数据分割方案：基于所述当前数据分割方案的代理性能和所述原始数据集的代理性能，对所述当前数据分割方案进行评价，并根据评价结果，确定最终的数据分割结果。

9.一种电子设备，其特征在于，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至7中任一项所述的数据分层分类方法。

10.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的数据分层分类方法。