CN112270614B

CN112270614B - 一种面向制造企业全***优化设计的设计资源大数据建模方法

Info

Publication number: CN112270614B
Application number: CN202011049729.XA
Authority: CN
Inventors: 任鸿儒; 肖毅; 鲁仁全; 徐雍; 周琪
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2020-09-29
Filing date: 2020-09-29
Publication date: 2024-05-10
Anticipated expiration: 2040-09-29
Also published as: CN112270614A

Abstract

本发明公开了一种面向制造企业全***优化设计的设计资源大数据建模方法，通过对制造企业中设计、制造、产品、用户等主体的大数据进行采集、清洗、特征处理后，借以KNN邻近—logistic回归组合模型算法，构建出准确有效的面向制造企业全***优化设计的设计资源大数据模型，从而对制造企业中的相关业务进行预判，同时对涉及设计、制造、产品、用户等主体的数据进行优化，解决了现有的设计资源数据模型只考虑单一设计部门数据，未将全部设计部门数据进行整合汇总的问题，以及单一的数据模型可能存在无法准确预测分类结果的问题。

Description

一种面向制造企业全***优化设计的设计资源大数据建模方法

技术领域

本发明涉及制造业和大数据的技术领域，尤其涉及到一种面向制造企业全***优化设计的设计资源大数据建模方法。

背景技术

工业大数据是我国制造业转型升级的重要战略资源，为了充分利用制造企业设计、制造、管理、服务过程中产生的海量数据，制造企业数据空间构建方法与技术已成为重要的基础前沿技术。制造企业数据空间是设计、制造、管理、服务等业务域中产生的全体系、全价值链数据构成的空间，除了具有大数据4V特征(规模大、变化快、类型杂、质量低)，还具有多模态、跨尺度、高通量、强关联、重机理等特点，造成了制造大数据建模难的问题。

当前制造大数据建模方法大多针对单一业务领域建模，在建模过程中没有充分考虑其他业务领域数据的关联影响，缺少贯通多业务领域和产品全生命周期的建模方法，不能站在全流程全***角度全面有效地刻画设计资源、管理流程、制造过程、产品服务等业务领域的核心问题。

而产品设计是产品生命周期的首要环节，现有的设计资源数据模型一方面只考虑单一设计部门数据，未将全部设计部门数据进行整合汇总，且数据模型采用的算法单一，可能存在无法准确预测分类结果的情况。

发明内容

本发明的目的在于克服现有技术的不足，提供一种面向制造企业全***优化设计的设计资源大数据建模方法，实现设计资源大数据关系的高度有序化展示，并配合全流程制造过程、全贯通管理流程、全周期产品服务的业务模型一起实现制造大数据全体系全价值链建模，解决传统关系数据库模型无法对制造企业大数据进行合理有效建模的问题。

为实现上述目的，本发明所提供的技术方案为：

一种面向制造企业全***优化设计的设计资源大数据建模方法，包括以下步骤：

S1、采集多源异构的设计资源大数据，将其转化为统一格式的结构化数据源；

S2、对采集后的数据进行清洗处理，去除不符合要求的数据；

S3、对符合要求的数据进行特征处理；

S4、采用KNN邻近—logistic回归组合模型算法对待分类的样本进行分类预测，以此来判断制造企业中某新产品的设计能否在规定周期内完成，并根据预测的结果，对涉及设计、制造、产品、用户在内的主体的数据进行优化。

进一步地，所述步骤S1采集多源异构的设计资源大数据，转化统一格式的结构化数据源的具体步骤如下：

S1-1、识别与制造企业设计资源主体有关的数据源及其存储位置；

S1-2、针对关系型数据库，采用Sqoop技术配置关系型数据库与HDFS之间的数据连接，将关系型数据库中的数据导入Hadoop的HDFS中；

S1-3、针对文件格式的数据，采用MapReduce编程方法解析数据文件并将其上传到HDFS中；

S1-4、基于关系型模型在Hive中集成前面获取到的所有主体数据；

S1-5、建立结构化主体数据集。

进一步地，所述数据清洗包括步骤：

S2-1、数据预处理；

S2-2、去除或补全有缺失的数据；

S2-3、去除内容有错误的数据；

S2-4、去除逻辑错误的数据；

S2-5、去掉不需要的数据；

S2-6、进行数据关联性验证。

进一步地，所述特征处理包括步骤：

S3-1、通过采用信息过采样SMOTE方法来解决正负样本不均衡问题，并且避免后续KNN算法和logistic回归算法存在的因样本不均衡而造成的预测准确率低的问题；

S3-2、通过方差选择法来进行特征选择；

S3-3、通过主成分分析法对特征选择后的特征矩阵维度进行降维处理。

进一步地，所述步骤S3-1的具体过程如下：

3-1-1)对于少数类中的每一个样本x，利用公式：

求得样本x到其他少数类样本y的欧氏距离d；

3-1-2)将多数类样本数记为m，将少数类样本数记为n，令：

取每一个样本x中欧氏距离d最小的k个其他样本，作为样本x的近邻x_k；

3-1-3)对于每个近邻x_k，利用随机线性插值的方法，在x和x_k中产生新样例x_n：

x_n＝x+ε|x_k-x|

其中，ε为0-1间的随机值；

3-1-4)重复步骤3-1-3)，直到少数类样本数和多数类样本数相等或差值不大时为止。

进一步地，所述步骤S3-3的具体过程如下：

3-3-1)对特征进行归一化处理；

利用线性函数转换：

y＝(x-MinValue)/(MaxValue-MinValue)

其中，x、y分别为转换前、后的值，MaxValue、MinValue分别为样本的最大值和最小值；

3-3-2)先计算每一列特征的平均值，然后每一维度都需要减去该列的特征平均值；

3-3-3)计算样本特征的协方差矩阵；

3-3-4)计算协方差矩阵的特征值和特征向量；

3-3-5)对计算得到的特征值进行从大到小的排序；

3-3-6)取出前K个特征向量和特征值，将初始的样本矩阵乘上K个特征向量形成的特征向量矩阵，即得到了降维后的特征矩阵；

K值的计算参考以下公式：

找到满足上式的最小的K值，其中λ为协方差矩阵的特征值。

进一步地，所述步骤S4具体为：

S4-1、将经特征处理后的数据划分为训练集与测试集数据，用于训练和测试模型；

S4-2、利用训练集数据训练完KNN模型后，再用测试集数据测试KNN模型，并求出其第Ⅰ类分类错误率(将多数类误分成少数类的概率)ω₁；

S4-3、利用训练集数据训练完logistic回归模型后，再用测试集数据测试logistic回归模型，并求出其第Ⅰ类分类错误率ω₂；

S4-4、基于Lagrange构建KNN邻近—logistic回归组合模型；

S4-5、利用KNN邻近—logistic回归组合模型对制造企业中某新产品的设计能否在规定周期内完成进行预测；

S4-6、根据预测的结果，对涉及设计、制造、产品、用户在内的主体的数据进行优化。

进一步地，所述步骤S4-1为了确定KNN邻近算法与logistic回归算法以及KNN邻近—logistic回归组合模型算法的分类结果是否准确，选择交叉验证的方法，把经特征处理后的数据分成三等份，分别为A、B、C；然后再将A、B、C按交叉的方式分成三组，第一组为“训练集：A、B；测试集C”，第二组为“训练集：B、C；测试集A”，第三组为“训练集：A、C；测试集B”。

进一步地，所述步骤S4-2利用第一组训练集数据训练完KNN模型后，再用同组测试集数据测试KNN模型，之后用第二、三组数据重复上述操作，求出KNN模型三次的平均第Ⅰ类分类错误率ω₁；其具体步骤如下：

4-2-1)根据欧氏距离公式：

来计算第一组测试集数据x与第一组训练集数据y之间的欧式距离d；

4-2-2)根据所算得的欧氏距离d进行大小排序，并选择最小的k个点，k的取值需小于训练集样本数的平方根，且为奇数；

4-2-3)确定k个点在“设计能在规定周期内完成”和“设计不能在规定周期内完成”两个类别中出现的频率，并将频率最高的类别作为待分类数据的预测分类；

4-2-4)根据分类结果，求出第一组数据对应KNN模型算法的第Ⅰ类分类错误率ω₁₁；

4-2-5)重复上述4-2-1)-4-2-4)步两次，求出其余两组数据对应KNN模型算法的第Ⅰ类分类错误率ω₁₂、ω₁₃，最后求平均值ω₁＝(ω₁₁+ω₁₂+ω₁₃)/3作为KNN模型算法的第Ⅰ类分类错误率；

而步骤S4-3利用第一组训练集数据训练完logistic回归模型后，再用同组测试集数据测试logistic回归模型，接着用第二、三组数据重复上述操作，求出logistic回归模型三次的平均第Ⅰ类分类错误率ω₂，其步骤如下：

4-3-1)确定预测函数：

基于Sigmoid函数：

将权值向量设为θ＝(θ₀,θ₁,θ₂,...,θ_n)，

将第一组训练集数据作为输入向量x＝(1,x₁,x₂,...,x_n)；设z(x)＝θ^Tx,得逻辑回归算法的预测函数：

将是否在规定周期内完成产品设计记为y，按时完成时y记为1，未按时完成时y记为0；

其h_θ(x)表示在输入值为x，权值参数为θ的情况下，y＝1的概率；

4-3-2)确定权值向量θ：

对于给定的数据集，可以采用极大似然估计法估计权值向量θ：

似然函数：

其对数似然函数：

此时引入

进而转化为梯度下降任务求其极小值，后半部分为加入的正则化项，目的是解决模型的过拟合问题；

上式中，ξ为惩罚项力度值，选择一组不同值的惩罚项力度ξ，如[0.01，0.1，1，10，100]，对每个值进行循环，获取每个值在交叉验证5次后的5个召回率recall，从而获得每个惩罚力度所对应的召回率recall，然后选择值最高的召回率recall所对应的ξ作为为惩罚项力度值；

针对θ值的求解，先求出每个J(θ)对θ的偏导数，然后给定某个θ值，让其不断减去偏导数乘以步长，然后算出新的θ，直到θ的值变化到使J(θ)在两次迭代间的差值足够小，也就是两次迭代计算出的J(θ)的值基本不再变化，说明此时J(θ)已达到局部最小值；然后算出每个θ值，代入逻辑回归方程h_θ(x)中，最终得到预测函数；

其中J(θ)对θ的偏导数为：

正则化后θ_j的迭代式为：

4-3-3)将第一组测试集数据输入到由第一组训练集数据训练后的logistic回归算法的预测函数h_θ(x)中，并根据所得概率值大小对测试集数据进行分类；

4-3-4)根据分类结果，求出第一组数据对应logistic回归模型算法的第Ⅰ类分类错误率ω₂₁；

4-3-5)复上述4-3-1)-4-3-4)步两次，求出其余两组数据对应logistic回归模型算法的第Ⅰ类分类错误率ω₂₂、ω₂₃，最后求平均值ω₂＝(ω₂₁+ω₂₂+ω₂₃)/3作为logistic回归模型算法的第Ⅰ类分类错误率。

进一步地，所述步骤S4-4基于Lagrange构建KNN邻近—logistic回归组合模型的具体过程如下：

4-4-1)预测函数的确定：

用p_i表示第i个样本的组合模型的预测值，有：

p_i＝α₁k_i+α₂l_i

其中k_i、l_i分别代表KNN、logistic回归模型对第i个样本的预测概率值，α₁、α₂分别代表KNN、logistic回归模型的权重值，且α₁+α₂＝1；

4-4-2)构造Lagrange损失函数：

其中ω₁、ω₂为上述(2)(3)步中所求得的子模型第Ⅰ类分类错误率，式中将其视为子模型的惩罚参数，λ为Lagrange算子；

4-4-3)求α₁，α₂的最优值：

由于L(α₁，α₂，λ)为凸函数，存在极小值，而极小值点便是α₁，α₂的最优值；

利用python对上式求解可得α₁，α₂的最优值。

与现有技术相比，本方案原理及优点如下：

本方案通过对制造企业中设计、制造、产品、用户等主体的大数据进行采集、清洗、特征处理后，借以KNN邻近—logistic回归组合模型算法，构建出准确有效的面向制造企业全***优化设计的设计资源大数据模型，从而对制造企业中的相关业务进行预判，同时对涉及设计、制造、产品、用户等主体的数据进行优化，解决了现有的设计资源数据模型只考虑单一设计部门数据，未将全部设计部门数据进行整合汇总的问题，以及单一的数据模型可能存在无法准确预测分类结果的问题。

另外，本方案配合全流程制造过程、全贯通管理流程、全周期产品服务的业务模型一起实现制造大数据全体系全价值链建模，能进一步解决传统关系数据库模型无法对制造企业大数据进行合理有效建模的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的服务作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一种面向制造企业全***优化设计的设计资源大数据建模方法的原理流程图；

图2为本发明一种面向制造企业全***优化设计的设计资源大数据建模方法中数据清洗的流程图。

具体实施方式

下面结合具体实施例对本发明作进一步说明：

如图1所示，本实施例所述的一种面向制造企业全***优化设计的设计资源大数据建模方法，包括以下步骤：

S1、数据采集：

S1-5、建立结构化主体数据集。

通过上述步骤可以将采集到的多源异构的设计资源大数据转化为统一格式的结构化数据集。

如图2所示，对采集后的数据进行清洗处理，去除不符合要求的数据；具体步骤包括：

S2-1、数据预处理：查看元数据，包括字段解释、数据来源、代码表等等一切描述数据的信息，使得对数据本身有一个直观的了解，并且初步发现一些问题，为之后的处理作准备；

S2-2、去除或补全有缺失的数据：对每个数据字段确定缺失的范围，缺失关键的数据字段的数据直接进行舍弃，非关键的数据进行填充完善，方法有以业务知识或经验推测填充缺失值、以同一指标的计算结果(均值、中位数、众数等)填充缺失值、以不同指标的计算结果填充缺失值；

S2-3、去除内容有错误的数据，保证数据的正确性；

S2-4、去除逻辑错误的数据：根据业务规则将逻辑错误的数据进行舍弃，保证数据逻辑正确；

S2-5、去掉不需要的数据：除去与业务规则无关的数据，保证数据的相关性；

S2-6、进行数据关联性验证：对于有多个来源的数据，有必要进行关联性验证，如果不关联，需要将这个数据进行清洗。

S3、对符合要求的数据进行特征处理：

S3-1、类不平衡问题处理：当数据存在严重的类不平衡问题，预测的结果往往会偏向数量占多的类，对模型的准确度造成影响。常见的处理类不平衡问题的方法有随机欠采样法，通过随机地去掉一些多数类样本来减小多数类的规模，但这样可能会丢失重要数据，且采样后的数据不能代表全部数据，导致分类结果不精确。还有随机过采样法，通过随机复制少数类样本来提高少数类的规模，虽然该方法不会造成信息缺失，表现也优于欠采样法，但是会加大过拟合的可能性。

本实施例在不丢失重要数据且缓解过拟合的情况下，选择采用信息过采样SMOTE方法来解决类不平衡问题。其具体分析计算流程如下：

3-1-1)对于少数类中的每一个样本x，利用公式：

求得样本x到其他少数类样本y的欧氏距离d；

3-1-2)将多数类样本数记为m，将少数类样本数记为n，令：

x_n＝x+ε|x_k-x|

其中，ε为0-1间的随机值；

S3-2、通过方差选择法来进行特征选择，先计算各个特征的方差值，优先消除方差值为0的特征，然后根据阈值，选择方差值大于阈值的特征。

S3-3、当完成特征选择后，可能会由于特征矩阵过大，导致计算量大、模型的训练时间长的问题，通过主成分分析法(PCA)对特征选择后的特征矩阵维度进行降维处理。其分析计算流程如下：

3-3-1)对特征进行归一化处理；

利用线性函数转换：

y＝(x-MinValue)/(MaxValue-MinValue)

3-3-3)计算样本特征的协方差矩阵；

3-3-4)计算协方差矩阵的特征值和特征向量；

3-3-5)对计算得到的特征值进行从大到小的排序；

K值的计算参考以下公式：

找到满足上式的最小的K值，其中λ为协方差矩阵的特征值。

S4、为了避免单个算法模型可能存在的无法准确预测分类结果的情况，本实施例选择采用KNN邻近—logistic回归组合模型算法对待分类的样本进行分类预测，以此来判断制造企业中某新产品的设计能否在规定周期内完成，并根据预测的结果，对涉及设计、制造、产品、用户等主体的数据进行优化。

其具体步骤如下：

S4-1、确定训练集与测试集数据

为了确定KNN邻近算法与logistic回归算法以及KNN邻近—logistic回归组合模型算法的分类结果是否准确，选择交叉验证的方法，把经特征处理后的数据分成三等份，分别为A、B、C；然后再将A、B、C按交叉的方式分成三组，第一组为“训练集：A、B；测试集C”，第二组为“训练集：B、C；测试集A”，第三组为“训练集：A、C；测试集B”；

S4-2、利用第一组训练集数据训练完KNN模型后，再用同组测试集数据测试KNN模型，之后用第二、三组数据重复上述操作，求出KNN模型三次的平均第Ⅰ类分类错误率ω₁；其具体步骤如下：

4-2-1)根据欧氏距离公式：

S4-3、利用第一组训练集数据训练完logistic回归模型后，再用同组测试集数据测试logistic回归模型，接着用第二、三组数据重复上述操作，求出logistic回归模型三次的平均第Ⅰ类分类错误率ω₂，其步骤如下：

4-3-1)确定预测函数：

基于Sigmoid函数：

将权值向量设为θ＝(θ₀,θ₁,θ₂,...,θ_n)，

4-3-2)确定权值向量θ：

似然函数:

其对数似然函数：

此时引入

上式中，ξ为惩罚项力度值，选择一组不同值的惩罚项力度ξ，如[0.01，0.1，1，10，100]，对每个值进行循环，获取每个值在交叉验证5次后的5个recall(召回率)，这样就能获得每个惩罚力度所对应的recall，然后选择值最高的recall所对应的ξ作为为惩罚项力度值；

针对θ值的求解，先求出每个J(θ)对θ的偏导数，然后给定某个θ值，让其不断减去偏导数乘以步长，然后算出新的θ，直到θ的值变化到使J(θ)在两次迭代间的差值足够小，也就是两次迭代计算出的J(θ)的值基本不再变化，说明此时J(θ)已达到局部最小值。然后算出每个θ值，代入逻辑回归方程h_θ(x)中，最终得到预测函数。

其中J(θ)对θ的偏导数为：

正则化后θ_j的迭代式为：

4-3-5)复上述4-3-1)-4-3-4)步两次，求出其余两组数据对应logistic回归模型算法的第Ⅰ类分类错误率ω₂₂、ω₂₃，最后求平均值ω₂＝(ω₂₁+ω₂₂+ω₂₃)/3作为logistic回归模型算法的第Ⅰ类分类错误率；

S4-4、构建KNN邻近—logistic回归组合模型：

4-4-1)预测函数的确定：

用p_i表示第i个样本的组合模型的预测值，有：

p_i＝α₁k_i+α₂l_i

4-4-2)构造Lagrange损失函数：

4-4-3)求α₁，α₂的最优值：

利用python对上式求解可得α₁，α₂的最优值。

S4-5、业务预测：

将待分类样本的数据分别输入KNN模型和logistic回归模型中，得到各自的预测概率值k和l，再利用公式p＝α₁k+α₂l求得组合模型的预测值，根据该值大小判断新产品的设计能否在规定的周期内完成；

S4-6、设计资源优化，根据预判的结果，对涉及设计、制造、产品、用户等主体的数据进行优化，其步骤如下：

4-6-1)当预判结果为新产品的设计能在规定的周期内完成时，可对logistic回归算法中权值θ较小的主体数据进行适当降级，例如当“设计人员资历”的权值θ较小时，可将参与设计的人员由高级工程师换为初、中级工程师，以此来节省人力成本。

4-6-2)当预判结果为新产品的设计不能在规定的周期内完成时，可对logistic回归算法中权值θ较大的主体数据进行适当升级，比如“加工设备质量”权值θ较大时，可选用质量更好的加工设备对产品进行加工。

以上所述之实施例子只为本发明之较佳实施例，并非以此限制本发明的实施范围，故凡依本发明之形状、原理所作的变化，均应涵盖在本发明的保护范围内。

Claims

1.一种面向制造企业全***优化设计的设计资源大数据建模方法，其特征在于，包括以下步骤：

S3、对符合要求的数据进行特征处理；

S4、采用KNN邻近—logistic回归组合模型算法对待分类的样本进行分类预测，以此来判断制造企业中某新产品的设计能否在规定周期内完成，并根据预测的结果，对涉及设计、制造、产品、用户在内的主体的数据进行优化；

所述步骤S4具体为：

S4-2、利用训练集数据训练完KNN模型后，再用测试集数据测试KNN模型，并求出其第Ⅰ类分类错误率ω₁；

S4-4、基于Lagrange构建KNN邻近—logistic回归组合模型；

S4-6、根据预测的结果，对涉及设计、制造、产品、用户在内的主体的数据进行优化；

所述步骤S4-1为了确定KNN邻近算法与logistic回归算法以及KNN邻近—logistic回归组合模型算法的分类结果是否准确，选择交叉验证的方法，把经特征处理后的数据分成三等份，分别为A、B、C；然后再将A、B、C按交叉的方式分成三组，第一组为“训练集：A、B；测试集C”，第二组为“训练集：B、C；测试集A”，第三组为“训练集：A、C；测试集B”；

所述步骤S4-2利用第一组训练集数据训练完KNN模型后，再用同组测试集数据测试KNN模型，之后用第二、三组数据重复上述操作，求出KNN模型三次的平均第Ⅰ类分类错误率ω₁；其具体步骤如下：

4-2-1)根据欧氏距离公式：

4-3-1)确定预测函数：

基于Sigmoid函数：

将权值向量设为θ＝(θ₀,θ₁,θ₂,...,θ_n)，

4-3-2)确定权值向量θ：

对于给定的数据集，采用极大似然估计法估计权值向量θ：

似然函数：

其对数似然函数：

此时引入

上式中，ξ为惩罚项力度值，选择一组不同值的惩罚项力度ξ[0.01，0.1，1，10，100]，对每个值进行循环，获取每个值在交叉验证5次后的5个召回率recall，从而获得每个惩罚力度所对应的召回率recall，然后选择值最高的召回率recall所对应的ξ作为为惩罚项力度值；

针对θ值的求解，先求出每个J(θ)对θ的偏导数，然后给定某个θ值，让其不断减去偏导数乘以步长，然后算出新的θ，直到θ的值变化到使J(θ)在两次迭代间的差值足够小，也就是两次迭代计算出的J(θ)的值基本不再变化，说明此时J(θ)已达到局部最小值；然后算出每个θ值，代入逻辑回归方程中，最终得到预测函数；

其中J(θ)对θ的偏导数为：

正则化后θ_j的迭代式为：

所述步骤S4-4基于Lagrange构建KNN邻近—logistic回归组合模型的具体过程如下：

4-4-1)预测函数的确定：

用pi表示第i个样本的组合模型的预测值，有：

p_i＝α₁k_i+α₂l_i

4-4-2)构造Lagrange损失函数：

其中ω₁、ω₂分别为步骤S4-2、步骤S4-3中所求得的子模型第Ⅰ类分类错误率，式中将其视为子模型的惩罚参数，λ为Lagrange算子；

4-4-3)求α₁，α₂的最优值：

利用python对上式求解可得α₁，α₂的最优值。

2.根据权利要求1所述的一种面向制造企业全***优化设计的设计资源大数据建模方法，其特征在于，所述步骤S1采集多源异构的设计资源大数据，转化统一格式的结构化数据源的具体步骤如下：

S1-5、建立结构化主体数据集。

3.根据权利要求1所述的一种面向制造企业全***优化设计的设计资源大数据建模方法，其特征在于，所述数据清洗包括步骤：

S2-1、数据预处理；

S2-2、去除或补全有缺失的数据；

S2-3、去除内容有错误的数据；

S2-4、去除逻辑错误的数据；

S2-5、去掉不需要的数据；

S2-6、进行数据关联性验证。

4.根据权利要求1所述的一种面向制造企业全***优化设计的设计资源大数据建模方法，其特征在于，所述特征处理包括步骤：

S3-2、通过方差选择法来进行特征选择；

5.根据权利要求4所述的一种面向制造企业全***优化设计的设计资源大数据建模方法，其特征在于，所述步骤S3-1的具体过程如下：

3-1-1)对于少数类中的每一个样本x，利用公式：

求得样本x到其他少数类样本y的欧氏距离d；

3-1-2)将多数类样本数记为m，将少数类样本数记为n，令：

x_n＝x+ε|x_k-x|

其中，ε为0-1间的随机值；

6.根据权利要求4所述的一种面向制造企业全***优化设计的设计资源大数据建模方法，其特征在于，所述步骤S3-3的具体过程如下：

3-3-1)对特征进行归一化处理；

利用线性函数转换：

y＝(x-MinValue)/(MaxValue-MinValue)

3-3-3)计算样本特征的协方差矩阵；

3-3-4)计算协方差矩阵的特征值和特征向量；

3-3-5)对计算得到的特征值进行从大到小的排序；

K值的计算参考以下公式：

找到满足上式的最小的K值，其中λ为协方差矩阵的特征值。