CN112270614B - 一种面向制造企业全***优化设计的设计资源大数据建模方法 - Google Patents

一种面向制造企业全***优化设计的设计资源大数据建模方法 Download PDF

Info

Publication number
CN112270614B
CN112270614B CN202011049729.XA CN202011049729A CN112270614B CN 112270614 B CN112270614 B CN 112270614B CN 202011049729 A CN202011049729 A CN 202011049729A CN 112270614 B CN112270614 B CN 112270614B
Authority
CN
China
Prior art keywords
data
value
design
model
logistic regression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011049729.XA
Other languages
English (en)
Other versions
CN112270614A (zh
Inventor
任鸿儒
肖毅
鲁仁全
徐雍
周琪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN202011049729.XA priority Critical patent/CN112270614B/zh
Publication of CN112270614A publication Critical patent/CN112270614A/zh
Application granted granted Critical
Publication of CN112270614B publication Critical patent/CN112270614B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/04Manufacturing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24143Distances to neighbourhood prototypes, e.g. restricted Coulomb energy networks [RCEN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Biology (AREA)
  • General Business, Economics & Management (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Tourism & Hospitality (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Quality & Reliability (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Manufacturing & Machinery (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种面向制造企业全***优化设计的设计资源大数据建模方法,通过对制造企业中设计、制造、产品、用户等主体的大数据进行采集、清洗、特征处理后,借以KNN邻近—logistic回归组合模型算法,构建出准确有效的面向制造企业全***优化设计的设计资源大数据模型,从而对制造企业中的相关业务进行预判,同时对涉及设计、制造、产品、用户等主体的数据进行优化,解决了现有的设计资源数据模型只考虑单一设计部门数据,未将全部设计部门数据进行整合汇总的问题,以及单一的数据模型可能存在无法准确预测分类结果的问题。

Description

一种面向制造企业全***优化设计的设计资源大数据建模 方法
技术领域
本发明涉及制造业和大数据的技术领域,尤其涉及到一种面向制造企业全***优化设计的设计资源大数据建模方法。
背景技术
工业大数据是我国制造业转型升级的重要战略资源,为了充分利用制造企业设计、制造、管理、服务过程中产生的海量数据,制造企业数据空间构建方法与技术已成为重要的基础前沿技术。制造企业数据空间是设计、制造、管理、服务等业务域中产生的全体系、全价值链数据构成的空间,除了具有大数据4V特征(规模大、变化快、类型杂、质量低),还具有多模态、跨尺度、高通量、强关联、重机理等特点,造成了制造大数据建模难的问题。
当前制造大数据建模方法大多针对单一业务领域建模,在建模过程中没有充分考虑其他业务领域数据的关联影响,缺少贯通多业务领域和产品全生命周期的建模方法,不能站在全流程全***角度全面有效地刻画设计资源、管理流程、制造过程、产品服务等业务领域的核心问题。
而产品设计是产品生命周期的首要环节,现有的设计资源数据模型一方面只考虑单一设计部门数据,未将全部设计部门数据进行整合汇总,且数据模型采用的算法单一,可能存在无法准确预测分类结果的情况。
发明内容
本发明的目的在于克服现有技术的不足,提供一种面向制造企业全***优化设计的设计资源大数据建模方法,实现设计资源大数据关系的高度有序化展示,并配合全流程制造过程、全贯通管理流程、全周期产品服务的业务模型一起实现制造大数据全体系全价值链建模,解决传统关系数据库模型无法对制造企业大数据进行合理有效建模的问题。
为实现上述目的,本发明所提供的技术方案为:
一种面向制造企业全***优化设计的设计资源大数据建模方法,包括以下步骤:
S1、采集多源异构的设计资源大数据,将其转化为统一格式的结构化数据源;
S2、对采集后的数据进行清洗处理,去除不符合要求的数据;
S3、对符合要求的数据进行特征处理;
S4、采用KNN邻近—logistic回归组合模型算法对待分类的样本进行分类预测,以此来判断制造企业中某新产品的设计能否在规定周期内完成,并根据预测的结果,对涉及设计、制造、产品、用户在内的主体的数据进行优化。
进一步地,所述步骤S1采集多源异构的设计资源大数据,转化统一格式的结构化数据源的具体步骤如下:
S1-1、识别与制造企业设计资源主体有关的数据源及其存储位置;
S1-2、针对关系型数据库,采用Sqoop技术配置关系型数据库与HDFS之间的数据连接,将关系型数据库中的数据导入Hadoop的HDFS中;
S1-3、针对文件格式的数据,采用MapReduce编程方法解析数据文件并将其上传到HDFS中;
S1-4、基于关系型模型在Hive中集成前面获取到的所有主体数据;
S1-5、建立结构化主体数据集。
进一步地,所述数据清洗包括步骤:
S2-1、数据预处理;
S2-2、去除或补全有缺失的数据;
S2-3、去除内容有错误的数据;
S2-4、去除逻辑错误的数据;
S2-5、去掉不需要的数据;
S2-6、进行数据关联性验证。
进一步地,所述特征处理包括步骤:
S3-1、通过采用信息过采样SMOTE方法来解决正负样本不均衡问题,并且避免后续KNN算法和logistic回归算法存在的因样本不均衡而造成的预测准确率低的问题;
S3-2、通过方差选择法来进行特征选择;
S3-3、通过主成分分析法对特征选择后的特征矩阵维度进行降维处理。
进一步地,所述步骤S3-1的具体过程如下:
3-1-1)对于少数类中的每一个样本x,利用公式:
求得样本x到其他少数类样本y的欧氏距离d;
3-1-2)将多数类样本数记为m,将少数类样本数记为n,令:
取每一个样本x中欧氏距离d最小的k个其他样本,作为样本x的近邻xk
3-1-3)对于每个近邻xk,利用随机线性插值的方法,在x和xk中产生新样例xn
xn=x+ε|xk-x|
其中,ε为0-1间的随机值;
3-1-4)重复步骤3-1-3),直到少数类样本数和多数类样本数相等或差值不大时为止。
进一步地,所述步骤S3-3的具体过程如下:
3-3-1)对特征进行归一化处理;
利用线性函数转换:
y=(x-MinValue)/(MaxValue-MinValue)
其中,x、y分别为转换前、后的值,MaxValue、MinValue分别为样本的最大值和最小值;
3-3-2)先计算每一列特征的平均值,然后每一维度都需要减去该列的特征平均值;
3-3-3)计算样本特征的协方差矩阵;
3-3-4)计算协方差矩阵的特征值和特征向量;
3-3-5)对计算得到的特征值进行从大到小的排序;
3-3-6)取出前K个特征向量和特征值,将初始的样本矩阵乘上K个特征向量形成的特征向量矩阵,即得到了降维后的特征矩阵;
K值的计算参考以下公式:
找到满足上式的最小的K值,其中λ为协方差矩阵的特征值。
进一步地,所述步骤S4具体为:
S4-1、将经特征处理后的数据划分为训练集与测试集数据,用于训练和测试模型;
S4-2、利用训练集数据训练完KNN模型后,再用测试集数据测试KNN模型,并求出其第Ⅰ类分类错误率(将多数类误分成少数类的概率)ω1
S4-3、利用训练集数据训练完logistic回归模型后,再用测试集数据测试logistic回归模型,并求出其第Ⅰ类分类错误率ω2
S4-4、基于Lagrange构建KNN邻近—logistic回归组合模型;
S4-5、利用KNN邻近—logistic回归组合模型对制造企业中某新产品的设计能否在规定周期内完成进行预测;
S4-6、根据预测的结果,对涉及设计、制造、产品、用户在内的主体的数据进行优化。
进一步地,所述步骤S4-1为了确定KNN邻近算法与logistic回归算法以及KNN邻近—logistic回归组合模型算法的分类结果是否准确,选择交叉验证的方法,把经特征处理后的数据分成三等份,分别为A、B、C;然后再将A、B、C按交叉的方式分成三组,第一组为“训练集:A、B;测试集C”,第二组为“训练集:B、C;测试集A”,第三组为“训练集:A、C;测试集B”。
进一步地,所述步骤S4-2利用第一组训练集数据训练完KNN模型后,再用同组测试集数据测试KNN模型,之后用第二、三组数据重复上述操作,求出KNN模型三次的平均第Ⅰ类分类错误率ω1;其具体步骤如下:
4-2-1)根据欧氏距离公式:
来计算第一组测试集数据x与第一组训练集数据y之间的欧式距离d;
4-2-2)根据所算得的欧氏距离d进行大小排序,并选择最小的k个点,k的取值需小于训练集样本数的平方根,且为奇数;
4-2-3)确定k个点在“设计能在规定周期内完成”和“设计不能在规定周期内完成”两个类别中出现的频率,并将频率最高的类别作为待分类数据的预测分类;
4-2-4)根据分类结果,求出第一组数据对应KNN模型算法的第Ⅰ类分类错误率ω11
4-2-5)重复上述4-2-1)-4-2-4)步两次,求出其余两组数据对应KNN模型算法的第Ⅰ类分类错误率ω12、ω13,最后求平均值ω1=(ω111213)/3作为KNN模型算法的第Ⅰ类分类错误率;
而步骤S4-3利用第一组训练集数据训练完logistic回归模型后,再用同组测试集数据测试logistic回归模型,接着用第二、三组数据重复上述操作,求出logistic回归模型三次的平均第Ⅰ类分类错误率ω2,其步骤如下:
4-3-1)确定预测函数:
基于Sigmoid函数:
将权值向量设为θ=(θ012,...,θn),
将第一组训练集数据作为输入向量x=(1,x1,x2,...,xn);设z(x)=θTx,得逻辑回归算法的预测函数:
将是否在规定周期内完成产品设计记为y,按时完成时y记为1,未按时完成时y记为0;
其hθ(x)表示在输入值为x,权值参数为θ的情况下,y=1的概率;
4-3-2)确定权值向量θ:
对于给定的数据集,可以采用极大似然估计法估计权值向量θ:
似然函数:
其对数似然函数:
此时引入
进而转化为梯度下降任务求其极小值,后半部分为加入的正则化项,目的是解决模型的过拟合问题;
上式中,ξ为惩罚项力度值,选择一组不同值的惩罚项力度ξ,如[0.01,0.1,1,10,100],对每个值进行循环,获取每个值在交叉验证5次后的5个召回率recall,从而获得每个惩罚力度所对应的召回率recall,然后选择值最高的召回率recall所对应的ξ作为为惩罚项力度值;
针对θ值的求解,先求出每个J(θ)对θ的偏导数,然后给定某个θ值,让其不断减去偏导数乘以步长,然后算出新的θ,直到θ的值变化到使J(θ)在两次迭代间的差值足够小,也就是两次迭代计算出的J(θ)的值基本不再变化,说明此时J(θ)已达到局部最小值;然后算出每个θ值,代入逻辑回归方程hθ(x)中,最终得到预测函数;
其中J(θ)对θ的偏导数为:
正则化后θj的迭代式为:
4-3-3)将第一组测试集数据输入到由第一组训练集数据训练后的logistic回归算法的预测函数hθ(x)中,并根据所得概率值大小对测试集数据进行分类;
4-3-4)根据分类结果,求出第一组数据对应logistic回归模型算法的第Ⅰ类分类错误率ω21
4-3-5)复上述4-3-1)-4-3-4)步两次,求出其余两组数据对应logistic回归模型算法的第Ⅰ类分类错误率ω22、ω23,最后求平均值ω2=(ω212223)/3作为logistic回归模型算法的第Ⅰ类分类错误率。
进一步地,所述步骤S4-4基于Lagrange构建KNN邻近—logistic回归组合模型的具体过程如下:
4-4-1)预测函数的确定:
用pi表示第i个样本的组合模型的预测值,有:
pi=α1ki2li
其中ki、li分别代表KNN、logistic回归模型对第i个样本的预测概率值,α1、α2分别代表KNN、logistic回归模型的权重值,且α12=1;
4-4-2)构造Lagrange损失函数:
其中ω1、ω2为上述(2)(3)步中所求得的子模型第Ⅰ类分类错误率,式中将其视为子模型的惩罚参数,λ为Lagrange算子;
4-4-3)求α1,α2的最优值:
由于L(α1,α2,λ)为凸函数,存在极小值,而极小值点便是α1,α2的最优值;
利用python对上式求解可得α1,α2的最优值。
与现有技术相比,本方案原理及优点如下:
本方案通过对制造企业中设计、制造、产品、用户等主体的大数据进行采集、清洗、特征处理后,借以KNN邻近—logistic回归组合模型算法,构建出准确有效的面向制造企业全***优化设计的设计资源大数据模型,从而对制造企业中的相关业务进行预判,同时对涉及设计、制造、产品、用户等主体的数据进行优化,解决了现有的设计资源数据模型只考虑单一设计部门数据,未将全部设计部门数据进行整合汇总的问题,以及单一的数据模型可能存在无法准确预测分类结果的问题。
另外,本方案配合全流程制造过程、全贯通管理流程、全周期产品服务的业务模型一起实现制造大数据全体系全价值链建模,能进一步解决传统关系数据库模型无法对制造企业大数据进行合理有效建模的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的服务作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种面向制造企业全***优化设计的设计资源大数据建模方法的原理流程图;
图2为本发明一种面向制造企业全***优化设计的设计资源大数据建模方法中数据清洗的流程图。
具体实施方式
下面结合具体实施例对本发明作进一步说明:
如图1所示,本实施例所述的一种面向制造企业全***优化设计的设计资源大数据建模方法,包括以下步骤:
S1、数据采集:
S1-1、识别与制造企业设计资源主体有关的数据源及其存储位置;
S1-2、针对关系型数据库,采用Sqoop技术配置关系型数据库与HDFS之间的数据连接,将关系型数据库中的数据导入Hadoop的HDFS中;
S1-3、针对文件格式的数据,采用MapReduce编程方法解析数据文件并将其上传到HDFS中;
S1-4、基于关系型模型在Hive中集成前面获取到的所有主体数据;
S1-5、建立结构化主体数据集。
通过上述步骤可以将采集到的多源异构的设计资源大数据转化为统一格式的结构化数据集。
如图2所示,对采集后的数据进行清洗处理,去除不符合要求的数据;具体步骤包括:
S2-1、数据预处理:查看元数据,包括字段解释、数据来源、代码表等等一切描述数据的信息,使得对数据本身有一个直观的了解,并且初步发现一些问题,为之后的处理作准备;
S2-2、去除或补全有缺失的数据:对每个数据字段确定缺失的范围,缺失关键的数据字段的数据直接进行舍弃,非关键的数据进行填充完善,方法有以业务知识或经验推测填充缺失值、以同一指标的计算结果(均值、中位数、众数等)填充缺失值、以不同指标的计算结果填充缺失值;
S2-3、去除内容有错误的数据,保证数据的正确性;
S2-4、去除逻辑错误的数据:根据业务规则将逻辑错误的数据进行舍弃,保证数据逻辑正确;
S2-5、去掉不需要的数据:除去与业务规则无关的数据,保证数据的相关性;
S2-6、进行数据关联性验证:对于有多个来源的数据,有必要进行关联性验证,如果不关联,需要将这个数据进行清洗。
S3、对符合要求的数据进行特征处理:
S3-1、类不平衡问题处理:当数据存在严重的类不平衡问题,预测的结果往往会偏向数量占多的类,对模型的准确度造成影响。常见的处理类不平衡问题的方法有随机欠采样法,通过随机地去掉一些多数类样本来减小多数类的规模,但这样可能会丢失重要数据,且采样后的数据不能代表全部数据,导致分类结果不精确。还有随机过采样法,通过随机复制少数类样本来提高少数类的规模,虽然该方法不会造成信息缺失,表现也优于欠采样法,但是会加大过拟合的可能性。
本实施例在不丢失重要数据且缓解过拟合的情况下,选择采用信息过采样SMOTE方法来解决类不平衡问题。其具体分析计算流程如下:
3-1-1)对于少数类中的每一个样本x,利用公式:
求得样本x到其他少数类样本y的欧氏距离d;
3-1-2)将多数类样本数记为m,将少数类样本数记为n,令:
取每一个样本x中欧氏距离d最小的k个其他样本,作为样本x的近邻xk
3-1-3)对于每个近邻xk,利用随机线性插值的方法,在x和xk中产生新样例xn
xn=x+ε|xk-x|
其中,ε为0-1间的随机值;
3-1-4)重复步骤3-1-3),直到少数类样本数和多数类样本数相等或差值不大时为止。
S3-2、通过方差选择法来进行特征选择,先计算各个特征的方差值,优先消除方差值为0的特征,然后根据阈值,选择方差值大于阈值的特征。
S3-3、当完成特征选择后,可能会由于特征矩阵过大,导致计算量大、模型的训练时间长的问题,通过主成分分析法(PCA)对特征选择后的特征矩阵维度进行降维处理。其分析计算流程如下:
3-3-1)对特征进行归一化处理;
利用线性函数转换:
y=(x-MinValue)/(MaxValue-MinValue)
其中,x、y分别为转换前、后的值,MaxValue、MinValue分别为样本的最大值和最小值;
3-3-2)先计算每一列特征的平均值,然后每一维度都需要减去该列的特征平均值;
3-3-3)计算样本特征的协方差矩阵;
3-3-4)计算协方差矩阵的特征值和特征向量;
3-3-5)对计算得到的特征值进行从大到小的排序;
3-3-6)取出前K个特征向量和特征值,将初始的样本矩阵乘上K个特征向量形成的特征向量矩阵,即得到了降维后的特征矩阵;
K值的计算参考以下公式:
找到满足上式的最小的K值,其中λ为协方差矩阵的特征值。
S4、为了避免单个算法模型可能存在的无法准确预测分类结果的情况,本实施例选择采用KNN邻近—logistic回归组合模型算法对待分类的样本进行分类预测,以此来判断制造企业中某新产品的设计能否在规定周期内完成,并根据预测的结果,对涉及设计、制造、产品、用户等主体的数据进行优化。
其具体步骤如下:
S4-1、确定训练集与测试集数据
为了确定KNN邻近算法与logistic回归算法以及KNN邻近—logistic回归组合模型算法的分类结果是否准确,选择交叉验证的方法,把经特征处理后的数据分成三等份,分别为A、B、C;然后再将A、B、C按交叉的方式分成三组,第一组为“训练集:A、B;测试集C”,第二组为“训练集:B、C;测试集A”,第三组为“训练集:A、C;测试集B”;
S4-2、利用第一组训练集数据训练完KNN模型后,再用同组测试集数据测试KNN模型,之后用第二、三组数据重复上述操作,求出KNN模型三次的平均第Ⅰ类分类错误率ω1;其具体步骤如下:
4-2-1)根据欧氏距离公式:
来计算第一组测试集数据x与第一组训练集数据y之间的欧式距离d;
4-2-2)根据所算得的欧氏距离d进行大小排序,并选择最小的k个点,k的取值需小于训练集样本数的平方根,且为奇数;
4-2-3)确定k个点在“设计能在规定周期内完成”和“设计不能在规定周期内完成”两个类别中出现的频率,并将频率最高的类别作为待分类数据的预测分类;
4-2-4)根据分类结果,求出第一组数据对应KNN模型算法的第Ⅰ类分类错误率ω11
4-2-5)重复上述4-2-1)-4-2-4)步两次,求出其余两组数据对应KNN模型算法的第Ⅰ类分类错误率ω12、ω13,最后求平均值ω1=(ω111213)/3作为KNN模型算法的第Ⅰ类分类错误率;
S4-3、利用第一组训练集数据训练完logistic回归模型后,再用同组测试集数据测试logistic回归模型,接着用第二、三组数据重复上述操作,求出logistic回归模型三次的平均第Ⅰ类分类错误率ω2,其步骤如下:
4-3-1)确定预测函数:
基于Sigmoid函数:
将权值向量设为θ=(θ012,...,θn),
将第一组训练集数据作为输入向量x=(1,x1,x2,...,xn);设z(x)=θTx,得逻辑回归算法的预测函数:
将是否在规定周期内完成产品设计记为y,按时完成时y记为1,未按时完成时y记为0;
其hθ(x)表示在输入值为x,权值参数为θ的情况下,y=1的概率;
4-3-2)确定权值向量θ:
对于给定的数据集,可以采用极大似然估计法估计权值向量θ:
似然函数:
其对数似然函数:
此时引入
进而转化为梯度下降任务求其极小值,后半部分为加入的正则化项,目的是解决模型的过拟合问题;
上式中,ξ为惩罚项力度值,选择一组不同值的惩罚项力度ξ,如[0.01,0.1,1,10,100],对每个值进行循环,获取每个值在交叉验证5次后的5个recall(召回率),这样就能获得每个惩罚力度所对应的recall,然后选择值最高的recall所对应的ξ作为为惩罚项力度值;
针对θ值的求解,先求出每个J(θ)对θ的偏导数,然后给定某个θ值,让其不断减去偏导数乘以步长,然后算出新的θ,直到θ的值变化到使J(θ)在两次迭代间的差值足够小,也就是两次迭代计算出的J(θ)的值基本不再变化,说明此时J(θ)已达到局部最小值。然后算出每个θ值,代入逻辑回归方程hθ(x)中,最终得到预测函数。
其中J(θ)对θ的偏导数为:
正则化后θj的迭代式为:
4-3-3)将第一组测试集数据输入到由第一组训练集数据训练后的logistic回归算法的预测函数hθ(x)中,并根据所得概率值大小对测试集数据进行分类;
4-3-4)根据分类结果,求出第一组数据对应logistic回归模型算法的第Ⅰ类分类错误率ω21
4-3-5)复上述4-3-1)-4-3-4)步两次,求出其余两组数据对应logistic回归模型算法的第Ⅰ类分类错误率ω22、ω23,最后求平均值ω2=(ω212223)/3作为logistic回归模型算法的第Ⅰ类分类错误率;
S4-4、构建KNN邻近—logistic回归组合模型:
4-4-1)预测函数的确定:
用pi表示第i个样本的组合模型的预测值,有:
pi=α1ki2li
其中ki、li分别代表KNN、logistic回归模型对第i个样本的预测概率值,α1、α2分别代表KNN、logistic回归模型的权重值,且α12=1;
4-4-2)构造Lagrange损失函数:
其中ω1、ω2为上述(2)(3)步中所求得的子模型第Ⅰ类分类错误率,式中将其视为子模型的惩罚参数,λ为Lagrange算子;
4-4-3)求α1,α2的最优值:
由于L(α1,α2,λ)为凸函数,存在极小值,而极小值点便是α1,α2的最优值;
利用python对上式求解可得α1,α2的最优值。
S4-5、业务预测:
将待分类样本的数据分别输入KNN模型和logistic回归模型中,得到各自的预测概率值k和l,再利用公式p=α1k+α2l求得组合模型的预测值,根据该值大小判断新产品的设计能否在规定的周期内完成;
S4-6、设计资源优化,根据预判的结果,对涉及设计、制造、产品、用户等主体的数据进行优化,其步骤如下:
4-6-1)当预判结果为新产品的设计能在规定的周期内完成时,可对logistic回归算法中权值θ较小的主体数据进行适当降级,例如当“设计人员资历”的权值θ较小时,可将参与设计的人员由高级工程师换为初、中级工程师,以此来节省人力成本。
4-6-2)当预判结果为新产品的设计不能在规定的周期内完成时,可对logistic回归算法中权值θ较大的主体数据进行适当升级,比如“加工设备质量”权值θ较大时,可选用质量更好的加工设备对产品进行加工。
以上所述之实施例子只为本发明之较佳实施例,并非以此限制本发明的实施范围,故凡依本发明之形状、原理所作的变化,均应涵盖在本发明的保护范围内。

Claims (6)

1.一种面向制造企业全***优化设计的设计资源大数据建模方法,其特征在于,包括以下步骤:
S1、采集多源异构的设计资源大数据,将其转化为统一格式的结构化数据源;
S2、对采集后的数据进行清洗处理,去除不符合要求的数据;
S3、对符合要求的数据进行特征处理;
S4、采用KNN邻近—logistic回归组合模型算法对待分类的样本进行分类预测,以此来判断制造企业中某新产品的设计能否在规定周期内完成,并根据预测的结果,对涉及设计、制造、产品、用户在内的主体的数据进行优化;
所述步骤S4具体为:
S4-1、将经特征处理后的数据划分为训练集与测试集数据,用于训练和测试模型;
S4-2、利用训练集数据训练完KNN模型后,再用测试集数据测试KNN模型,并求出其第Ⅰ类分类错误率ω1
S4-3、利用训练集数据训练完logistic回归模型后,再用测试集数据测试logistic回归模型,并求出其第Ⅰ类分类错误率ω2
S4-4、基于Lagrange构建KNN邻近—logistic回归组合模型;
S4-5、利用KNN邻近—logistic回归组合模型对制造企业中某新产品的设计能否在规定周期内完成进行预测;
S4-6、根据预测的结果,对涉及设计、制造、产品、用户在内的主体的数据进行优化;
所述步骤S4-1为了确定KNN邻近算法与logistic回归算法以及KNN邻近—logistic回归组合模型算法的分类结果是否准确,选择交叉验证的方法,把经特征处理后的数据分成三等份,分别为A、B、C;然后再将A、B、C按交叉的方式分成三组,第一组为“训练集:A、B;测试集C”,第二组为“训练集:B、C;测试集A”,第三组为“训练集:A、C;测试集B”;
所述步骤S4-2利用第一组训练集数据训练完KNN模型后,再用同组测试集数据测试KNN模型,之后用第二、三组数据重复上述操作,求出KNN模型三次的平均第Ⅰ类分类错误率ω1;其具体步骤如下:
4-2-1)根据欧氏距离公式:
来计算第一组测试集数据x与第一组训练集数据y之间的欧式距离d;
4-2-2)根据所算得的欧氏距离d进行大小排序,并选择最小的k个点,k的取值需小于训练集样本数的平方根,且为奇数;
4-2-3)确定k个点在“设计能在规定周期内完成”和“设计不能在规定周期内完成”两个类别中出现的频率,并将频率最高的类别作为待分类数据的预测分类;
4-2-4)根据分类结果,求出第一组数据对应KNN模型算法的第Ⅰ类分类错误率ω11
4-2-5)重复上述4-2-1)-4-2-4)步两次,求出其余两组数据对应KNN模型算法的第Ⅰ类分类错误率ω12、ω13,最后求平均值ω1=(ω111213)/3作为KNN模型算法的第Ⅰ类分类错误率;
而步骤S4-3利用第一组训练集数据训练完logistic回归模型后,再用同组测试集数据测试logistic回归模型,接着用第二、三组数据重复上述操作,求出logistic回归模型三次的平均第Ⅰ类分类错误率ω2,其步骤如下:
4-3-1)确定预测函数:
基于Sigmoid函数:
将权值向量设为θ=(θ012,...,θn),
将第一组训练集数据作为输入向量x=(1,x1,x2,...,xn);设z(x)=θTx,得逻辑回归算法的预测函数:
将是否在规定周期内完成产品设计记为y,按时完成时y记为1,未按时完成时y记为0;
其hθ(x)表示在输入值为x,权值参数为θ的情况下,y=1的概率;
4-3-2)确定权值向量θ:
对于给定的数据集,采用极大似然估计法估计权值向量θ:
似然函数:
其对数似然函数:
此时引入
进而转化为梯度下降任务求其极小值,后半部分为加入的正则化项,目的是解决模型的过拟合问题;
上式中,ξ为惩罚项力度值,选择一组不同值的惩罚项力度ξ[0.01,0.1,1,10,100],对每个值进行循环,获取每个值在交叉验证5次后的5个召回率recall,从而获得每个惩罚力度所对应的召回率recall,然后选择值最高的召回率recall所对应的ξ作为为惩罚项力度值;
针对θ值的求解,先求出每个J(θ)对θ的偏导数,然后给定某个θ值,让其不断减去偏导数乘以步长,然后算出新的θ,直到θ的值变化到使J(θ)在两次迭代间的差值足够小,也就是两次迭代计算出的J(θ)的值基本不再变化,说明此时J(θ)已达到局部最小值;然后算出每个θ值,代入逻辑回归方程中,最终得到预测函数;
其中J(θ)对θ的偏导数为:
正则化后θj的迭代式为:
4-3-3)将第一组测试集数据输入到由第一组训练集数据训练后的logistic回归算法的预测函数hθ(x)中,并根据所得概率值大小对测试集数据进行分类;
4-3-4)根据分类结果,求出第一组数据对应logistic回归模型算法的第Ⅰ类分类错误率ω21
4-3-5)复上述4-3-1)-4-3-4)步两次,求出其余两组数据对应logistic回归模型算法的第Ⅰ类分类错误率ω22、ω23,最后求平均值ω2=(ω212223)/3作为logistic回归模型算法的第Ⅰ类分类错误率;
所述步骤S4-4基于Lagrange构建KNN邻近—logistic回归组合模型的具体过程如下:
4-4-1)预测函数的确定:
用pi表示第i个样本的组合模型的预测值,有:
pi=α1ki2li
其中ki、li分别代表KNN、logistic回归模型对第i个样本的预测概率值,α1、α2分别代表KNN、logistic回归模型的权重值,且α12=1;
4-4-2)构造Lagrange损失函数:
其中ω1、ω2分别为步骤S4-2、步骤S4-3中所求得的子模型第Ⅰ类分类错误率,式中将其视为子模型的惩罚参数,λ为Lagrange算子;
4-4-3)求α1,α2的最优值:
由于L(α1,α2,λ)为凸函数,存在极小值,而极小值点便是α1,α2的最优值;
利用python对上式求解可得α1,α2的最优值。
2.根据权利要求1所述的一种面向制造企业全***优化设计的设计资源大数据建模方法,其特征在于,所述步骤S1采集多源异构的设计资源大数据,转化统一格式的结构化数据源的具体步骤如下:
S1-1、识别与制造企业设计资源主体有关的数据源及其存储位置;
S1-2、针对关系型数据库,采用Sqoop技术配置关系型数据库与HDFS之间的数据连接,将关系型数据库中的数据导入Hadoop的HDFS中;
S1-3、针对文件格式的数据,采用MapReduce编程方法解析数据文件并将其上传到HDFS中;
S1-4、基于关系型模型在Hive中集成前面获取到的所有主体数据;
S1-5、建立结构化主体数据集。
3.根据权利要求1所述的一种面向制造企业全***优化设计的设计资源大数据建模方法,其特征在于,所述数据清洗包括步骤:
S2-1、数据预处理;
S2-2、去除或补全有缺失的数据;
S2-3、去除内容有错误的数据;
S2-4、去除逻辑错误的数据;
S2-5、去掉不需要的数据;
S2-6、进行数据关联性验证。
4.根据权利要求1所述的一种面向制造企业全***优化设计的设计资源大数据建模方法,其特征在于,所述特征处理包括步骤:
S3-1、通过采用信息过采样SMOTE方法来解决正负样本不均衡问题,并且避免后续KNN算法和logistic回归算法存在的因样本不均衡而造成的预测准确率低的问题;
S3-2、通过方差选择法来进行特征选择;
S3-3、通过主成分分析法对特征选择后的特征矩阵维度进行降维处理。
5.根据权利要求4所述的一种面向制造企业全***优化设计的设计资源大数据建模方法,其特征在于,所述步骤S3-1的具体过程如下:
3-1-1)对于少数类中的每一个样本x,利用公式:
求得样本x到其他少数类样本y的欧氏距离d;
3-1-2)将多数类样本数记为m,将少数类样本数记为n,令:
取每一个样本x中欧氏距离d最小的k个其他样本,作为样本x的近邻xk
3-1-3)对于每个近邻xk,利用随机线性插值的方法,在x和xk中产生新样例xn
xn=x+ε|xk-x|
其中,ε为0-1间的随机值;
3-1-4)重复步骤3-1-3),直到少数类样本数和多数类样本数相等或差值不大时为止。
6.根据权利要求4所述的一种面向制造企业全***优化设计的设计资源大数据建模方法,其特征在于,所述步骤S3-3的具体过程如下:
3-3-1)对特征进行归一化处理;
利用线性函数转换:
y=(x-MinValue)/(MaxValue-MinValue)
其中,x、y分别为转换前、后的值,MaxValue、MinValue分别为样本的最大值和最小值;
3-3-2)先计算每一列特征的平均值,然后每一维度都需要减去该列的特征平均值;
3-3-3)计算样本特征的协方差矩阵;
3-3-4)计算协方差矩阵的特征值和特征向量;
3-3-5)对计算得到的特征值进行从大到小的排序;
3-3-6)取出前K个特征向量和特征值,将初始的样本矩阵乘上K个特征向量形成的特征向量矩阵,即得到了降维后的特征矩阵;
K值的计算参考以下公式:
找到满足上式的最小的K值,其中λ为协方差矩阵的特征值。
CN202011049729.XA 2020-09-29 2020-09-29 一种面向制造企业全***优化设计的设计资源大数据建模方法 Active CN112270614B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011049729.XA CN112270614B (zh) 2020-09-29 2020-09-29 一种面向制造企业全***优化设计的设计资源大数据建模方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011049729.XA CN112270614B (zh) 2020-09-29 2020-09-29 一种面向制造企业全***优化设计的设计资源大数据建模方法

Publications (2)

Publication Number Publication Date
CN112270614A CN112270614A (zh) 2021-01-26
CN112270614B true CN112270614B (zh) 2024-05-10

Family

ID=74349345

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011049729.XA Active CN112270614B (zh) 2020-09-29 2020-09-29 一种面向制造企业全***优化设计的设计资源大数据建模方法

Country Status (1)

Country Link
CN (1) CN112270614B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115344830A (zh) * 2022-08-02 2022-11-15 无锡致为数字科技有限公司 一种基于大数据的事件概率估计方法
CN116106701A (zh) * 2023-02-06 2023-05-12 宁夏隆基宁光仪表股份有限公司 一种基于knn算法的光伏直流故障电弧检测方法及***

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106779079A (zh) * 2016-11-23 2017-05-31 北京师范大学 一种基于多模型数据驱动的知识点掌握状态的预测***及方法
KR20170060603A (ko) * 2015-11-24 2017-06-01 윤정호 특허 라이센스 대상기업 예측 방법 및 시스템
CN107203492A (zh) * 2017-05-31 2017-09-26 西北工业大学 产品设计云服务平台模块化任务重组与分配优化方法
KR20180096834A (ko) * 2017-02-09 2018-08-30 충북대학교 산학협력단 Svr을 이용한 제조 공정의 최적 작업 조건을 예측하기 위한 작업 조건 예측 방법 및 시스템
EP3474196A1 (en) * 2017-10-23 2019-04-24 OneSpin Solutions GmbH Method of selecting a prover
CN110147400A (zh) * 2019-05-10 2019-08-20 青岛建邦供应链股份有限公司 基于大数据的跨行业数据资源整合***
CN111507507A (zh) * 2020-03-24 2020-08-07 重庆森鑫炬科技有限公司 基于大数据的月用水量预测方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180173847A1 (en) * 2016-12-16 2018-06-21 Jang-Jih Lu Establishing a machine learning model for cancer anticipation and a method of detecting cancer by using multiple tumor markers in the machine learning model for cancer anticipation
US20190216368A1 (en) * 2018-01-13 2019-07-18 Chang Gung Memorial Hospital, Linkou Method of predicting daily activities performance of a person with disabilities

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170060603A (ko) * 2015-11-24 2017-06-01 윤정호 특허 라이센스 대상기업 예측 방법 및 시스템
CN106779079A (zh) * 2016-11-23 2017-05-31 北京师范大学 一种基于多模型数据驱动的知识点掌握状态的预测***及方法
KR20180096834A (ko) * 2017-02-09 2018-08-30 충북대학교 산학협력단 Svr을 이용한 제조 공정의 최적 작업 조건을 예측하기 위한 작업 조건 예측 방법 및 시스템
CN107203492A (zh) * 2017-05-31 2017-09-26 西北工业大学 产品设计云服务平台模块化任务重组与分配优化方法
EP3474196A1 (en) * 2017-10-23 2019-04-24 OneSpin Solutions GmbH Method of selecting a prover
CN110147400A (zh) * 2019-05-10 2019-08-20 青岛建邦供应链股份有限公司 基于大数据的跨行业数据资源整合***
CN111507507A (zh) * 2020-03-24 2020-08-07 重庆森鑫炬科技有限公司 基于大数据的月用水量预测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
K近邻和Logistic回归分类算法比较研究;万会芳;杜彦璞;;洛阳理工学院学报(自然科学版);20160925(03);第83-86、93页 *
一种基于SMOTE的不均衡样本KNN分类方法;林泳昌;朱晓姝;;广西科学;20200708(03);第276-283页 *
基于回归时序模型的售后服务资源计划***设计;窦文章;吕修磊;;统计与决策;20090710(13);第23-25页 *

Also Published As

Publication number Publication date
CN112270614A (zh) 2021-01-26

Similar Documents

Publication Publication Date Title
Fu et al. Spark–a big data processing platform for machine learning
CN110990461A (zh) 大数据分析模型算法选型方法、装置、电子设备及介质
CN112270614B (zh) 一种面向制造企业全***优化设计的设计资源大数据建模方法
US20170330078A1 (en) Method and system for automated model building
Ishioka An expansion of X-means for automatically determining the optimal number of clusters
Fioravanti et al. A study on fault-proneness detection of object-oriented systems
CN111367801B (zh) 一种面向跨公司软件缺陷预测的数据变换方法
CN110297715B (zh) 一种基于周期性特征分析的在线负载资源预测方法
Cao et al. Graph-based workflow recommendation: on improving business process modeling
US10467276B2 (en) Systems and methods for merging electronic data collections
CN114564410A (zh) 基于类级别源代码相似度的软件缺陷预测方法
Chu et al. Recognition of unknown wafer defect via optimal bin embedding technique
CN113779785A (zh) 一种数字孪生复杂装备解构模型及其解构方法
Marcus et al. Flexible operator embeddings via deep learning
CN117608880A (zh) 基于GraphSAGE的微服务划分方法
CN103136440A (zh) 数据处理方法和装置
CN105183804B (zh) 一种基于本体的聚类服务方法
CN111860660A (zh) 基于改进高斯网络的小样本学习垃圾分类方法
CN109739840A (zh) 数据空值处理方法、装置及终端设备
CN114710344A (zh) 一种基于溯源图的入侵检测方法
Paganelli et al. Evaluating the integration of datasets
KR102432126B1 (ko) 데이터 이활용에 관한 데이터 준비 방법 및 데이터 이활용 시스템
CN112732549A (zh) 基于聚类分析的测试程序分类方法
Banu et al. Study of software reusability in software components
CN110263811A (zh) 一种基于数据融合的设备运行状态监测方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant