CN111178391B - 一种使用增量奇异值分解法进行产品行业平行数据集构建的方法 - Google Patents

一种使用增量奇异值分解法进行产品行业平行数据集构建的方法 Download PDF

Info

Publication number
CN111178391B
CN111178391B CN201911257666.4A CN201911257666A CN111178391B CN 111178391 B CN111178391 B CN 111178391B CN 201911257666 A CN201911257666 A CN 201911257666A CN 111178391 B CN111178391 B CN 111178391B
Authority
CN
China
Prior art keywords
data
matrix
singular value
value decomposition
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911257666.4A
Other languages
English (en)
Other versions
CN111178391A (zh
Inventor
夏飞鹏
祁学豪
陈刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Network Communication and Security Zijinshan Laboratory
Original Assignee
Network Communication and Security Zijinshan Laboratory
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Network Communication and Security Zijinshan Laboratory filed Critical Network Communication and Security Zijinshan Laboratory
Priority to CN201911257666.4A priority Critical patent/CN111178391B/zh
Publication of CN111178391A publication Critical patent/CN111178391A/zh
Application granted granted Critical
Publication of CN111178391B publication Critical patent/CN111178391B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Mathematical Analysis (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Optimization (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种使用增量奇异值分解法进行产品行业平行数据集构建的方法,所述数据集构建的方法基于某一产品生产过程的影响因素数据与其产量和质量数据;从历史的数据样本中得到与目标数据类似的平行样本数据,再利用平行样本数据做工艺设计和数据分析。该方法利用增量奇异值分解法,可以对在库的海量数据进行数据降维和主成分分析,这种分析可以过滤掉在数据采集时由于随机因素引起的数据扰动,并且通过左奇异矩阵U和右奇异矩阵来控制导入数据的维度和样本数。同时,算法基于的是分批次的更新方式,整个计算的复杂度较低。

Description

一种使用增量奇异值分解法进行产品行业平行数据集构建的 方法
技术领域
本发明涉及产品信息分析处理技术领域,尤其是一种使用增量奇异值分解法进行产品行业平行数据集构建的方法。
背景技术
许多产业产品的生产过程长,影响因素多,比一般的工业生产复杂很多,如在农业种植和农产品生产过程中,普遍存在着数据采集困难,包括:
(1)采集的数据维度较少;
(2)采集的样本批次较少;
(3)整个采集过程时间跨度较长;
(4)场景数据难以复现。
这些数据上的不足,严重影响了农产品产业的数据挖掘和机器学***行对比数据分析是溯源问题原因、进行机器学习算法不可或缺的基础资料。没有高质量的数据,会极大的影响数据分析的准确性和方向性。
普通工业过程的数据对比实验,只需要保持大多数控制变量不变,改变需要尝试的变量,分析被尝试变量的边际改变对整个分析结果的影响。如此迭代,通过不断改变测试变量,最后做到工艺的逐步提升,整个迭代的过程迅速而且高效。但是,在农产品工业过程中,这样的迭代却是很难实现或者代价太高,因为农业生产的长周期和要素受自然条件决定的特点,做工艺迭代的周期很长,而且不能保证不变要素的数据对齐。
正是由于上述的困难,提出了一种在历史的数据样本中抽取和目标数据类似的平行样本的技术方案,利用平行样本做工艺设计和分析,这就大大减少了迭代运算的周期,对于迅速找到收敛的工艺参数,具有非常大的帮助。
在历史样本中捞取平行样本时,存在着以下几个难题:
(1)原始数据的维度较高,在寻找平行样本时,存在着维度过高引起的数据过于稀疏,基础样本的周边样本数量过少。
(2)为了解决问题样本稀疏问题,必须进行数据降维,在数据降维的过程中,由于不
断有新增的样本进入,如果每次都全量进行数据降维,计算量将会非常大,所以必须设计增量的数据降维方法。
(3)平行数据中存在着批次不断增多,维度不断增大的问题,相应的算法也必须能够动态适配。
发明内容
为了解决上述技术问题,本发明旨在提供一种使用增量奇异值分解法进行产品行业平行数据集构建的方法,为农业生产提供准确有效的数据作为分析基础,并为其发展方向提供参考依据。
为解决上述技术问题,本发明提供一种使用增量奇异值分解法进行产品行业平行数据集构建的方法,所述数据集构建的方法基于某一产品生产过程的影响因素数据与其产量和质量数据;从历史的数据样本中得到与目标数据类似的平行样本数据,再利用平行样本数据做工艺设计和数据分析;
所述数据集构建的方法包括以下步骤:
步骤一,数据宽表化,将采集到的数据进行整合,形成包含最终结果好坏程度的标识位、影响该标识的多个指标组成的向量数据,以及可以索引该向量数据的全局唯一ID;这些数据的整体记为宽表集Ω,共有h条;
步骤二,按照产品希望得到的结果,确定标识位的范围;在数据宽表集Ω中,根据标识位的范围,将标识位在范围阈值内的数据的全部列选取出来,形成符合实验结果的数据集B,B为m条;
步骤三,需要对比分析的变量为X1,对应的对比值为s,在整体数据宽表集Ω中除B数据集以外的部分,挑选数据集B的对比分析参考数据集D,数据集D中数据的X1变量的值在s附近,数据集D包括p条;使用增量奇异值分解法,在参考数据集D中挑选除变量X1以外的变量和数据集B中对应的变量值接近的部分,形成平行数据集C,数据集C为q条。
进一步的,所述步骤一具体为:
步骤1.1,采集不同渠道获得的数据,存储到同一的数据库中,存储的格式按照JSON格式的的键值对方式{″a″:1,″b″:[1,2,3],″c″:{″d″:2}};
步骤1.2,将实验结果和该实验结果所关联的所有中间控制和依赖数据都放在一条横式的数据中,形成的向量数据包含最终结果好坏程度的标识位y、影响该标识的多个指标xi,以及该条数据的一个全局唯一ID字段u;该宽表数据可以记为z=(u,x1,x2,...,xn,y),宽表数据逐行排列,组成的集合为
Figure SMS_1
显然Ω为1个矩阵;
步骤1.3,对宽表数据做中心化和正则化。
进一步的,所述步骤二具体为:
步骤2.1,假设对比变量为第1个,即为X1,设αj=(xj2,xj3,...,xjn),αj可以理解为
除了被调节的自变量以外的自变量,设zj=(xj1,αj,yj),zj就代表第j条宽表数据,则全部数据集合
Figure SMS_2
步骤2.2,设定B={zj|yj∈{符合实验结果的}},集合B为整体数据集Ω内能够产生符合实验结果的所有数据;约定A={αj|zj=(xj1,αj,yj)∈B},集合A为所有符合实验结果的、被调节自变量以外的自变量组成的集合。
进一步的,所述步骤三具体为:
步骤3.1,对集合矩阵A做奇异值分解A=U∑VT
其中U∈Rm×r,∑∈Rr×r,VT∈Rr×n,UTU=VTV=E∈Rr×r,r为矩阵A的秩,U代表AAT的列向量组成的方阵对应的特征向量组成的特征空间,V代表ATA的行向量组成的方阵对应的特征向量组成的特征空间;
整个变化的原理是,把矩阵A看作由旋转VT,修改维度拉伸∑,再旋转U三个步骤组成。奇异值分解后,基础矩阵就被分为3个组成部分,对于整个矩阵的变化就被拆解为3个组成部分的变化,从而降低了分析的难度,各部分的分解也有了明确的几何意义。
步骤3.2,设对比参考集合D={αj|(xj1,αj,yj)∈(Ω-B)且xj1∈(s-σ,s+σ)},集合D有p条,为整体集合中结果不符合实验结果,且对比值在s附近的数据组成的集合;在集合D中通过使用增量奇异值分解法,选取出其余自变量和集合B中对应自变量接近的数据集合C;
在集合D中逐条取出向量α,将α依次增加到原始数据矩阵中,从而保证了线性的计算复杂度,对于内存的要求也降低了,令
Figure SMS_3
步骤3.3,对A′做增量奇异值分解
Figure SMS_4
矩阵中L,K,J都是需要计算的值:
Figure SMS_5
上式表示新增的向量α在行向量组成的方阵对应的特征空间基(v1,v2,...,vn)上的坐标;
Figure SMS_6
上式表示新增的向量α在行向量组成的方阵对应的特征空间超平面上的投影向量;
H=α-LVT=α-αVVT=α(I-VVT)
上式表示新增的向量α垂直于特征空间超平面部分的向量;
对H做QR分解,得到:
K=||α(I-VVT)||,J=α(I-VVT)/K,H=KJ。
Figure SMS_7
显然
Figure SMS_8
所以
Figure SMS_9
是正交矩阵
步骤3.4,令
Figure SMS_10
对Q做对角化,
得到Q=U″Σ′V″T,再令U″′=U′U″V″′T=(V′V″)T,得到A′=U″′Σ′V″′T,此时,A′的维度是(m+1)×n,而Q的维度=rank(A′)<<min(m+1,n),由于只要对内部的矩阵Q做对角化,而Q的维度比原始的矩阵A的维度低了很多,所以计算非常迅速;
步骤3.5,如此循环,直到D集合中的αj全部取出计算完毕为止;
步骤3.6,设最终的矩阵为
Figure SMS_13
对于/>
Figure SMS_15
的对角矩阵,设它的秩/>
Figure SMS_16
取前N个最大的对角值,显然N<<R,其余对角值设为0,得到对角矩阵/>
Figure SMS_12
则/>
Figure SMS_14
Figure SMS_17
Figure SMS_18
的前N列组成,计算/>
Figure SMS_11
则F为p×N矩阵,所组成的向量全部为N维的,即将原来为n个属性数据集降维为N维;
步骤3.7,在矩阵F的p条数据中,有m条是和集合B对应的符合实验结果的数据,在剩余的集合D的(p-m)条数据中,需要分辨是否属于平行数据集C;计算的方法如下:
计算和集合B对应的m条数据的重心
Figure SMS_19
计算剩余的集合D对应的(p-m)条数据的重心
Figure SMS_20
对于任意一条数据d∈D,计算距离比
Figure SMS_21
设定阈值为1,定义集合
Figure SMS_22
作为一种优选,所述数据集构建的方法还包括步骤四,统计所述数据集合C中标识位的指标,估计平行试验结果的概率分布。
本发明与现有技术相比较,本发明的实施效果如下:
1.建立宽表数据集,将所有相关实验的过程参数,都整合到一张矩阵表中,这样就对纷繁复杂的数据结构按照结果做了整理,方便利用数据挖掘算法进行计算。
2.将初始数据做奇异值分解,然后逐批次的进行增量奇异值分解,这样避免了进行大规模矩阵旋转和拉伸的计算,有效的控制了计算量。
3.利用对角矩阵上前N个较大特征值作为代表,可以实现数据的降维和噪音过滤,而且保证了矩阵的主要特征不发生变化。从整体来看,本方法可以在不做新的对比实验的前提下,就可以把类似的对比实验的数据寻找出来,而且对于缺失数据和新增保持一定的鲁棒性。
附图说明
图1为数据流向示意图;
图2为增量奇异值分解原理图;
图3为数据结构计算图。
具体实施方式
下面结合附图和具体实例对本发明做更进一步的解释:
本发明提供一种使用增量奇异值分解法进行产品行业平行数据集构建的方法,所述数据集构建的方法基于某一产品生产过程的影响因素数据与其产量和质量数据;从历史的数据样本中得到与目标数据类似的平行样本数据,再利用平行样本数据做工艺设计和数据分析。这就大大减少了迭代运算的周期,对于迅速找到收敛的工艺参数,具有非常大的帮助。
该数据集构建的方法包括以下步骤:
步骤一,数据宽表化,将采集到的数据进行整合,形成包含最终结果好坏程度的标识位、影响该标识的多个指标组成的向量数据,以及可以索引该向量数据的全局唯一ID;这些数据的整体记为宽表集Ω,共有h条;
步骤二,按照产品希望得到的结果,确定标识位的范围;在数据宽表集Ω中,根据标识位的范围,将标识位在范围阈值内的数据的全部列选取出来,形成符合实验结果的数据集B,B为m条;
步骤三,需要对比分析的变量为X1,对应的对比值为s,在整体数据宽表集Ω中除B数据集以外的部分,挑选数据集B的对比分析参考数据集D,数据集D中数据的X1变量的值在s附近,数据集D包括p条;使用增量奇异值分解法,在参考数据集D中挑选除变量X1以外的变量和数据集B中对应的变量值接近的部分,形成平行数据集C,数据集C为q条。
进一步的,所述步骤一具体为:
步骤1.1,采集不同渠道获得的数据,存储到同一的数据库中,存储的格式按照JSON格式的的键值对方式{″a″:1,″b″:[1,2,3],″c″:{″d″:2}};
步骤1.2,将实验结果和该实验结果所关联的所有中间控制和依赖数据都放在一条横式的数据中,形成的向量数据包含最终结果好坏程度的标识位y、影响该标识的多个指标xi,以及该条数据的一个全局唯一ID字段u;该宽表数据可以记为z=(u,x1x2,...,xn,y),宽表数据逐行排列,组成的集合为
Figure SMS_23
显然Ω为1个矩阵;
步骤1.3,对宽表数据做中心化和正则化。
进一步的,所述步骤二具体为:
步骤2.1,假设对比变量为第1个,即为X1,设αj=(xj2,xj3,...,xjn),αj可以理解为
除了被调节的自变量以外的自变量,设zj=(xj1,αj,yj),zj就代表第j条宽表数据,则全部数据集合
Figure SMS_24
步骤2.2,设定B={zj|yj∈{符合实验结果的}},集合B为整体数据集Ω内能够产生符合实验结果的所有数据;约定A={αj|zj=(xj1,αj,yj)∈B},集合A为所有符合实验结果的、被调节自变量以外的自变量组成的集合。
进一步的,所述步骤三具体为:
步骤3.1,对集合矩阵A做奇异值分解A=U∑VT
其中U∈Rm×r,∑∈Rr×r,VT∈Rr×n,UTU=VTV=E∈Rr×r,r为矩阵A的秩,U代表AAT的列向量组成的方阵对应的特征向量组成的特征空间,V代表ATA的行向量组成的方阵对应的特征向量组成的特征空间;
整个变化的原理是,把矩阵A看作由旋转VT,修改维度拉伸∑,再旋转U三个步骤组成。奇异值分解后,基础矩阵就被分为3个组成部分,对于整个矩阵的变化就被拆解为3个组成部分的变化,从而降低了分析的难度,各部分的分解也有了明确的几何意义。
步骤3.2,设对比参考集合D={αj|(xj1,αj,yj)∈(Ω-B)且xj1∈(s-σ,s+σ)},集合D有p条,为整体集合中结果不符合实验结果,且对比值在s附近的数据组成的集合;在集合D中通过使用增量奇异值分解法,选取出其余自变量和集合B中对应自变量接近的数据集合C;
在集合D中逐条取出向量α,将α依次增加到原始数据矩阵中,从而保证了线性的计算复杂度,对于内存的要求也降低了,令
Figure SMS_25
步骤3.3,对A′做增量奇异值分解
Figure SMS_26
矩阵中L,K,J都是需要计算的值:
Figure SMS_27
上式表示新增的向量α在行向量组成的方阵对应的特征空间基(v1,v2,...,vn)上的坐标;
Figure SMS_28
上式表示新增的向量α在行向量组成的方阵对应的特征空间超平面上的投影向量;
H=α-LVT=α-αVVT=α(I-VVT)
上式表示新增的向量α垂直于特征空间超平面部分的向量;
对H做QR分解,得到:
K=||α(I-VVT)||,J=α(I-VVT)/K,H=KJ。
Figure SMS_29
显然
Figure SMS_30
所以
Figure SMS_31
是正交矩阵
步骤3.4,令
Figure SMS_32
对Q做对角化,
得到Q=U″Σ′V″T,再令U″′=U′U″,V″′T=(V′V″)T,得到A′=U″′Σ′V″′T,此时,A′的维度是(m+1)×n,而Q的维度=rank(A′)<<min(m+1,n),由于只要对内部的矩阵Q做对角化,而Q的维度比原始的矩阵A的维度低了很多,所以计算非常迅速;
步骤3.5,如此循环,直到D集合中的αj全部取出计算完毕为止;
步骤3.6,设最终的矩阵为
Figure SMS_34
对于/>
Figure SMS_35
的对角矩阵,设它的秩/>
Figure SMS_39
取前N个最大的对角值,显然N<<R,其余对角值设为0,得到对角矩阵/>
Figure SMS_36
则/>
Figure SMS_37
Figure SMS_38
由/>
Figure SMS_40
的前N列组成,计算/>
Figure SMS_33
则F为p×N矩阵,所组成的向量全部为N维的,即将原来为n个属性数据集降维为N维;
步骤3.7,在矩阵F的p条数据中,有m条是和集合B对应的符合实验结果的数据,在剩余的集合D的(p-m)条数据中,需要分辨是否属于平行数据集C;计算的方法如下:
计算和集合B对应的m条数据的重心
Figure SMS_41
计算剩余的集合D对应的(p-m)条数据的重心
Figure SMS_42
对于任意一条数据d∈D,计算距离比
Figure SMS_43
设定阈值,定义集合
Figure SMS_44
作为一种优选,所述数据集构建的方法还包括步骤四,统计所述数据集合C中标识位的指标,估计平行试验结果的概率分布。
该方法利用增量奇异值分解法,可以对在库的海量数据进行数据降维和主成分分析,这种分析可以过滤掉在数据采集时由于随机因素引起的数据扰动,并且通过左奇异矩阵U和右奇异矩阵来控制导入数据的维度和样本数。同时,算法基于的是分批次的更新方式,整个计算的复杂度较低。
本发明以农产品葡萄以及葡萄酒的制备工艺作为分析案例详细介绍本发明是如何实现的,但本发明的应用并不限于农产品,还可用于其他产业的数据分析。
实施例1
在葡萄的种植过程中,某年度的降水量偏大而、气温偏低并且有病虫害危险,希望修改水肥的灌溉方法,但是不知道如何调节可以保证产量和质量的最优。
步骤一:建立横表数据,将以往年份的逐日降水量、水肥灌溉、病虫害影响、水肥灌溉方法和当年的葡萄的产量和质量数据关联起来,形成一张宽表数据Ω。
步骤二:在宽表数据集Ω中捞取正常年份的产量和质量对应的宽表数据集B。
步骤三:假设正常年份的水肥指标为x,分别按照假设1.5x,2x,0.8x三个水肥指标,在数据集Ω中除B以外的部分捞取平行数据候选集D1,D2,D3;
假设宽表数据集B有100个属性,将B对应的矩阵做奇异值分解,然后逐条取出D1中的数据,加入到B对应的矩阵中,做增量奇异值分解。
在D1中全部数据都加入完毕之后,再对矩阵做主成分分析,得到经过降维的和旋转映射的结果矩阵F,F降低为5维指标。
分别计算矩阵F中属于集合B的质心和属于数据集D1的质心,然后在数据集D1中挑选距离接近B的质心的数据,作为平行数据集C1。
步骤四:统计C1对应的葡萄产量和质量的统计分布,作为水肥策略1.5x的预期结果。
步骤五:按照D1的计算方式,同样的计算D2和D3的数据集,从而可以分别得到水肥策略2x和0.5x对应的预期结果。
步骤六:在1.5x,2x和0.5x的结果中选择一个最优,作为本季度的葡萄种植水肥策略。
实施例2
在葡萄酒的酿造过程中,工艺工程师想提高一种酶的添加量,但是不知道这样做会不会影响最终的葡萄酒的质量。
步骤一:建立横表数据,将以往生产批次的温度、湿度、酶的添加量、发酵时间、葡萄汁的酸度、甜度等指标和生产出来的葡萄酒的颜色、口味、酒精度等质量数据关联起来,形成一张宽表数据Ω。
步骤二:在宽表数据集Ω中捞取目前工艺结果对应的宽表数据集B。
步骤三:假设目前工业结果对应的酶指标为x,分别按照假设增加后的酶指标为2x,,在数据集Ω中除B以外的部分捞取平行数据候选集D;
假设宽表数据集B有200个属性,将B对应的矩阵做奇异值分解,然后逐条取出D中的数据,加入到B对应的矩阵中,做增量奇异值分解。
在D中全部数据都加入完毕之后,再对矩阵做主成分分析,得到经过降维的和旋转映射的结果矩阵F,F降低为10维指标。
分别计算矩阵F中属于集合B中属于数据B的质心和属于数据集D的质心,然后在数据集D中挑选距离接近B的质心的数据,作为平行数据集C。
步骤四:统计C对应的葡萄酒的颜色、口味和酒精度等指标的统计分布,作为增加酶指标为2x的预期结果。
以上内容是结合具体的实施例对本发明所作的详细说明,不能认定本发明具体实施仅限于这些说明。对于本发明所属技术领域的技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明保护的范围。

Claims (5)

1.一种使用增量奇异值分解法进行产品行业平行数据集构建的方法,其特征在于,所述数据集构建的方法基于某一产品生产过程的影响因素数据与其产量和质量数据;从历史的数据样本中得到平行样本数据,再利用平行样本数据做工艺设计和数据分析;
所述数据集构建的方法包括以下步骤:
步骤一,数据宽表化,将采集到的数据进行整合,形成包含最终结果好坏程度的标识位、影响该标识位的多个指标组成的向量数据,以及可以索引该向量数据的全局唯一ID;这些数据的整体记为数据宽表集Ω,共有h条;
步骤二,按照产品希望得到的结果,确定标识位的范围;在数据宽表集Ω中,根据标识位的范围,将标识位在范围阈值内的数据的全部列选取出来,形成符合实验结果的数据集B,B为m条;
步骤三,需要对比分析的变量为X1,对应的对比值为s,在数据宽表集Ω中除B数据集以外的部分,挑选数据集B的对比分析参考数据集D,数据集D中数据的X1变量的值在s附近,数据集D包括p条;使用增量奇异值分解法,在参考数据集D中挑选除变量X1以外的变量和数据集B中对应的变量值接近的部分,形成平行数据集C,数据集C为q条;
计算矩阵F中属于数据集B的质心和属于数据集D的质心,然后在数据集D中挑选距离接近B的质心的数据,作为平行数据集C。
2.根据权利要求1所述的一种使用增量奇异值分解法进行产品行业平行数据集构建的方法,所述步骤一具体为:
步骤1.1,采集不同渠道获得的数据,存储到同一的数据库中,存储的格式按照JSON格式的键值对方式{“a”:1,“b”:[1,2,3],“c”:{“d”:2}};
步骤1.2,将实验结果和该实验结果所关联的所有中间控制和依赖数据都放在一条横式的数据中,形成的向量数据包含最终结果好坏程度的标识位y、影响该标识位的多个指标xi,以及该向量数据的一个全局唯一ID字段u;宽表数据A可以记为z=(u,x1,x2,...,xn,y),宽表数据逐行排列,组成的数据宽表集为
Figure QLYQS_1
显然Ω为1个矩阵;
步骤1.3,对宽表数据做中心化和正则化。
3.根据权利要求1所述的一种使用增量奇异值分解法进行产品行业平行数据集构建的方法,其特征在于,所述步骤二具体为:
步骤2.1,假设对比变量为第1个,即为X1,设αj=(xj2,xj3,...,xjn),αj可以理解为除了被调节的自变量以外的自变量,设zj=(xj1,aj,yj),zj就代表第j条宽表数据,则数据宽表集
Figure QLYQS_2
步骤2.2,设定B={zj|yj∈{符合实验结果的}},集合B为数据宽表集Ω内能够产生符合实验结果的所有数据;约定A={aj|zj=(xj1,aj,yj)∈B},集合A为所有符合实验结果的、被调节自变量以外的自变量组成的集合。
4.根据权利要求1所述的一种使用增量奇异值分解法进行产品行业平行数据集构建的方法,其特征在于,所述步骤三具体为:
步骤3.1,对集合矩阵A做奇异值分解A=U∑VT
其中
Figure QLYQS_3
UTU=VTV=E∈Rr×r,r为矩阵A的秩,U代表AAT的列向量组成的方阵对应的特征向量组成的特征空间,V代表ATA的行向量组成的方阵对应的特征向量组成的特征空间;
把矩阵A看作由旋转VT,修改维度拉伸∑,再旋转U三个步骤组成;奇异值分解后,基础矩阵就被分为3个组成部分,对于整个矩阵的变化就被拆解为3个组成部分的变化;
步骤3.2,设对比参考集合D={αj|(xj1,αj,yj)∈(Ω-B)且xj1∈(s-σ,s+σ)},集合D有p条,为整体集合中结果不符合实验结果,且对比值在s附近的数据组成的集合;在集合D中通过使用增量奇异值分解法,选取出其余自变量和集合B中对应自变量接近的数据集合C;
在集合D中逐条取出向量α,将α依次增加到原始数据矩阵中,从而保证了线性的计算复杂度,对于内存的要求也降低了,令
Figure QLYQS_4
步骤3.3,对A’做增量奇异值分解
Figure QLYQS_5
矩阵中L,K,J都是需要计算的值:
Figure QLYQS_6
Figure QLYQS_7
上式表示新增的向量α在行向量组成的方阵对应的特征空间基(v1,v2,…,vn)上的坐标;
Figure QLYQS_8
上式表示新增的向量α在行向量组成的方阵对应的特征空间超平面上的投影向量;
H=α-LVT=α-αVVT=α(I-VVT)
上式表示新增的向量α垂直于特征空间超平面部分的向量;
对H做QR分解,得到:
K=||α(I-VVT)||,J=α(I-VVT)/K,H=KJ;
Figure QLYQS_9
显然VTV=E,JJT=1,
Figure QLYQS_10
所以
Figure QLYQS_11
Figure QLYQS_12
是正交矩阵
步骤3.4,令
Figure QLYQS_13
对Q做对角化,
得到Q=U″Σ′V″T,再令U″′=U′U″,V″′T=(V′V″)T,得到A′=U″′Σ′V″′T,此时,A’的维度是(m+1)×n,而Q的维度=rank(A’)<<min(m+1,n);
步骤3.5,如此循环,直到D集合中的aj全部取出计算完毕为止;
步骤3.6,设最终的矩阵为
Figure QLYQS_15
对于/>
Figure QLYQS_18
的对角矩阵,设它的秩/>
Figure QLYQS_19
取前N个最大的对角值,显然N<<R,其余对角值设为0,得到对角矩阵/>
Figure QLYQS_16
则/>
Figure QLYQS_17
Figure QLYQS_20
由/>
Figure QLYQS_21
的前N列组成,计算/>
Figure QLYQS_14
则F为P×N矩阵,所组成的向量全部为N维的,即将原来为n个属性数据集降维为N维;
步骤3.7,在矩阵F的p条数据中,有m条是和集合B对应的符合实验结果的数据,在剩余的集合D的(p-m)条数据中,需要分辨是否属于平行数据集C;计算的方法如下:
计算和集合B对应的m条数据的质心
Figure QLYQS_22
计算剩余的集合D对应的(p-m)条数据的质心
Figure QLYQS_23
对于任意一条数据d∈D,计算距离比
Figure QLYQS_24
设定阈值,定义集合
Figure QLYQS_25
5.根据权利要求1所述的一种使用增量奇异值分解法进行产品行业平行数据集构建的方法,其特征在于,所述数据集构建的方法还包括步骤四,统计所述平行数据集C中标识位的指标,估计平行试验结果的概率分布。
CN201911257666.4A 2019-12-10 2019-12-10 一种使用增量奇异值分解法进行产品行业平行数据集构建的方法 Active CN111178391B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911257666.4A CN111178391B (zh) 2019-12-10 2019-12-10 一种使用增量奇异值分解法进行产品行业平行数据集构建的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911257666.4A CN111178391B (zh) 2019-12-10 2019-12-10 一种使用增量奇异值分解法进行产品行业平行数据集构建的方法

Publications (2)

Publication Number Publication Date
CN111178391A CN111178391A (zh) 2020-05-19
CN111178391B true CN111178391B (zh) 2023-06-30

Family

ID=70657228

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911257666.4A Active CN111178391B (zh) 2019-12-10 2019-12-10 一种使用增量奇异值分解法进行产品行业平行数据集构建的方法

Country Status (1)

Country Link
CN (1) CN111178391B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106980753A (zh) * 2017-02-28 2017-07-25 浙江工业大学 一种用于神经疾病的基于体素分析的数据驱动机器学习方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103077402B (zh) * 2012-12-28 2016-05-11 国家电网公司 基于奇异值分解算法的变压器局部放电模式识别方法
US10762101B2 (en) * 2016-11-01 2020-09-01 Micro Focus Llc Singular value decompositions
CN109324595B (zh) * 2018-09-19 2020-06-23 西安理工大学 一种基于增量pca的工业监测数据分类方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106980753A (zh) * 2017-02-28 2017-07-25 浙江工业大学 一种用于神经疾病的基于体素分析的数据驱动机器学习方法

Also Published As

Publication number Publication date
CN111178391A (zh) 2020-05-19

Similar Documents

Publication Publication Date Title
Gandge A study on various data mining techniques for crop yield prediction
Jasim et al. Plant leaf diseases detection and classification using image processing and deep learning techniques
Yan et al. Unsupervised and semi‐supervised learning: The next frontier in machine learning for plant systems biology
Zeng et al. Identification of maize leaf diseases by using the SKPSNet-50 convolutional neural network model
CN112232387B (zh) 基于lselm-rfe的粮食作物病害症状的有效特征识别方法
CN117332283B (zh) 一种中药材生长信息采集分析方法及***
CN106886793B (zh) 基于判别信息和流形信息的高光谱图像波段选择方法
CN110348287A (zh) 一种基于字典和样本相似图的无监督特征选择方法和装置
CN114662406A (zh) 机器学习辅助建立岩石节理峰值抗剪强度预测模型的方法
CN108920900A (zh) 基因表达谱数据的无监督极限学习机特征提取***及方法
Kaur et al. Wheat production analysis based on Naïve Bayes classifier
Bhambri et al. Paddy crop production analysis based on SVM and KNN classifier
Zhang et al. SLRRSC: single-cell type recognition method based on similarity and graph regularization constraints
CN111178391B (zh) 一种使用增量奇异值分解法进行产品行业平行数据集构建的方法
Zhu et al. Interactive visualization of hyperspectral images based on neural networks
Gupta et al. Inferring Agronomical Insights for Wheat Canopy Using Image‐Based Curve Fit K‐Means Segmentation Algorithm and Statistical Analysis
CN111488520B (zh) 一种农作物种植种类推荐信息处理装置、方法及存储介质
CN109215741B (zh) 基于双超图正则化的肿瘤基因表达谱数据双聚类方法
Jackson et al. Robust Ensemble Machine Learning for Precision Agriculture
Manasa et al. Study on machine learning techniques used for agricultural yield estimation
CN116467911B (zh) 基于多工况信息融合的蒸发过程出口溶液浓度估算方法
CN117437973B (zh) 一种单细胞转录组测序数据插补方法
CN113257365B (zh) 面向非标准化单细胞转录组测序数据的聚类方法及***
Krzemińska et al. HARNESSING THE POWER OF RANDOM FOREST MACHINE LEARNING IN GLOBAL AGRICULTURE INNOVATION
Vasileska et al. Employment of machine learning techniques for crop yield forecasting based on climate parameters

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant