CN111178391B - 一种使用增量奇异值分解法进行产品行业平行数据集构建的方法 - Google Patents
一种使用增量奇异值分解法进行产品行业平行数据集构建的方法 Download PDFInfo
- Publication number
- CN111178391B CN111178391B CN201911257666.4A CN201911257666A CN111178391B CN 111178391 B CN111178391 B CN 111178391B CN 201911257666 A CN201911257666 A CN 201911257666A CN 111178391 B CN111178391 B CN 111178391B
- Authority
- CN
- China
- Prior art keywords
- data
- matrix
- singular value
- value decomposition
- data set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 238000000354 decomposition reaction Methods 0.000 title claims abstract description 41
- 239000011159 matrix material Substances 0.000 claims abstract description 74
- 238000004364 calculation method Methods 0.000 claims abstract description 15
- 238000004519 manufacturing process Methods 0.000 claims abstract description 8
- 238000010276 construction Methods 0.000 claims abstract description 7
- 238000007405 data analysis Methods 0.000 claims abstract description 7
- 238000013461 design Methods 0.000 claims abstract description 5
- 239000013598 vector Substances 0.000 claims description 46
- 238000004458 analytical method Methods 0.000 claims description 11
- 238000009826 distribution Methods 0.000 claims description 7
- 238000012360 testing method Methods 0.000 claims description 4
- 239000000463 material Substances 0.000 claims description 3
- 230000001105 regulatory effect Effects 0.000 claims description 3
- 238000000513 principal component analysis Methods 0.000 abstract description 4
- 239000003337 fertilizer Substances 0.000 description 9
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 9
- 102000004190 Enzymes Human genes 0.000 description 5
- 108090000790 Enzymes Proteins 0.000 description 5
- 241000219095 Vitis Species 0.000 description 4
- 235000009754 Vitis X bourquina Nutrition 0.000 description 4
- 235000012333 Vitis X labruscana Nutrition 0.000 description 4
- 235000014787 Vitis vinifera Nutrition 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 230000005484 gravity Effects 0.000 description 4
- 230000002262 irrigation Effects 0.000 description 4
- 238000003973 irrigation Methods 0.000 description 4
- 241000219094 Vitaceae Species 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 235000021021 grapes Nutrition 0.000 description 3
- LFQSCWFLJHTTHZ-UHFFFAOYSA-N Ethanol Chemical compound CCO LFQSCWFLJHTTHZ-UHFFFAOYSA-N 0.000 description 2
- 241000607479 Yersinia pestis Species 0.000 description 2
- 238000012271 agricultural production Methods 0.000 description 2
- 230000001351 cycling effect Effects 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000001556 precipitation Methods 0.000 description 2
- 241000196324 Embryophyta Species 0.000 description 1
- 241000238631 Hexapoda Species 0.000 description 1
- 238000013124 brewing process Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000855 fermentation Methods 0.000 description 1
- 230000004151 fermentation Effects 0.000 description 1
- 235000019674 grape juice Nutrition 0.000 description 1
- 238000009776 industrial production Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Mathematical Analysis (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Computational Mathematics (AREA)
- Pure & Applied Mathematics (AREA)
- Evolutionary Computation (AREA)
- Mathematical Optimization (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种使用增量奇异值分解法进行产品行业平行数据集构建的方法,所述数据集构建的方法基于某一产品生产过程的影响因素数据与其产量和质量数据;从历史的数据样本中得到与目标数据类似的平行样本数据,再利用平行样本数据做工艺设计和数据分析。该方法利用增量奇异值分解法,可以对在库的海量数据进行数据降维和主成分分析,这种分析可以过滤掉在数据采集时由于随机因素引起的数据扰动,并且通过左奇异矩阵U和右奇异矩阵来控制导入数据的维度和样本数。同时,算法基于的是分批次的更新方式,整个计算的复杂度较低。
Description
技术领域
本发明涉及产品信息分析处理技术领域,尤其是一种使用增量奇异值分解法进行产品行业平行数据集构建的方法。
背景技术
许多产业产品的生产过程长,影响因素多,比一般的工业生产复杂很多,如在农业种植和农产品生产过程中,普遍存在着数据采集困难,包括:
(1)采集的数据维度较少;
(2)采集的样本批次较少;
(3)整个采集过程时间跨度较长;
(4)场景数据难以复现。
这些数据上的不足,严重影响了农产品产业的数据挖掘和机器学***行对比数据分析是溯源问题原因、进行机器学习算法不可或缺的基础资料。没有高质量的数据,会极大的影响数据分析的准确性和方向性。
普通工业过程的数据对比实验,只需要保持大多数控制变量不变,改变需要尝试的变量,分析被尝试变量的边际改变对整个分析结果的影响。如此迭代,通过不断改变测试变量,最后做到工艺的逐步提升,整个迭代的过程迅速而且高效。但是,在农产品工业过程中,这样的迭代却是很难实现或者代价太高,因为农业生产的长周期和要素受自然条件决定的特点,做工艺迭代的周期很长,而且不能保证不变要素的数据对齐。
正是由于上述的困难,提出了一种在历史的数据样本中抽取和目标数据类似的平行样本的技术方案,利用平行样本做工艺设计和分析,这就大大减少了迭代运算的周期,对于迅速找到收敛的工艺参数,具有非常大的帮助。
在历史样本中捞取平行样本时,存在着以下几个难题:
(1)原始数据的维度较高,在寻找平行样本时,存在着维度过高引起的数据过于稀疏,基础样本的周边样本数量过少。
(2)为了解决问题样本稀疏问题,必须进行数据降维,在数据降维的过程中,由于不
断有新增的样本进入,如果每次都全量进行数据降维,计算量将会非常大,所以必须设计增量的数据降维方法。
(3)平行数据中存在着批次不断增多,维度不断增大的问题,相应的算法也必须能够动态适配。
发明内容
为了解决上述技术问题,本发明旨在提供一种使用增量奇异值分解法进行产品行业平行数据集构建的方法,为农业生产提供准确有效的数据作为分析基础,并为其发展方向提供参考依据。
为解决上述技术问题,本发明提供一种使用增量奇异值分解法进行产品行业平行数据集构建的方法,所述数据集构建的方法基于某一产品生产过程的影响因素数据与其产量和质量数据;从历史的数据样本中得到与目标数据类似的平行样本数据,再利用平行样本数据做工艺设计和数据分析;
所述数据集构建的方法包括以下步骤:
步骤一,数据宽表化,将采集到的数据进行整合,形成包含最终结果好坏程度的标识位、影响该标识的多个指标组成的向量数据,以及可以索引该向量数据的全局唯一ID;这些数据的整体记为宽表集Ω,共有h条;
步骤二,按照产品希望得到的结果,确定标识位的范围;在数据宽表集Ω中,根据标识位的范围,将标识位在范围阈值内的数据的全部列选取出来,形成符合实验结果的数据集B,B为m条;
步骤三,需要对比分析的变量为X1,对应的对比值为s,在整体数据宽表集Ω中除B数据集以外的部分,挑选数据集B的对比分析参考数据集D,数据集D中数据的X1变量的值在s附近,数据集D包括p条;使用增量奇异值分解法,在参考数据集D中挑选除变量X1以外的变量和数据集B中对应的变量值接近的部分,形成平行数据集C,数据集C为q条。
进一步的,所述步骤一具体为:
步骤1.1,采集不同渠道获得的数据,存储到同一的数据库中,存储的格式按照JSON格式的的键值对方式{″a″:1,″b″:[1,2,3],″c″:{″d″:2}};
步骤1.2,将实验结果和该实验结果所关联的所有中间控制和依赖数据都放在一条横式的数据中,形成的向量数据包含最终结果好坏程度的标识位y、影响该标识的多个指标xi,以及该条数据的一个全局唯一ID字段u;该宽表数据可以记为z=(u,x1,x2,...,xn,y),宽表数据逐行排列,组成的集合为显然Ω为1个矩阵;
步骤1.3,对宽表数据做中心化和正则化。
进一步的,所述步骤二具体为:
步骤2.1,假设对比变量为第1个,即为X1,设αj=(xj2,xj3,...,xjn),αj可以理解为
步骤2.2,设定B={zj|yj∈{符合实验结果的}},集合B为整体数据集Ω内能够产生符合实验结果的所有数据;约定A={αj|zj=(xj1,αj,yj)∈B},集合A为所有符合实验结果的、被调节自变量以外的自变量组成的集合。
进一步的,所述步骤三具体为:
步骤3.1,对集合矩阵A做奇异值分解A=U∑VT,
其中U∈Rm×r,∑∈Rr×r,VT∈Rr×n,UTU=VTV=E∈Rr×r,r为矩阵A的秩,U代表AAT的列向量组成的方阵对应的特征向量组成的特征空间,V代表ATA的行向量组成的方阵对应的特征向量组成的特征空间;
整个变化的原理是,把矩阵A看作由旋转VT,修改维度拉伸∑,再旋转U三个步骤组成。奇异值分解后,基础矩阵就被分为3个组成部分,对于整个矩阵的变化就被拆解为3个组成部分的变化,从而降低了分析的难度,各部分的分解也有了明确的几何意义。
步骤3.2,设对比参考集合D={αj|(xj1,αj,yj)∈(Ω-B)且xj1∈(s-σ,s+σ)},集合D有p条,为整体集合中结果不符合实验结果,且对比值在s附近的数据组成的集合;在集合D中通过使用增量奇异值分解法,选取出其余自变量和集合B中对应自变量接近的数据集合C;
上式表示新增的向量α在行向量组成的方阵对应的特征空间基(v1,v2,...,vn)上的坐标;
上式表示新增的向量α在行向量组成的方阵对应的特征空间超平面上的投影向量;
H=α-LVT=α-αVVT=α(I-VVT)
上式表示新增的向量α垂直于特征空间超平面部分的向量;
对H做QR分解,得到:
K=||α(I-VVT)||,J=α(I-VVT)/K,H=KJ。
得到Q=U″Σ′V″T,再令U″′=U′U″V″′T=(V′V″)T,得到A′=U″′Σ′V″′T,此时,A′的维度是(m+1)×n,而Q的维度=rank(A′)<<min(m+1,n),由于只要对内部的矩阵Q做对角化,而Q的维度比原始的矩阵A的维度低了很多,所以计算非常迅速;
步骤3.5,如此循环,直到D集合中的αj全部取出计算完毕为止;
步骤3.6,设最终的矩阵为对于/>的对角矩阵,设它的秩/>取前N个最大的对角值,显然N<<R,其余对角值设为0,得到对角矩阵/>则/> 由的前N列组成,计算/>则F为p×N矩阵,所组成的向量全部为N维的,即将原来为n个属性数据集降维为N维;
步骤3.7,在矩阵F的p条数据中,有m条是和集合B对应的符合实验结果的数据,在剩余的集合D的(p-m)条数据中,需要分辨是否属于平行数据集C;计算的方法如下:
作为一种优选,所述数据集构建的方法还包括步骤四,统计所述数据集合C中标识位的指标,估计平行试验结果的概率分布。
本发明与现有技术相比较,本发明的实施效果如下:
1.建立宽表数据集,将所有相关实验的过程参数,都整合到一张矩阵表中,这样就对纷繁复杂的数据结构按照结果做了整理,方便利用数据挖掘算法进行计算。
2.将初始数据做奇异值分解,然后逐批次的进行增量奇异值分解,这样避免了进行大规模矩阵旋转和拉伸的计算,有效的控制了计算量。
3.利用对角矩阵上前N个较大特征值作为代表,可以实现数据的降维和噪音过滤,而且保证了矩阵的主要特征不发生变化。从整体来看,本方法可以在不做新的对比实验的前提下,就可以把类似的对比实验的数据寻找出来,而且对于缺失数据和新增保持一定的鲁棒性。
附图说明
图1为数据流向示意图;
图2为增量奇异值分解原理图;
图3为数据结构计算图。
具体实施方式
下面结合附图和具体实例对本发明做更进一步的解释:
本发明提供一种使用增量奇异值分解法进行产品行业平行数据集构建的方法,所述数据集构建的方法基于某一产品生产过程的影响因素数据与其产量和质量数据;从历史的数据样本中得到与目标数据类似的平行样本数据,再利用平行样本数据做工艺设计和数据分析。这就大大减少了迭代运算的周期,对于迅速找到收敛的工艺参数,具有非常大的帮助。
该数据集构建的方法包括以下步骤:
步骤一,数据宽表化,将采集到的数据进行整合,形成包含最终结果好坏程度的标识位、影响该标识的多个指标组成的向量数据,以及可以索引该向量数据的全局唯一ID;这些数据的整体记为宽表集Ω,共有h条;
步骤二,按照产品希望得到的结果,确定标识位的范围;在数据宽表集Ω中,根据标识位的范围,将标识位在范围阈值内的数据的全部列选取出来,形成符合实验结果的数据集B,B为m条;
步骤三,需要对比分析的变量为X1,对应的对比值为s,在整体数据宽表集Ω中除B数据集以外的部分,挑选数据集B的对比分析参考数据集D,数据集D中数据的X1变量的值在s附近,数据集D包括p条;使用增量奇异值分解法,在参考数据集D中挑选除变量X1以外的变量和数据集B中对应的变量值接近的部分,形成平行数据集C,数据集C为q条。
进一步的,所述步骤一具体为:
步骤1.1,采集不同渠道获得的数据,存储到同一的数据库中,存储的格式按照JSON格式的的键值对方式{″a″:1,″b″:[1,2,3],″c″:{″d″:2}};
步骤1.2,将实验结果和该实验结果所关联的所有中间控制和依赖数据都放在一条横式的数据中,形成的向量数据包含最终结果好坏程度的标识位y、影响该标识的多个指标xi,以及该条数据的一个全局唯一ID字段u;该宽表数据可以记为z=(u,x1x2,...,xn,y),宽表数据逐行排列,组成的集合为显然Ω为1个矩阵;
步骤1.3,对宽表数据做中心化和正则化。
进一步的,所述步骤二具体为:
步骤2.1,假设对比变量为第1个,即为X1,设αj=(xj2,xj3,...,xjn),αj可以理解为
步骤2.2,设定B={zj|yj∈{符合实验结果的}},集合B为整体数据集Ω内能够产生符合实验结果的所有数据;约定A={αj|zj=(xj1,αj,yj)∈B},集合A为所有符合实验结果的、被调节自变量以外的自变量组成的集合。
进一步的,所述步骤三具体为:
步骤3.1,对集合矩阵A做奇异值分解A=U∑VT,
其中U∈Rm×r,∑∈Rr×r,VT∈Rr×n,UTU=VTV=E∈Rr×r,r为矩阵A的秩,U代表AAT的列向量组成的方阵对应的特征向量组成的特征空间,V代表ATA的行向量组成的方阵对应的特征向量组成的特征空间;
整个变化的原理是,把矩阵A看作由旋转VT,修改维度拉伸∑,再旋转U三个步骤组成。奇异值分解后,基础矩阵就被分为3个组成部分,对于整个矩阵的变化就被拆解为3个组成部分的变化,从而降低了分析的难度,各部分的分解也有了明确的几何意义。
步骤3.2,设对比参考集合D={αj|(xj1,αj,yj)∈(Ω-B)且xj1∈(s-σ,s+σ)},集合D有p条,为整体集合中结果不符合实验结果,且对比值在s附近的数据组成的集合;在集合D中通过使用增量奇异值分解法,选取出其余自变量和集合B中对应自变量接近的数据集合C;
上式表示新增的向量α在行向量组成的方阵对应的特征空间基(v1,v2,...,vn)上的坐标;
上式表示新增的向量α在行向量组成的方阵对应的特征空间超平面上的投影向量;
H=α-LVT=α-αVVT=α(I-VVT)
上式表示新增的向量α垂直于特征空间超平面部分的向量;
对H做QR分解,得到:
K=||α(I-VVT)||,J=α(I-VVT)/K,H=KJ。
得到Q=U″Σ′V″T,再令U″′=U′U″,V″′T=(V′V″)T,得到A′=U″′Σ′V″′T,此时,A′的维度是(m+1)×n,而Q的维度=rank(A′)<<min(m+1,n),由于只要对内部的矩阵Q做对角化,而Q的维度比原始的矩阵A的维度低了很多,所以计算非常迅速;
步骤3.5,如此循环,直到D集合中的αj全部取出计算完毕为止;
步骤3.6,设最终的矩阵为对于/>的对角矩阵,设它的秩/>取前N个最大的对角值,显然N<<R,其余对角值设为0,得到对角矩阵/>则/> 由/>的前N列组成,计算/>则F为p×N矩阵,所组成的向量全部为N维的,即将原来为n个属性数据集降维为N维;
步骤3.7,在矩阵F的p条数据中,有m条是和集合B对应的符合实验结果的数据,在剩余的集合D的(p-m)条数据中,需要分辨是否属于平行数据集C;计算的方法如下:
作为一种优选,所述数据集构建的方法还包括步骤四,统计所述数据集合C中标识位的指标,估计平行试验结果的概率分布。
该方法利用增量奇异值分解法,可以对在库的海量数据进行数据降维和主成分分析,这种分析可以过滤掉在数据采集时由于随机因素引起的数据扰动,并且通过左奇异矩阵U和右奇异矩阵来控制导入数据的维度和样本数。同时,算法基于的是分批次的更新方式,整个计算的复杂度较低。
本发明以农产品葡萄以及葡萄酒的制备工艺作为分析案例详细介绍本发明是如何实现的,但本发明的应用并不限于农产品,还可用于其他产业的数据分析。
实施例1
在葡萄的种植过程中,某年度的降水量偏大而、气温偏低并且有病虫害危险,希望修改水肥的灌溉方法,但是不知道如何调节可以保证产量和质量的最优。
步骤一:建立横表数据,将以往年份的逐日降水量、水肥灌溉、病虫害影响、水肥灌溉方法和当年的葡萄的产量和质量数据关联起来,形成一张宽表数据Ω。
步骤二:在宽表数据集Ω中捞取正常年份的产量和质量对应的宽表数据集B。
步骤三:假设正常年份的水肥指标为x,分别按照假设1.5x,2x,0.8x三个水肥指标,在数据集Ω中除B以外的部分捞取平行数据候选集D1,D2,D3;
假设宽表数据集B有100个属性,将B对应的矩阵做奇异值分解,然后逐条取出D1中的数据,加入到B对应的矩阵中,做增量奇异值分解。
在D1中全部数据都加入完毕之后,再对矩阵做主成分分析,得到经过降维的和旋转映射的结果矩阵F,F降低为5维指标。
分别计算矩阵F中属于集合B的质心和属于数据集D1的质心,然后在数据集D1中挑选距离接近B的质心的数据,作为平行数据集C1。
步骤四:统计C1对应的葡萄产量和质量的统计分布,作为水肥策略1.5x的预期结果。
步骤五:按照D1的计算方式,同样的计算D2和D3的数据集,从而可以分别得到水肥策略2x和0.5x对应的预期结果。
步骤六:在1.5x,2x和0.5x的结果中选择一个最优,作为本季度的葡萄种植水肥策略。
实施例2
在葡萄酒的酿造过程中,工艺工程师想提高一种酶的添加量,但是不知道这样做会不会影响最终的葡萄酒的质量。
步骤一:建立横表数据,将以往生产批次的温度、湿度、酶的添加量、发酵时间、葡萄汁的酸度、甜度等指标和生产出来的葡萄酒的颜色、口味、酒精度等质量数据关联起来,形成一张宽表数据Ω。
步骤二:在宽表数据集Ω中捞取目前工艺结果对应的宽表数据集B。
步骤三:假设目前工业结果对应的酶指标为x,分别按照假设增加后的酶指标为2x,,在数据集Ω中除B以外的部分捞取平行数据候选集D;
假设宽表数据集B有200个属性,将B对应的矩阵做奇异值分解,然后逐条取出D中的数据,加入到B对应的矩阵中,做增量奇异值分解。
在D中全部数据都加入完毕之后,再对矩阵做主成分分析,得到经过降维的和旋转映射的结果矩阵F,F降低为10维指标。
分别计算矩阵F中属于集合B中属于数据B的质心和属于数据集D的质心,然后在数据集D中挑选距离接近B的质心的数据,作为平行数据集C。
步骤四:统计C对应的葡萄酒的颜色、口味和酒精度等指标的统计分布,作为增加酶指标为2x的预期结果。
以上内容是结合具体的实施例对本发明所作的详细说明,不能认定本发明具体实施仅限于这些说明。对于本发明所属技术领域的技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明保护的范围。
Claims (5)
1.一种使用增量奇异值分解法进行产品行业平行数据集构建的方法,其特征在于,所述数据集构建的方法基于某一产品生产过程的影响因素数据与其产量和质量数据;从历史的数据样本中得到平行样本数据,再利用平行样本数据做工艺设计和数据分析;
所述数据集构建的方法包括以下步骤:
步骤一,数据宽表化,将采集到的数据进行整合,形成包含最终结果好坏程度的标识位、影响该标识位的多个指标组成的向量数据,以及可以索引该向量数据的全局唯一ID;这些数据的整体记为数据宽表集Ω,共有h条;
步骤二,按照产品希望得到的结果,确定标识位的范围;在数据宽表集Ω中,根据标识位的范围,将标识位在范围阈值内的数据的全部列选取出来,形成符合实验结果的数据集B,B为m条;
步骤三,需要对比分析的变量为X1,对应的对比值为s,在数据宽表集Ω中除B数据集以外的部分,挑选数据集B的对比分析参考数据集D,数据集D中数据的X1变量的值在s附近,数据集D包括p条;使用增量奇异值分解法,在参考数据集D中挑选除变量X1以外的变量和数据集B中对应的变量值接近的部分,形成平行数据集C,数据集C为q条;
计算矩阵F中属于数据集B的质心和属于数据集D的质心,然后在数据集D中挑选距离接近B的质心的数据,作为平行数据集C。
2.根据权利要求1所述的一种使用增量奇异值分解法进行产品行业平行数据集构建的方法,所述步骤一具体为:
步骤1.1,采集不同渠道获得的数据,存储到同一的数据库中,存储的格式按照JSON格式的键值对方式{“a”:1,“b”:[1,2,3],“c”:{“d”:2}};
步骤1.2,将实验结果和该实验结果所关联的所有中间控制和依赖数据都放在一条横式的数据中,形成的向量数据包含最终结果好坏程度的标识位y、影响该标识位的多个指标xi,以及该向量数据的一个全局唯一ID字段u;宽表数据A可以记为z=(u,x1,x2,...,xn,y),宽表数据逐行排列,组成的数据宽表集为显然Ω为1个矩阵;
步骤1.3,对宽表数据做中心化和正则化。
4.根据权利要求1所述的一种使用增量奇异值分解法进行产品行业平行数据集构建的方法,其特征在于,所述步骤三具体为:
步骤3.1,对集合矩阵A做奇异值分解A=U∑VT,
把矩阵A看作由旋转VT,修改维度拉伸∑,再旋转U三个步骤组成;奇异值分解后,基础矩阵就被分为3个组成部分,对于整个矩阵的变化就被拆解为3个组成部分的变化;
步骤3.2,设对比参考集合D={αj|(xj1,αj,yj)∈(Ω-B)且xj1∈(s-σ,s+σ)},集合D有p条,为整体集合中结果不符合实验结果,且对比值在s附近的数据组成的集合;在集合D中通过使用增量奇异值分解法,选取出其余自变量和集合B中对应自变量接近的数据集合C;
上式表示新增的向量α在行向量组成的方阵对应的特征空间基(v1,v2,…,vn)上的坐标;
上式表示新增的向量α在行向量组成的方阵对应的特征空间超平面上的投影向量;
H=α-LVT=α-αVVT=α(I-VVT)
上式表示新增的向量α垂直于特征空间超平面部分的向量;
对H做QR分解,得到:
K=||α(I-VVT)||,J=α(I-VVT)/K,H=KJ;
得到Q=U″Σ′V″T,再令U″′=U′U″,V″′T=(V′V″)T,得到A′=U″′Σ′V″′T,此时,A’的维度是(m+1)×n,而Q的维度=rank(A’)<<min(m+1,n);
步骤3.5,如此循环,直到D集合中的aj全部取出计算完毕为止;
步骤3.6,设最终的矩阵为对于/>的对角矩阵,设它的秩/>取前N个最大的对角值,显然N<<R,其余对角值设为0,得到对角矩阵/>则/> 由/>的前N列组成,计算/>则F为P×N矩阵,所组成的向量全部为N维的,即将原来为n个属性数据集降维为N维;
步骤3.7,在矩阵F的p条数据中,有m条是和集合B对应的符合实验结果的数据,在剩余的集合D的(p-m)条数据中,需要分辨是否属于平行数据集C;计算的方法如下:
5.根据权利要求1所述的一种使用增量奇异值分解法进行产品行业平行数据集构建的方法,其特征在于,所述数据集构建的方法还包括步骤四,统计所述平行数据集C中标识位的指标,估计平行试验结果的概率分布。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911257666.4A CN111178391B (zh) | 2019-12-10 | 2019-12-10 | 一种使用增量奇异值分解法进行产品行业平行数据集构建的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911257666.4A CN111178391B (zh) | 2019-12-10 | 2019-12-10 | 一种使用增量奇异值分解法进行产品行业平行数据集构建的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111178391A CN111178391A (zh) | 2020-05-19 |
CN111178391B true CN111178391B (zh) | 2023-06-30 |
Family
ID=70657228
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911257666.4A Active CN111178391B (zh) | 2019-12-10 | 2019-12-10 | 一种使用增量奇异值分解法进行产品行业平行数据集构建的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111178391B (zh) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106980753A (zh) * | 2017-02-28 | 2017-07-25 | 浙江工业大学 | 一种用于神经疾病的基于体素分析的数据驱动机器学习方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103077402B (zh) * | 2012-12-28 | 2016-05-11 | 国家电网公司 | 基于奇异值分解算法的变压器局部放电模式识别方法 |
US10762101B2 (en) * | 2016-11-01 | 2020-09-01 | Micro Focus Llc | Singular value decompositions |
CN109324595B (zh) * | 2018-09-19 | 2020-06-23 | 西安理工大学 | 一种基于增量pca的工业监测数据分类方法 |
-
2019
- 2019-12-10 CN CN201911257666.4A patent/CN111178391B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106980753A (zh) * | 2017-02-28 | 2017-07-25 | 浙江工业大学 | 一种用于神经疾病的基于体素分析的数据驱动机器学习方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111178391A (zh) | 2020-05-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Gandge | A study on various data mining techniques for crop yield prediction | |
Jasim et al. | Plant leaf diseases detection and classification using image processing and deep learning techniques | |
Yan et al. | Unsupervised and semi‐supervised learning: The next frontier in machine learning for plant systems biology | |
Zeng et al. | Identification of maize leaf diseases by using the SKPSNet-50 convolutional neural network model | |
CN112232387B (zh) | 基于lselm-rfe的粮食作物病害症状的有效特征识别方法 | |
CN117332283B (zh) | 一种中药材生长信息采集分析方法及*** | |
CN106886793B (zh) | 基于判别信息和流形信息的高光谱图像波段选择方法 | |
CN110348287A (zh) | 一种基于字典和样本相似图的无监督特征选择方法和装置 | |
CN114662406A (zh) | 机器学习辅助建立岩石节理峰值抗剪强度预测模型的方法 | |
CN108920900A (zh) | 基因表达谱数据的无监督极限学习机特征提取***及方法 | |
Kaur et al. | Wheat production analysis based on Naïve Bayes classifier | |
Bhambri et al. | Paddy crop production analysis based on SVM and KNN classifier | |
Zhang et al. | SLRRSC: single-cell type recognition method based on similarity and graph regularization constraints | |
CN111178391B (zh) | 一种使用增量奇异值分解法进行产品行业平行数据集构建的方法 | |
Zhu et al. | Interactive visualization of hyperspectral images based on neural networks | |
Gupta et al. | Inferring Agronomical Insights for Wheat Canopy Using Image‐Based Curve Fit K‐Means Segmentation Algorithm and Statistical Analysis | |
CN111488520B (zh) | 一种农作物种植种类推荐信息处理装置、方法及存储介质 | |
CN109215741B (zh) | 基于双超图正则化的肿瘤基因表达谱数据双聚类方法 | |
Jackson et al. | Robust Ensemble Machine Learning for Precision Agriculture | |
Manasa et al. | Study on machine learning techniques used for agricultural yield estimation | |
CN116467911B (zh) | 基于多工况信息融合的蒸发过程出口溶液浓度估算方法 | |
CN117437973B (zh) | 一种单细胞转录组测序数据插补方法 | |
CN113257365B (zh) | 面向非标准化单细胞转录组测序数据的聚类方法及*** | |
Krzemińska et al. | HARNESSING THE POWER OF RANDOM FOREST MACHINE LEARNING IN GLOBAL AGRICULTURE INNOVATION | |
Vasileska et al. | Employment of machine learning techniques for crop yield forecasting based on climate parameters |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |