CN111178391B

CN111178391B - 一种使用增量奇异值分解法进行产品行业平行数据集构建的方法

Info

Publication number: CN111178391B
Application number: CN201911257666.4A
Authority: CN
Inventors: 夏飞鹏; 祁学豪; 陈刚
Original assignee: Network Communication and Security Zijinshan Laboratory
Current assignee: Network Communication and Security Zijinshan Laboratory
Priority date: 2019-12-10
Filing date: 2019-12-10
Publication date: 2023-06-30
Anticipated expiration: 2039-12-10
Also published as: CN111178391A

Abstract

本发明公开了一种使用增量奇异值分解法进行产品行业平行数据集构建的方法，所述数据集构建的方法基于某一产品生产过程的影响因素数据与其产量和质量数据；从历史的数据样本中得到与目标数据类似的平行样本数据，再利用平行样本数据做工艺设计和数据分析。该方法利用增量奇异值分解法，可以对在库的海量数据进行数据降维和主成分分析，这种分析可以过滤掉在数据采集时由于随机因素引起的数据扰动，并且通过左奇异矩阵U和右奇异矩阵来控制导入数据的维度和样本数。同时，算法基于的是分批次的更新方式，整个计算的复杂度较低。

Description

一种使用增量奇异值分解法进行产品行业平行数据集构建的方法

技术领域

本发明涉及产品信息分析处理技术领域，尤其是一种使用增量奇异值分解法进行产品行业平行数据集构建的方法。

背景技术

许多产业产品的生产过程长，影响因素多，比一般的工业生产复杂很多，如在农业种植和农产品生产过程中，普遍存在着数据采集困难，包括：

(1)采集的数据维度较少；

(2)采集的样本批次较少；

(3)整个采集过程时间跨度较长；

(4)场景数据难以复现。

这些数据上的不足，严重影响了农产品产业的数据挖掘和机器学***行对比数据分析是溯源问题原因、进行机器学习算法不可或缺的基础资料。没有高质量的数据，会极大的影响数据分析的准确性和方向性。

普通工业过程的数据对比实验，只需要保持大多数控制变量不变，改变需要尝试的变量，分析被尝试变量的边际改变对整个分析结果的影响。如此迭代，通过不断改变测试变量，最后做到工艺的逐步提升，整个迭代的过程迅速而且高效。但是，在农产品工业过程中，这样的迭代却是很难实现或者代价太高，因为农业生产的长周期和要素受自然条件决定的特点，做工艺迭代的周期很长，而且不能保证不变要素的数据对齐。

正是由于上述的困难，提出了一种在历史的数据样本中抽取和目标数据类似的平行样本的技术方案，利用平行样本做工艺设计和分析，这就大大减少了迭代运算的周期，对于迅速找到收敛的工艺参数，具有非常大的帮助。

在历史样本中捞取平行样本时，存在着以下几个难题：

(1)原始数据的维度较高，在寻找平行样本时，存在着维度过高引起的数据过于稀疏，基础样本的周边样本数量过少。

(2)为了解决问题样本稀疏问题，必须进行数据降维，在数据降维的过程中，由于不

断有新增的样本进入，如果每次都全量进行数据降维，计算量将会非常大，所以必须设计增量的数据降维方法。

(3)平行数据中存在着批次不断增多，维度不断增大的问题，相应的算法也必须能够动态适配。

发明内容

为了解决上述技术问题，本发明旨在提供一种使用增量奇异值分解法进行产品行业平行数据集构建的方法，为农业生产提供准确有效的数据作为分析基础，并为其发展方向提供参考依据。

为解决上述技术问题，本发明提供一种使用增量奇异值分解法进行产品行业平行数据集构建的方法，所述数据集构建的方法基于某一产品生产过程的影响因素数据与其产量和质量数据；从历史的数据样本中得到与目标数据类似的平行样本数据，再利用平行样本数据做工艺设计和数据分析；

所述数据集构建的方法包括以下步骤：

步骤一，数据宽表化，将采集到的数据进行整合，形成包含最终结果好坏程度的标识位、影响该标识的多个指标组成的向量数据，以及可以索引该向量数据的全局唯一ID；这些数据的整体记为宽表集Ω，共有h条；

步骤二，按照产品希望得到的结果，确定标识位的范围；在数据宽表集Ω中，根据标识位的范围，将标识位在范围阈值内的数据的全部列选取出来，形成符合实验结果的数据集B，B为m条；

步骤三，需要对比分析的变量为X₁，对应的对比值为s，在整体数据宽表集Ω中除B数据集以外的部分，挑选数据集B的对比分析参考数据集D，数据集D中数据的X₁变量的值在s附近，数据集D包括p条；使用增量奇异值分解法，在参考数据集D中挑选除变量X1以外的变量和数据集B中对应的变量值接近的部分，形成平行数据集C，数据集C为q条。

进一步的，所述步骤一具体为：

步骤1.1，采集不同渠道获得的数据，存储到同一的数据库中，存储的格式按照JSON格式的的键值对方式{″a″:1,″b″:[1,2,3],″c″:{″d″:2}}；

步骤1.2，将实验结果和该实验结果所关联的所有中间控制和依赖数据都放在一条横式的数据中，形成的向量数据包含最终结果好坏程度的标识位y、影响该标识的多个指标x_i，以及该条数据的一个全局唯一ID字段u；该宽表数据可以记为z＝(u，x₁，x₂，...，x_n，y)，宽表数据逐行排列，组成的集合为

显然Ω为1个矩阵；

步骤1.3，对宽表数据做中心化和正则化。

进一步的，所述步骤二具体为：

步骤2.1，假设对比变量为第1个，即为X₁，设α_j＝(x_j2，x_j3，...，x_jn)，α_j可以理解为

除了被调节的自变量以外的自变量，设z_j＝(x_j1，α_j，y_j)，z_j就代表第j条宽表数据，则全部数据集合

步骤2.2，设定B＝{z_j|y_j∈{符合实验结果的}}，集合B为整体数据集Ω内能够产生符合实验结果的所有数据；约定A＝{α_j|z_j＝(x_j1，α_j，y_j)∈B}，集合A为所有符合实验结果的、被调节自变量以外的自变量组成的集合。

进一步的，所述步骤三具体为：

步骤3.1，对集合矩阵A做奇异值分解A＝U∑V^T，

其中U∈R^m×r，∑∈R^r×r，V^T∈R^r×n，U^TU＝V^TV＝E∈R^r×r，r为矩阵A的秩，U代表AA^T的列向量组成的方阵对应的特征向量组成的特征空间，V代表A^TA的行向量组成的方阵对应的特征向量组成的特征空间；

整个变化的原理是，把矩阵A看作由旋转V^T，修改维度拉伸∑，再旋转U三个步骤组成。奇异值分解后，基础矩阵就被分为3个组成部分，对于整个矩阵的变化就被拆解为3个组成部分的变化，从而降低了分析的难度，各部分的分解也有了明确的几何意义。

步骤3.2，设对比参考集合D＝{α_j|(x_j1，α_j，y_j)∈(Ω-B)且x_j1∈(s-σ，s+σ)}，集合D有p条，为整体集合中结果不符合实验结果，且对比值在s附近的数据组成的集合；在集合D中通过使用增量奇异值分解法，选取出其余自变量和集合B中对应自变量接近的数据集合C；

在集合D中逐条取出向量α，将α依次增加到原始数据矩阵中，从而保证了线性的计算复杂度，对于内存的要求也降低了，令

步骤3.3，对A′做增量奇异值分解

矩阵中L，K，J都是需要计算的值：

上式表示新增的向量α在行向量组成的方阵对应的特征空间基(v_1，v₂，...，v_n)上的坐标；

上式表示新增的向量α在行向量组成的方阵对应的特征空间超平面上的投影向量；

H＝α-LV^T＝α-αVV^T＝α(I-VV^T)

上式表示新增的向量α垂直于特征空间超平面部分的向量；

对H做QR分解，得到：

K＝||α(I-VV^T)||，J＝α(I-VV^T)/K，H＝KJ。

显然

所以

是正交矩阵

步骤3.4，令

对Q做对角化，

得到Q＝U″Σ′V″^T，再令U″′＝U′U″V″′^T＝(V′V″)^T，得到A′＝U″′Σ′V″′^T，此时，A′的维度是(m+1)×n，而Q的维度＝rank(A′)<<min(m+1,n)，由于只要对内部的矩阵Q做对角化，而Q的维度比原始的矩阵A的维度低了很多，所以计算非常迅速；

步骤3.5，如此循环，直到D集合中的α_j全部取出计算完毕为止；

步骤3.6，设最终的矩阵为

对于/>

的对角矩阵，设它的秩/>

取前N个最大的对角值，显然N<<R，其余对角值设为0，得到对角矩阵/>

则/>

由

的前N列组成，计算/>

则F为p×N矩阵，所组成的向量全部为N维的，即将原来为n个属性数据集降维为N维；

步骤3.7，在矩阵F的p条数据中，有m条是和集合B对应的符合实验结果的数据，在剩余的集合D的(p-m)条数据中，需要分辨是否属于平行数据集C；计算的方法如下：

计算和集合B对应的m条数据的重心

计算剩余的集合D对应的(p-m)条数据的重心

对于任意一条数据d∈D，计算距离比

设定阈值为1，定义集合

作为一种优选，所述数据集构建的方法还包括步骤四，统计所述数据集合C中标识位的指标，估计平行试验结果的概率分布。

本发明与现有技术相比较，本发明的实施效果如下：

1.建立宽表数据集，将所有相关实验的过程参数，都整合到一张矩阵表中，这样就对纷繁复杂的数据结构按照结果做了整理，方便利用数据挖掘算法进行计算。

2.将初始数据做奇异值分解，然后逐批次的进行增量奇异值分解，这样避免了进行大规模矩阵旋转和拉伸的计算，有效的控制了计算量。

3.利用对角矩阵上前N个较大特征值作为代表，可以实现数据的降维和噪音过滤，而且保证了矩阵的主要特征不发生变化。从整体来看，本方法可以在不做新的对比实验的前提下，就可以把类似的对比实验的数据寻找出来，而且对于缺失数据和新增保持一定的鲁棒性。

附图说明

图1为数据流向示意图；

图2为增量奇异值分解原理图；

图3为数据结构计算图。

具体实施方式

下面结合附图和具体实例对本发明做更进一步的解释：

本发明提供一种使用增量奇异值分解法进行产品行业平行数据集构建的方法，所述数据集构建的方法基于某一产品生产过程的影响因素数据与其产量和质量数据；从历史的数据样本中得到与目标数据类似的平行样本数据，再利用平行样本数据做工艺设计和数据分析。这就大大减少了迭代运算的周期，对于迅速找到收敛的工艺参数，具有非常大的帮助。

该数据集构建的方法包括以下步骤：

进一步的，所述步骤一具体为：

步骤1.2，将实验结果和该实验结果所关联的所有中间控制和依赖数据都放在一条横式的数据中，形成的向量数据包含最终结果好坏程度的标识位y、影响该标识的多个指标x_i，以及该条数据的一个全局唯一ID字段u；该宽表数据可以记为z＝(u，x₁x₂，...，x_n，y），宽表数据逐行排列，组成的集合为

显然Ω为1个矩阵；

步骤1.3，对宽表数据做中心化和正则化。

进一步的，所述步骤二具体为：

进一步的，所述步骤三具体为：

步骤3.1，对集合矩阵A做奇异值分解A＝U∑V^T，

步骤3.3，对A′做增量奇异值分解

矩阵中L，K，J都是需要计算的值：

上式表示新增的向量α在行向量组成的方阵对应的特征空间基(v₁，v₂，...，v_n)上的坐标；

H＝α-LV^T＝α-αVV^T＝α(I-VV^T)

上式表示新增的向量α垂直于特征空间超平面部分的向量；

对H做QR分解，得到：

K＝||α(I-VV^T)||，J＝α(I-VV^T)/K，H＝KJ。

显然

所以

是正交矩阵

步骤3.4，令

对Q做对角化，

得到Q＝U″Σ′V″^T，再令U″′＝U′U″，V″′^T＝(V′V″)^T，得到A′＝U″′Σ′V″′^T，此时，A′的维度是(m+1)×n，而Q的维度＝rank(A′)<<min(m+1,n)，由于只要对内部的矩阵Q做对角化，而Q的维度比原始的矩阵A的维度低了很多，所以计算非常迅速；

步骤3.6，设最终的矩阵为

对于/>

的对角矩阵，设它的秩/>

则/>

由/>

的前N列组成，计算/>

计算和集合B对应的m条数据的重心

计算剩余的集合D对应的(p-m)条数据的重心

对于任意一条数据d∈D，计算距离比

设定阈值，定义集合

该方法利用增量奇异值分解法，可以对在库的海量数据进行数据降维和主成分分析，这种分析可以过滤掉在数据采集时由于随机因素引起的数据扰动，并且通过左奇异矩阵U和右奇异矩阵来控制导入数据的维度和样本数。同时，算法基于的是分批次的更新方式，整个计算的复杂度较低。

本发明以农产品葡萄以及葡萄酒的制备工艺作为分析案例详细介绍本发明是如何实现的，但本发明的应用并不限于农产品，还可用于其他产业的数据分析。

实施例1

在葡萄的种植过程中，某年度的降水量偏大而、气温偏低并且有病虫害危险，希望修改水肥的灌溉方法，但是不知道如何调节可以保证产量和质量的最优。

步骤一：建立横表数据，将以往年份的逐日降水量、水肥灌溉、病虫害影响、水肥灌溉方法和当年的葡萄的产量和质量数据关联起来，形成一张宽表数据Ω。

步骤二：在宽表数据集Ω中捞取正常年份的产量和质量对应的宽表数据集B。

步骤三：假设正常年份的水肥指标为x，分别按照假设1.5x，2x，0.8x三个水肥指标，在数据集Ω中除B以外的部分捞取平行数据候选集D1，D2，D3；

假设宽表数据集B有100个属性，将B对应的矩阵做奇异值分解，然后逐条取出D1中的数据，加入到B对应的矩阵中，做增量奇异值分解。

在D1中全部数据都加入完毕之后，再对矩阵做主成分分析，得到经过降维的和旋转映射的结果矩阵F，F降低为5维指标。

分别计算矩阵F中属于集合B的质心和属于数据集D1的质心，然后在数据集D1中挑选距离接近B的质心的数据，作为平行数据集C1。

步骤四：统计C1对应的葡萄产量和质量的统计分布，作为水肥策略1.5x的预期结果。

步骤五：按照D1的计算方式，同样的计算D2和D3的数据集，从而可以分别得到水肥策略2x和0.5x对应的预期结果。

步骤六：在1.5x，2x和0.5x的结果中选择一个最优，作为本季度的葡萄种植水肥策略。

实施例2

在葡萄酒的酿造过程中，工艺工程师想提高一种酶的添加量，但是不知道这样做会不会影响最终的葡萄酒的质量。

步骤一：建立横表数据，将以往生产批次的温度、湿度、酶的添加量、发酵时间、葡萄汁的酸度、甜度等指标和生产出来的葡萄酒的颜色、口味、酒精度等质量数据关联起来，形成一张宽表数据Ω。

步骤二：在宽表数据集Ω中捞取目前工艺结果对应的宽表数据集B。

步骤三：假设目前工业结果对应的酶指标为x，分别按照假设增加后的酶指标为2x，，在数据集Ω中除B以外的部分捞取平行数据候选集D；

假设宽表数据集B有200个属性，将B对应的矩阵做奇异值分解，然后逐条取出D中的数据，加入到B对应的矩阵中，做增量奇异值分解。

在D中全部数据都加入完毕之后，再对矩阵做主成分分析，得到经过降维的和旋转映射的结果矩阵F，F降低为10维指标。

分别计算矩阵F中属于集合B中属于数据B的质心和属于数据集D的质心，然后在数据集D中挑选距离接近B的质心的数据，作为平行数据集C。

步骤四：统计C对应的葡萄酒的颜色、口味和酒精度等指标的统计分布，作为增加酶指标为2x的预期结果。

以上内容是结合具体的实施例对本发明所作的详细说明，不能认定本发明具体实施仅限于这些说明。对于本发明所属技术领域的技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明保护的范围。

Claims

1.一种使用增量奇异值分解法进行产品行业平行数据集构建的方法，其特征在于，所述数据集构建的方法基于某一产品生产过程的影响因素数据与其产量和质量数据；从历史的数据样本中得到平行样本数据，再利用平行样本数据做工艺设计和数据分析；

所述数据集构建的方法包括以下步骤：

步骤一，数据宽表化，将采集到的数据进行整合，形成包含最终结果好坏程度的标识位、影响该标识位的多个指标组成的向量数据，以及可以索引该向量数据的全局唯一ID；这些数据的整体记为数据宽表集Ω，共有h条；

步骤三，需要对比分析的变量为X₁，对应的对比值为s，在数据宽表集Ω中除B数据集以外的部分，挑选数据集B的对比分析参考数据集D，数据集D中数据的X₁变量的值在s附近，数据集D包括p条；使用增量奇异值分解法，在参考数据集D中挑选除变量X1以外的变量和数据集B中对应的变量值接近的部分，形成平行数据集C，数据集C为q条；

计算矩阵F中属于数据集B的质心和属于数据集D的质心，然后在数据集D中挑选距离接近B的质心的数据，作为平行数据集C。

2.根据权利要求1所述的一种使用增量奇异值分解法进行产品行业平行数据集构建的方法，所述步骤一具体为：

步骤1.1，采集不同渠道获得的数据，存储到同一的数据库中，存储的格式按照JSON格式的键值对方式{“a”:1,“b”:[1,2,3],“c”:{“d”:2}}；

步骤1.2，将实验结果和该实验结果所关联的所有中间控制和依赖数据都放在一条横式的数据中，形成的向量数据包含最终结果好坏程度的标识位y、影响该标识位的多个指标x_i，以及该向量数据的一个全局唯一ID字段u；宽表数据A可以记为z＝(u，x₁，x₂，...，x_n，y)，宽表数据逐行排列，组成的数据宽表集为