CN110097133A

CN110097133A - 一种用于盾构机大数据的预处理方法

Info

Publication number: CN110097133A
Application number: CN201910382947.6A
Authority: CN
Inventors: 牟松; 屈鸿; 段文军; 章龙管; 刘绥美; 冯赟杰; 酆忠良; 白江涛; 焦俊奇; 周生喜; 张中华; 路桂珍; 李恒; 周元毅; 龚晓林
Original assignee: University of Electronic Science and Technology of China; China Railway Engineering Service Co Ltd
Current assignee: University of Electronic Science and Technology of China; China Railway Engineering Service Co Ltd
Priority date: 2019-05-09
Filing date: 2019-05-09
Publication date: 2019-08-06

Abstract

本发明公开了一种用于盾构机大数据的预处理方法。本发明的方法分为数据分析、数据处理两个阶段。数据分析阶段对原始数据进行了数据降维、相关性分析与特征提取，并对提取特征的数据做了全面解析。数据处理阶段主要是对上述处理后的数据进行数据平滑操作。经过上述处理后，将会去除原始数据中不完整、不一致的边缘数据，提取出相关性较高的特征，从而提高数据质量和模型对数据的利用率。

Description

一种用于盾构机大数据的预处理方法

技术领域

本发明涉及一种用于盾构机大数据的预处理方法。

背景技术

盾构机全名叫盾构隧道掘进机，是一种隧道掘进的专用工程机械，具有开挖切削土体、输送土碴、拼装隧道衬砌、同步注浆、测量导向纠偏等功能。盾构机运行过程中需要设置各种参数，而参数设置的好坏能够直接影响盾构机的掘进速度。因此选用合适的方法来精准而有效地预测掘进参数，具有重要的现实意义。

随着机器学习、深度学习技术的发展，基于真实数据的参数设置方法逐渐受到青睐。周纯择等使用BP神经网络建模，对各掘进参数进行了预测。丁保军等创造性的采用动态贝叶斯网络(DBN)来实现掘进参数优化，因此从理论上建立了地表沉降与各掘进参数之间的联系。神经网络因其优秀的自学习和自适应能力、泛化能力、容错能力而得到广泛应用。通过将神经网络技术与隧道工程相结合，促进了隧道施工智能化方向的发展。

然而上述研究还存在一个共同的问题，它们更偏向于模型优化，而对重要的原始数据的处理过于简单，缺乏理论性和***性。通常原始数据具有易缺失性、不一致性，很难直接满足模型设计的需要。因此，数据预处理是重要的、必不可少的。

现阶段数据预处理技术中研究最多的是数据清洗和数据归约技术，下面将国内外有关这两方面技术的研究现状做如下概述：

国外对数据清洗技术的研究，最早出现在美国，是从对全美的社会保险号错误的纠正开始的。美国信息业和商业的发展，刺激了这方面技术的研究。研究内容主要涉及以下几方面：

1.对数据集进行异常检测。主要有下列方法：采用统计学的方法来检测数值型属性，计算属性值的均值和标准差，考虑每一个属性的置信区间来识别异常属性和记录。

2.识别并消除数据集中的近似重复对象，也就是重复记录的清洗。它在数据仓库环境下特别重要，因为在集成不同的数据时会产生大量的重复记录。

3.对缺失数据的清洗，研究者大多采用最近似的值替换缺失值的方法，包括贝叶斯网络、神经网络、k-最临近分类、粗集理论等，这些方法大都需要判断缺失记录与完整记录之间的记录相似度，这是其核心问题。

目前国内对数据清洗技术的研究，还处在一个开始阶段。尽管在一些学术期刊及学术会议上也能见到一些有关这方面的理论性文章，但直接针对数据清洗的论文并不多。银行、保险和证券等对客户数据的准确性要求很高的行业，都在做自己的客户数据的清洗工作，针对自己的具体应用开发软件，且很少有理论性的文章公布出来。

综上所述，盾构机数据集是实际采集而来的，其中的数据数量多，种类复杂，噪声大，存在缺失，在使用之前需要进行数据预处理。而目前对盾构机数据集的数据预处理缺乏一套标准的流程。

发明内容

本发明的目的是，针对现有数据处理方法的不足之处提供了一种基于盾构大数据的预处理方法，该方法分为数据分析、数据处理两个阶段。数据分析阶段对原始数据进行了数据降维、相关性分析与特征提取，并对提取特征的数据做了全面解析。数据处理阶段主要是对上述处理后的数据进行数据平滑操作。经过上述处理后，将会去除原始数据中不完整、不一致的边缘数据，提取出相关性较高的特征，从而提高数据质量和模型对数据的利用率。

本发明的技术方案为：

一种基于盾构机大数据的预处理方法，包括以下步骤：

步骤1:对初始数据进行初步清理，删去部分关键值为零的干扰数据，和一些明显传感器异常导致值超出正常范围区间的偏离数据；

步骤2：对步骤1得到的数据集进行特征分析

步骤2a：主成分分析

采用主成分分析方法(PCA)进行数据降维。将步骤1得到的数据按列组成n行m列矩阵X，将X的每一行(代表一个属性字段)进行零均值化，即减去这一行的均值，求出协方差矩阵。再求出协方差矩阵的特征值及对应的特征向量，然后将特征向量按对应特征值大小从上到下按行排列成矩阵，取前k行组成矩阵P，Y＝PX即为降维到k维后的数据；

步骤2b：利用步骤2a得到的数据进行皮尔森相关系数分析并选取相关系数高的特征；

步骤3：数据平滑处理

步骤3a：插值平滑

在相邻的两个观测锚点之间***由这两个相邻锚点的均值所组成的虚拟观测锚点以寻求在两次测量的中间值；

步骤3b：卷积平滑

选取步骤2b中的特征数据，分别使用两种不同卷积核对数据进行卷积平滑操作；卷积平滑操作其目的在于在在平滑两组数据的同时尽可能减小由于平滑操作所带来的信息丢失。卷积平滑操作后可以得到去掉部分噪声的数据更有利于模型的训练。

与现有技术相比，本发明的优点在于：

一、提出了一套***合理的数据预处理流程，避免了使用单一数据处理方法导致的偶然性；

二、使用主成分分析方法并进行皮尔森相关系数分析选取了原始数据中最具代表性的特征，使用插值平滑、卷积平滑进行数据平滑操作减少了数据突然波动对训练网络的影响，进一步提高了模型的准确率；

三、步骤清晰明了，数据处理操作较为容易，有效提高了预测模型的训练效果及参数预测的准确性。

附图说明

图1初步处理后的部分数据；

图2为本发明主成分分析后效果图；

图3为本发明插值平滑效果图；

图4为本发明条形卷积平滑效果图；

图5为本发明帐篷卷积平滑效果图；

图6为本发明数据平滑流程图。

具体实施方式

下面结合附图详细描述明本发明的技术方案。

本发明的方法主要包括：

(1)对初始数据进行初步清理，删去部分关键值为零的干扰数据，和一些明显传感器异常导致值超出正常范围区间的偏离数据。处理后的数据如图1。

(2)采用主成分分析方法(PCA)进行数据降维。将步骤1得到的数据按列组成n行m列矩阵X，将X的每一行(代表一个属性字段)进行零均值化，即减去这一行的均值，求出协方差矩阵。具体公式如下：

再求出协方差矩阵的特征值及对应的特征向量，然后将特征向量按对应特征值大小从上到下按行排列成矩阵，取前k行组成矩阵P，Y＝PX即为降维到k维后的数据，得到的结果如图2。

(3)利用步骤2得到的数据进行皮尔森相关系数分析并选取相关系数高的特征。

(4)采取插值法对已有的数据进行扩充，其做法是在相邻两个观测锚点之间***由这两个相邻锚点的均值所组成的虚拟观测锚点以寻求在两次测量的中间值，插值处理后的数据见图3所示。

(5)然后，将步骤4处理的数据进行卷积平滑操作，其公式如下所示：

其中，a[n]与v[n]是进行卷积的两个变量序列，a[n]*v[n]＝(a*v)[n]，n是序列的维度，

m是积分求和的第m项。分别取两种不同的卷积核进行测试，第一种卷积核为条形卷积核，对临近的k个数有着相同的卷积因子，使用该卷积核处理后的结果如图4所示。第二种采用帐篷卷积核，其特性为从k/2处权重逐渐减小，经过此卷积操作后的结果如图5所示，整体平滑处理过程如图6所示。

Claims

1.一种用于盾构机大数据的预处理方法，所述盾构机大数据是指盾构机运行过程中采集的海量数据，将其定义为初始数据，其特征在于，包括以下步骤：

S1、对初始数据进行初步清理，包括：

以关键值为指标，将关键值为零的数据定义为干扰数据；

定义数据取值区间，将超出取值区间的数据定义为偏离数据；

删除干扰数据和偏离数据；

S2、对步骤S1获得的数据集进行特征分析，包括：

S21、主成分分析

采用主成分分析方法进行数据降维：将步骤S1得到的数据按列组成n行m列矩阵X，将X的每一行进行零均值化，即减去这一行的均值，求出协方差矩阵；再求出协方差矩阵的特征值及对应的特征向量，然后将特征向量按对应特征值大小从上到下按行排列成矩阵，取前k行组成矩阵P，Y＝PX即为降维到k维后的数据；

S22、利用步骤S21得到的数据进行皮尔森相关系数分析并选取相关系数高的特征获得特征数据；

S3、对特征数据进行平滑处理，包括：

S31、插值平滑

在相邻的两个观测锚点之间***由这两个相邻锚点的均值所组成的虚拟观测锚点以寻求在两次测量的中间值，通过插值平滑实现对数据的扩充；

S32、卷积平滑

选取步骤S31处理后的数据，使用卷积核对数据进行卷积平滑操作，卷积平滑操作用于在平滑两组数据的同时尽可能减小由于平滑操作所带来的信息丢失，卷积平滑操作后得到预处理后的数据。