CN105843891A

CN105843891A - 一种增量式的在线特征提取分析方法及***

Info

Publication number: CN105843891A
Application number: CN201610165185.0A
Authority: CN
Inventors: 姜晓红; 包友军; 付钊; 李金昌
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2016-03-22
Filing date: 2016-03-22
Publication date: 2016-08-10

Abstract

本发明公开了一种增量式的在线特征提取分析方法及***，该方法和***通过将工业控制时序数据存储到数据库，原始的数据经过数据预处理得到干净的数据，特征提取模块提取特征数据存储到特征数据表，增量触发器实时监控数据库***的原始数据量，超过触发阈值，触发特征提取模块实现增量读取原始数据，并提取对应的特征，存储到特征数据表中。本发明优势在于提出了一个增量式特征提取分析的框架，增加增量触发监督程序，实现了对数据库***的监控和特征的增量提取，最终实现了特征的实时在线提取和数据的在线分析，效率高，可扩展性好。

Description

一种增量式的在线特征提取分析方法及***

技术领域

本发明属于数据分析技术领域，具体涉及一种增量式的在线特征提取分析方法及***。

背景技术

随着互联网的发展，数据积累的越来越多，我们被淹没在数据里，大数据分析和数据挖掘给人们带来了希望，数据挖掘是从数据中辨别有效的、新颖的、潜在有用的、最终可理解的模式的过程。数据挖掘中很关键的一步就是特征提取，特征提取是基于原始的粗糙数据进行适当的规约与变换，提取一个特征集来表示原始的粗糙数据，特征的好坏直接影响到数据挖掘模型的效果。

在一个工业控制过程中，工业控制参数很多。工业控制器以及其相关联的I/O设备是现代自动化***的操作的中心，这些控制器与工厂底层的现场设备进行交互以控制与如下目标有关的自动化过程：该目标例如为产品制造、材料处理、批量处理、监控以及其他这样的应用。工业控制器存储并执行用户定义的控制程序以结合受控的过程来实现决策制定，这样的程序可以包括但不限于梯形逻辑、顺序功能图、功能框图、结构化文本或其他这样的编程结构。一般地，工业控制器从提供与受控***的一个或更多个状态有关的谨慎和遥测数据的传感器和测量设备读取输入数据，并基于这些输入根据用户定义的程序来生成的控制输出。

工业控制产生的数据存放在关系型数据库***中，数据是时序性的实时变化和增加的，面对这样环境下的数据分析，找到一个合理的特征提取方法尤为关键。在时序数据的特征提取过程中，数据随着时间而变化，传统的方法是每次进行数据分析时，统一从数据库读取所有的数据然后提取特征，这样的方法时间开销大，性能差，而且提取的特征结构不清晰，***的可扩展性差。

发明内容

针对现有技术所存在的上述技术问题，本发明提供了一种增量式的在线特征提取分析方法及***，通过增量触发监督程序实现特征的实时在线提取和数据的在线分析，效率高，可扩展性好。

一种增量式的在线特征提取分析方法，包括：

首先，利用数据库存储大量的原始时序数据；然后，读取数据库中的原始时序数据依次进行预处理和特征提取，最后，基于提取得到的特征信息进行数据分析；

但当数据库中的原始时序数据量超过触发阈值后，则不再一次性从数据库中读取所有的原始时序数据依次进行预处理、特征提取以及数据分析的操作；而是直接从数据库中读取一张增量的数据库表，并依次进行预处理、特征提取以及数据分析的操作，所述增量的数据库表只存储数据库新增的原始时序数据。

所述的数据库包含有多张数据库表，所述的数据库表用于存储原始时序数据。所述的原始时序数据采用与工业控制相关的原始时序数据。

所述的预处理过程包括缺失值处理、数据采集频率过滤以及数据错误检测三部分。

所述数据采集频率过滤的标准为：当原始时序数据的真实采集频率大于等于预设的频率阈值的话，则接受该原始时序数据，否则剔除该原始时序数据。

对所述的原始时序数据进行预处理后，得到完整正确的时序数据，进而对预处理后得到的时序数据进行特征提取，并将提取得到的特征信息存储至特征数据表中。

所述的特征提取过程采用提取时序数据的平均值、方差、时间和斜率作为时序数据的特征信息。

一种增量式的在线特征提取分析***，包括：

数据库模块，用于存储大量的原始时序数据；

预处理模块，用于对数据库模块中的原始时序数据进行预处理，得到完整正确的时序数据；

特征提取模块，用于对预处理后得到的时序数据进行特征提取，以得到时序数据的特征信息；

数据分析模块，基于所述的特征信息进行数据分析；

增量触发器，用于监控所述数据库模块中的原始时序数据量，当数据库模块中的原始时序数据量超过触发阈值，则触发预处理模块、特征提取模块和数据分析模块直接从数据库模块中读取一张增量的数据库表，并依次进行预处理、特征提取以及数据分析的操作，所述增量的数据库表只存储数据库新增的原始时序数据。

由上述的增量式在线特征提取分析方法及***的流程可以看出，现有的特征提取方法大多数采用一次性读取数据库***中所有数据方法，效率和性能低下，可扩展性差。本发明采用了以上技术方案，具有显著的技术效果：

(1)本发明首先在数据***中建立数据特征表，存储数据特征数据，实现实时地在线和离线数据分析。

(2)本发明利用增量触发监督程序，实现了对数据库***的监控和特征的增量提取，最终实现了特征的实时在线提取和数据的在线分析，效率高，可扩展性好。

附图说明

图1为本发明增量式在线特征提取分析方法实现的***架构示意图。

图2为关于升温上部温度的预处理后时序数据的曲线示意图。

图3为关于升温蒸汽压力的预处理后时序数据的曲线示意图。

具体实施方式

为了更为具体地描述本发明，下面结合附图及具体实施方式对本发明的技术方案进行详细说明。

实施例1

本发明增量式在线特征提取分析方法实现的***架构如图1所示，包括以下具体的步骤：

(1)本发明的增量式的在线特征提取方法首先建立数据库***模块，数据库***模块主要存储工业控制相关的原始时序数据，数据库***模块同时提供与其他模块之间的数据连接查询；数据库***模块包括多张数据库表，数据库表主要存储时序数据，数据的存储结构繁杂。

(2)数据预处理模块将步骤(1)中原始时序数据集进行数据预处理，原始的时序数据是不完整的、有噪音的，因此数据预处理模块可以处理这些粗糙数据，并且最终得到完整正确的时序数据。

数据预处理模块包括缺失值处理、数据样本的采集频率过滤和数据错误检测三个部分。数据样本的采集频率过滤主要是针对时序数据，尤其是工业控制的时序数据，过滤公式如下：

其中：F_real表示数据的真实采集频率，C表示数据的频率阈值，C采取所有数据的90％分割点。

(3)特征提取模块采用时序数据的特征提取方法提取步骤(2)中的时序数据的特征，并且在数据库***中建立对应的特征数据表，将特征数据存储到特征数据表中；对于时序数据，一般采取平均值、方差、时间和斜率作为初始特征参考，具体的特征值计算如下：

M e a n = Σ_{i = 1}^{T} V_{i} / T

其中：V_i表示第i个时间采集点的值，T表示时间采集频度，其中斜率特征本实施方式采用一次函数拟合时序数据曲线，并获取其斜率作为数据的特征。

(4)采用增量触发器，该触发器主要监控数据库***模块中的时序数据，具体采用检测程序实现，实时监控数据库***的数据，一旦时序数据到达了触发的阈值，触发器会触发特征提取模块，从而增量地从数据库***模块中抽取数据，数据预处理，最后提取特征，增量写入到特征数据表。

(5)数据分析模块，读取特征数据，根据分析需求，建立对应的数据分析模型。但数据分析模块的数据源有两种，一种是传统的一次获取方式，整个特征数据一次性全部从原始数据库读出，预处理到特征提取；另外一种是直接从增量的数据库表中读出，只需要读取一张数据库表。

实施例2

(1)本实施例选择某种药品的生产的时序数据作为原始数据，建立对应的数据库***。

(2)对原始的数据进行预处理，预处理主要剔除错误值、空值和采集频率较低的值，预处理后的值可视化如图2和图3所示，对应药品生产提炼过程中升温上部温度和升温蒸汽压力的数据信号。

(3)特征提取针对时序数据，基准的特征为：平均值、方差和时间的长度，将提取到的特征数据存储到特征数据表中。

(4)增量触发器的触发阈值设为1000，也就是当数据库***模块对应的数据量增加到1000时，触发一次特征提取操作，增量式地提取特征，写入到特征数据表中，特征数据表的结构如表1所示：

表1

列名	数据类型	长度
			ID	NUMBER	0
BATCH_NUMBER	VARchar2	20
			DEVICE_CODE	VARchar2	20
MEAN_PRESSURE	FLOAT	126
			WARM_TIME	NUMBER	0
RSD_PRE	FLOAT	126
			GREEN_ACID	FLOAT	126
TOTAL_ACID	FLOAT	126
			CONTENT	FLOAT	126
MEAN_TEMP_UP	FLOAT	126
			RSD_TEMP_UP	FLOAT	126
TEMP_UP_TIME	NUMBER	0
			MEAN_TEMP_DOWN	FLOAT	126
RSD_TEMP_DOWN	FLOAT	126
			TEMP_DOWN_TIME	NUMBER	0
PARA_TYPE	VARchar2	20
			PARA_VALUE	FLOAT	126
PRODUCT_NAME	VARchar2	40
			PROCESS_NAME	VARchar2	40

(5)数据分析模块基于以上特征数据表，进行数据分析的模型建立，可以做分类、聚类和相关性分析的工作。

上述的对实施例的描述是为便于本技术领域的普通技术人员能理解和应用本发明。熟悉本领域技术的人员显然可以容易地对上述实施例做出各种修改，并把在此说明的一般原理应用到其他实施例中而不必经过创造性的劳动。因此，本发明不限于上述实施例，本领域技术人员根据本发明的揭示，对于本发明做出的改进和修改都应该在本发明的保护范围之内。

Claims

1.一种增量式的在线特征提取分析方法，其特征在于：

2.根据权利要求1所述的在线特征提取分析方法，其特征在于：所述的数据库包含有多张数据库表，所述的数据库表用于存储原始时序数据。

3.根据权利要求1所述的在线特征提取分析方法，其特征在于：所述的原始时序数据采用与工业控制相关的原始时序数据。

4.根据权利要求1所述的在线特征提取分析方法，其特征在于：所述的预处理过程包括缺失值处理、数据采集频率过滤以及数据错误检测三部分。

5.根据权利要求4所述的在线特征提取分析方法，其特征在于：所述数据采集频率过滤的标准为：当原始时序数据的真实采集频率大于等于预设的频率阈值的话，则接受该原始时序数据，否则剔除该原始时序数据。

6.根据权利要求1所述的在线特征提取分析方法，其特征在于：对所述的原始时序数据进行预处理后，得到完整正确的时序数据，进而对预处理后得到的时序数据进行特征提取，并将提取得到的特征信息存储至特征数据表中。

7.根据权利要求1所述的在线特征提取分析方法，其特征在于：所述的特征提取过程采用提取时序数据的平均值、方差、时间和斜率作为时序数据的特征信息。

8.一种增量式的在线特征提取分析***，其特征在于，包括：

数据库模块，用于存储大量的原始时序数据；

数据分析模块，基于所述的特征信息进行数据分析；