CN105843891A - 一种增量式的在线特征提取分析方法及*** - Google Patents
一种增量式的在线特征提取分析方法及*** Download PDFInfo
- Publication number
- CN105843891A CN105843891A CN201610165185.0A CN201610165185A CN105843891A CN 105843891 A CN105843891 A CN 105843891A CN 201610165185 A CN201610165185 A CN 201610165185A CN 105843891 A CN105843891 A CN 105843891A
- Authority
- CN
- China
- Prior art keywords
- data
- extraction
- feature
- time series
- original temporal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Fuzzy Systems (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种增量式的在线特征提取分析方法及***,该方法和***通过将工业控制时序数据存储到数据库,原始的数据经过数据预处理得到干净的数据,特征提取模块提取特征数据存储到特征数据表,增量触发器实时监控数据库***的原始数据量,超过触发阈值,触发特征提取模块实现增量读取原始数据,并提取对应的特征,存储到特征数据表中。本发明优势在于提出了一个增量式特征提取分析的框架,增加增量触发监督程序,实现了对数据库***的监控和特征的增量提取,最终实现了特征的实时在线提取和数据的在线分析,效率高,可扩展性好。
Description
技术领域
本发明属于数据分析技术领域,具体涉及一种增量式的在线特征提取分析方法及***。
背景技术
随着互联网的发展,数据积累的越来越多,我们被淹没在数据里,大数据分析和数据挖掘给人们带来了希望,数据挖掘是从数据中辨别有效的、新颖的、潜在有用的、最终可理解的模式的过程。数据挖掘中很关键的一步就是特征提取,特征提取是基于原始的粗糙数据进行适当的规约与变换,提取一个特征集来表示原始的粗糙数据,特征的好坏直接影响到数据挖掘模型的效果。
在一个工业控制过程中,工业控制参数很多。工业控制器以及其相关联的I/O设备是现代自动化***的操作的中心,这些控制器与工厂底层的现场设备进行交互以控制与如下目标有关的自动化过程:该目标例如为产品制造、材料处理、批量处理、监控以及其他这样的应用。工业控制器存储并执行用户定义的控制程序以结合受控的过程来实现决策制定,这样的程序可以包括但不限于梯形逻辑、顺序功能图、功能框图、结构化文本或其他这样的编程结构。一般地,工业控制器从提供与受控***的一个或更多个状态有关的谨慎和遥测数据的传感器和测量设备读取输入数据,并基于这些输入根据用户定义的程序来生成的控制输出。
工业控制产生的数据存放在关系型数据库***中,数据是时序性的实时变化和增加的,面对这样环境下的数据分析,找到一个合理的特征提取方法尤为关键。在时序数据的特征提取过程中,数据随着时间而变化,传统的方法是每次进行数据分析时,统一从数据库读取所有的数据然后提取特征,这样的方法时间开销大,性能差,而且提取的特征结构不清晰,***的可扩展性差。
发明内容
针对现有技术所存在的上述技术问题,本发明提供了一种增量式的在线特征提取分析方法及***,通过增量触发监督程序实现特征的实时在线提取和数据的在线分析,效率高,可扩展性好。
一种增量式的在线特征提取分析方法,包括:
首先,利用数据库存储大量的原始时序数据;然后,读取数据库中的原始时序数据依次进行预处理和特征提取,最后,基于提取得到的特征信息进行数据分析;
但当数据库中的原始时序数据量超过触发阈值后,则不再一次性从数据库中读取所有的原始时序数据依次进行预处理、特征提取以及数据分析的操作;而是直接从数据库中读取一张增量的数据库表,并依次进行预处理、特征提取以及数据分析的操作,所述增量的数据库表只存储数据库新增的原始时序数据。
所述的数据库包含有多张数据库表,所述的数据库表用于存储原始时序数据。所述的原始时序数据采用与工业控制相关的原始时序数据。
所述的预处理过程包括缺失值处理、数据采集频率过滤以及数据错误检测三部分。
所述数据采集频率过滤的标准为:当原始时序数据的真实采集频率大于等于预设的频率阈值的话,则接受该原始时序数据,否则剔除该原始时序数据。
对所述的原始时序数据进行预处理后,得到完整正确的时序数据,进而对预处理后得到的时序数据进行特征提取,并将提取得到的特征信息存储至特征数据表中。
所述的特征提取过程采用提取时序数据的平均值、方差、时间和斜率作为时序数据的特征信息。
一种增量式的在线特征提取分析***,包括:
数据库模块,用于存储大量的原始时序数据;
预处理模块,用于对数据库模块中的原始时序数据进行预处理,得到完整正确的时序数据;
特征提取模块,用于对预处理后得到的时序数据进行特征提取,以得到时序数据的特征信息;
数据分析模块,基于所述的特征信息进行数据分析;
增量触发器,用于监控所述数据库模块中的原始时序数据量,当数据库模块中的原始时序数据量超过触发阈值,则触发预处理模块、特征提取模块和数据分析模块直接从数据库模块中读取一张增量的数据库表,并依次进行预处理、特征提取以及数据分析的操作,所述增量的数据库表只存储数据库新增的原始时序数据。
由上述的增量式在线特征提取分析方法及***的流程可以看出,现有的特征提取方法大多数采用一次性读取数据库***中所有数据方法,效率和性能低下,可扩展性差。本发明采用了以上技术方案,具有显著的技术效果:
(1)本发明首先在数据***中建立数据特征表,存储数据特征数据,实现实时地在线和离线数据分析。
(2)本发明利用增量触发监督程序,实现了对数据库***的监控和特征的增量提取,最终实现了特征的实时在线提取和数据的在线分析,效率高,可扩展性好。
附图说明
图1为本发明增量式在线特征提取分析方法实现的***架构示意图。
图2为关于升温上部温度的预处理后时序数据的曲线示意图。
图3为关于升温蒸汽压力的预处理后时序数据的曲线示意图。
具体实施方式
为了更为具体地描述本发明,下面结合附图及具体实施方式对本发明的技术方案进行详细说明。
实施例1
本发明增量式在线特征提取分析方法实现的***架构如图1所示,包括以下具体的步骤:
(1)本发明的增量式的在线特征提取方法首先建立数据库***模块,数据库***模块主要存储工业控制相关的原始时序数据,数据库***模块同时提供与其他模块之间的数据连接查询;数据库***模块包括多张数据库表,数据库表主要存储时序数据,数据的存储结构繁杂。
(2)数据预处理模块将步骤(1)中原始时序数据集进行数据预处理,原始的时序数据是不完整的、有噪音的,因此数据预处理模块可以处理这些粗糙数据,并且最终得到完整正确的时序数据。
数据预处理模块包括缺失值处理、数据样本的采集频率过滤和数据错误检测三个部分。数据样本的采集频率过滤主要是针对时序数据,尤其是工业控制的时序数据,过滤公式如下:
其中:Freal表示数据的真实采集频率,C表示数据的频率阈值,C采取所有数据的90%分割点。
(3)特征提取模块采用时序数据的特征提取方法提取步骤(2)中的时序数据的特征,并且在数据库***中建立对应的特征数据表,将特征数据存储到特征数据表中;对于时序数据,一般采取平均值、方差、时间和斜率作为初始特征参考,具体的特征值计算如下:
其中:Vi表示第i个时间采集点的值,T表示时间采集频度,其中斜率特征本实施方式采用一次函数拟合时序数据曲线,并获取其斜率作为数据的特征。
(4)采用增量触发器,该触发器主要监控数据库***模块中的时序数据,具体采用检测程序实现,实时监控数据库***的数据,一旦时序数据到达了触发的阈值,触发器会触发特征提取模块,从而增量地从数据库***模块中抽取数据,数据预处理,最后提取特征,增量写入到特征数据表。
(5)数据分析模块,读取特征数据,根据分析需求,建立对应的数据分析模型。但数据分析模块的数据源有两种,一种是传统的一次获取方式,整个特征数据一次性全部从原始数据库读出,预处理到特征提取;另外一种是直接从增量的数据库表中读出,只需要读取一张数据库表。
实施例2
(1)本实施例选择某种药品的生产的时序数据作为原始数据,建立对应的数据库***。
(2)对原始的数据进行预处理,预处理主要剔除错误值、空值和采集频率较低的值,预处理后的值可视化如图2和图3所示,对应药品生产提炼过程中升温上部温度和升温蒸汽压力的数据信号。
(3)特征提取针对时序数据,基准的特征为:平均值、方差和时间的长度,将提取到的特征数据存储到特征数据表中。
(4)增量触发器的触发阈值设为1000,也就是当数据库***模块对应的数据量增加到1000时,触发一次特征提取操作,增量式地提取特征,写入到特征数据表中,特征数据表的结构如表1所示:
表1
列名 | 数据类型 | 长度 |
ID | NUMBER | 0 |
BATCH_NUMBER | VARchar2 | 20 |
DEVICE_CODE | VARchar2 | 20 |
MEAN_PRESSURE | FLOAT | 126 |
WARM_TIME | NUMBER | 0 |
RSD_PRE | FLOAT | 126 |
GREEN_ACID | FLOAT | 126 |
TOTAL_ACID | FLOAT | 126 |
CONTENT | FLOAT | 126 |
MEAN_TEMP_UP | FLOAT | 126 |
RSD_TEMP_UP | FLOAT | 126 |
TEMP_UP_TIME | NUMBER | 0 |
MEAN_TEMP_DOWN | FLOAT | 126 |
RSD_TEMP_DOWN | FLOAT | 126 |
TEMP_DOWN_TIME | NUMBER | 0 |
PARA_TYPE | VARchar2 | 20 |
PARA_VALUE | FLOAT | 126 |
PRODUCT_NAME | VARchar2 | 40 |
PROCESS_NAME | VARchar2 | 40 |
(5)数据分析模块基于以上特征数据表,进行数据分析的模型建立,可以做分类、聚类和相关性分析的工作。
上述的对实施例的描述是为便于本技术领域的普通技术人员能理解和应用本发明。熟悉本领域技术的人员显然可以容易地对上述实施例做出各种修改,并把在此说明的一般原理应用到其他实施例中而不必经过创造性的劳动。因此,本发明不限于上述实施例,本领域技术人员根据本发明的揭示,对于本发明做出的改进和修改都应该在本发明的保护范围之内。
Claims (8)
1.一种增量式的在线特征提取分析方法,其特征在于:
首先,利用数据库存储大量的原始时序数据;然后,读取数据库中的原始时序数据依次进行预处理和特征提取,最后,基于提取得到的特征信息进行数据分析;
但当数据库中的原始时序数据量超过触发阈值后,则不再一次性从数据库中读取所有的原始时序数据依次进行预处理、特征提取以及数据分析的操作;而是直接从数据库中读取一张增量的数据库表,并依次进行预处理、特征提取以及数据分析的操作,所述增量的数据库表只存储数据库新增的原始时序数据。
2.根据权利要求1所述的在线特征提取分析方法,其特征在于:所述的数据库包含有多张数据库表,所述的数据库表用于存储原始时序数据。
3.根据权利要求1所述的在线特征提取分析方法,其特征在于:所述的原始时序数据采用与工业控制相关的原始时序数据。
4.根据权利要求1所述的在线特征提取分析方法,其特征在于:所述的预处理过程包括缺失值处理、数据采集频率过滤以及数据错误检测三部分。
5.根据权利要求4所述的在线特征提取分析方法,其特征在于:所述数据采集频率过滤的标准为:当原始时序数据的真实采集频率大于等于预设的频率阈值的话,则接受该原始时序数据,否则剔除该原始时序数据。
6.根据权利要求1所述的在线特征提取分析方法,其特征在于:对所述的原始时序数据进行预处理后,得到完整正确的时序数据,进而对预处理后得到的时序数据进行特征提取,并将提取得到的特征信息存储至特征数据表中。
7.根据权利要求1所述的在线特征提取分析方法,其特征在于:所述的特征提取过程采用提取时序数据的平均值、方差、时间和斜率作为时序数据的特征信息。
8.一种增量式的在线特征提取分析***,其特征在于,包括:
数据库模块,用于存储大量的原始时序数据;
预处理模块,用于对数据库模块中的原始时序数据进行预处理,得到完整正确的时序数据;
特征提取模块,用于对预处理后得到的时序数据进行特征提取,以得到时序数据的特征信息;
数据分析模块,基于所述的特征信息进行数据分析;
增量触发器,用于监控所述数据库模块中的原始时序数据量,当数据库模块中的原始时序数据量超过触发阈值,则触发预处理模块、特征提取模块和数据分析模块直接从数据库模块中读取一张增量的数据库表,并依次进行预处理、特征提取以及数据分析的操作,所述增量的数据库表只存储数据库新增的原始时序数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610165185.0A CN105843891A (zh) | 2016-03-22 | 2016-03-22 | 一种增量式的在线特征提取分析方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610165185.0A CN105843891A (zh) | 2016-03-22 | 2016-03-22 | 一种增量式的在线特征提取分析方法及*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105843891A true CN105843891A (zh) | 2016-08-10 |
Family
ID=56588302
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610165185.0A Pending CN105843891A (zh) | 2016-03-22 | 2016-03-22 | 一种增量式的在线特征提取分析方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105843891A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108052599A (zh) * | 2017-12-12 | 2018-05-18 | 清华大学 | 一种支持特征查询的时序数据存储的方法和装置 |
CN108920501A (zh) * | 2018-05-25 | 2018-11-30 | 南开大学 | 一种关系表非键属性特征抽取与数据生成方法 |
CN111738848A (zh) * | 2020-05-19 | 2020-10-02 | 深圳追一科技有限公司 | 特征数据的生成方法、装置、计算机设备和存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120027290A1 (en) * | 2010-07-30 | 2012-02-02 | Qualcomm Incorporated | Object recognition using incremental feature extraction |
CN104199942A (zh) * | 2014-09-09 | 2014-12-10 | 中国科学技术大学 | 一种Hadoop平台时序数据增量计算方法及*** |
CN105243140A (zh) * | 2015-10-10 | 2016-01-13 | 中国科学院软件研究所 | 一种面向高速列车实时监控的海量数据管理方法 |
CN105320764A (zh) * | 2015-10-26 | 2016-02-10 | 天津大学 | 一种基于增量慢特征的3d模型检索方法及其检索装置 |
-
2016
- 2016-03-22 CN CN201610165185.0A patent/CN105843891A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120027290A1 (en) * | 2010-07-30 | 2012-02-02 | Qualcomm Incorporated | Object recognition using incremental feature extraction |
CN104199942A (zh) * | 2014-09-09 | 2014-12-10 | 中国科学技术大学 | 一种Hadoop平台时序数据增量计算方法及*** |
CN105243140A (zh) * | 2015-10-10 | 2016-01-13 | 中国科学院软件研究所 | 一种面向高速列车实时监控的海量数据管理方法 |
CN105320764A (zh) * | 2015-10-26 | 2016-02-10 | 天津大学 | 一种基于增量慢特征的3d模型检索方法及其检索装置 |
Non-Patent Citations (1)
Title |
---|
孔宪光 等: ""面向复杂工业大数据的实时特征提取方法"", 《CNKI:HTTP://KNS.CNKI.NET/KXREADER/DETAIL?DBCODE=CJFD&FILENAME=XDKD201605015&UID=WEEVRECWSLJHSLDRA1FHDXNXA0HFMG5YWLDHOUS1THKVUK0ZVU00MFRWTT0=$9A4HF_YAUVQ5OBGVAQNKPCYCEJKENSW4GGI8FM4GTKOUKAID8J8GFW!!》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108052599A (zh) * | 2017-12-12 | 2018-05-18 | 清华大学 | 一种支持特征查询的时序数据存储的方法和装置 |
CN108920501A (zh) * | 2018-05-25 | 2018-11-30 | 南开大学 | 一种关系表非键属性特征抽取与数据生成方法 |
CN108920501B (zh) * | 2018-05-25 | 2021-09-03 | 南开大学 | 一种关系表非键属性特征抽取与数据生成方法 |
CN111738848A (zh) * | 2020-05-19 | 2020-10-02 | 深圳追一科技有限公司 | 特征数据的生成方法、装置、计算机设备和存储介质 |
CN111738848B (zh) * | 2020-05-19 | 2024-03-19 | 深圳追一科技有限公司 | 特征数据的生成方法、装置、计算机设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109711659B (zh) | 一种工业生产的良率提升管理***和方法 | |
Auschitzky et al. | How big data can improve manufacturing | |
CN104537415B (zh) | 一种基于压缩感知和dros‑elm的非线性过程工业故障预测及识别方法 | |
CN107273924B (zh) | 基于模糊聚类分析的多数据融合的电厂故障诊断方法 | |
CN110399935A (zh) | 基于孤立森林机器学习的机器人实时异常监测方法及*** | |
CN103970666B (zh) | 一种软件重复缺陷报告检测的方法 | |
CN109753923A (zh) | 刀具磨损量的监测方法、***、设备及计算机可读存储介质 | |
CN105117550B (zh) | 一种面向产品多维相关性退化失效的建模方法 | |
Pani et al. | A survey of data treatment techniques for soft sensor design | |
CN105843891A (zh) | 一种增量式的在线特征提取分析方法及*** | |
CN104914723A (zh) | 基于协同训练偏最小二乘模型的工业过程软测量建模方法 | |
CN115545321A (zh) | 一种制丝车间工艺质量在线预测方法 | |
CN116468160A (zh) | 基于生产大数据的铝合金压铸件质量预测方法 | |
CN111340110A (zh) | 一种基于工业过程运行状态趋势分析的故障预警方法 | |
CN114216877B (zh) | 茶叶近红外光谱分析中谱峰自动检测与重构方法及*** | |
CN111459921A (zh) | 一种基于时滞互信息的空分工厂氮气浓度相关性分析方法 | |
CN111160393A (zh) | 一种基于数据驱动的运载火箭健康评估模型模块化建模方法 | |
CN113110961B (zh) | 设备异常检测方法、装置、计算机设备及可读存储介质 | |
CN110543869A (zh) | 滚珠丝杠寿命预测方法、装置、计算机设备及存储介质 | |
KR102366787B1 (ko) | 슬라이딩 윈도우 기법을 이용한 제조설비의 실시간 다변량 이상감지 시스템 | |
CN110471279B (zh) | 一种基于vine-copulas的工业生产模拟场景发生器及场景发生方法 | |
CN113092083A (zh) | 一种基于分形维数和神经网络的机泵故障诊断方法和装置 | |
CN116150989A (zh) | 光伏组件制造方法和光伏组件 | |
CN111079809A (zh) | 电连接器智能统型方法 | |
CN103488089B (zh) | 自适应的农药废液焚烧炉有害物排放达标控制***及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20160810 |
|
RJ01 | Rejection of invention patent application after publication |