CN117009751B - 基于自适应的时序数据清洗方法和装置 - Google Patents

基于自适应的时序数据清洗方法和装置 Download PDF

Info

Publication number
CN117009751B
CN117009751B CN202311282620.4A CN202311282620A CN117009751B CN 117009751 B CN117009751 B CN 117009751B CN 202311282620 A CN202311282620 A CN 202311282620A CN 117009751 B CN117009751 B CN 117009751B
Authority
CN
China
Prior art keywords
time sequence
detection time
data
industrial detection
sequence data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311282620.4A
Other languages
English (en)
Other versions
CN117009751A (zh
Inventor
王志明
聂少雄
李鹏
田兵
尹旭
林跃欢
张佳明
韦杰
刘胜荣
张伟勋
马俭
钟枚汕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southern Power Grid Digital Grid Research Institute Co Ltd
Original Assignee
Southern Power Grid Digital Grid Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southern Power Grid Digital Grid Research Institute Co Ltd filed Critical Southern Power Grid Digital Grid Research Institute Co Ltd
Priority to CN202311282620.4A priority Critical patent/CN117009751B/zh
Publication of CN117009751A publication Critical patent/CN117009751A/zh
Application granted granted Critical
Publication of CN117009751B publication Critical patent/CN117009751B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/10Pre-processing; Data cleansing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2131Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on a transform domain processing, e.g. wavelet transform
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2123/00Data types
    • G06F2123/02Data types in the time domain, e.g. time-series data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

本申请涉及一种基于自适应的时序数据清洗方法和装置。通过获取待清洗工业检测时序数据,以及待清洗工业检测时序数据的偏差特征值和波动特征值等特征参数,将偏差特征值和波动特征值等特征参数输入经训练的数据清洗模型,获取数据清洗模型基于偏差特征值和波动特征值,清洗待清洗工业检测时序数据后,输出的清洗后的工业检测时序数据。相较于传统的单一清洗策略的清洗方式进行清洗,本方案通过结合工业检测时序市局的特征参数,基于特征参数和数据清洗模型,清洗时序数据,提高了数据清洗的适用度。

Description

基于自适应的时序数据清洗方法和装置
技术领域
本申请涉及工业技术领域,特别是涉及一种基于自适应的时序数据清洗方法、装置、计算机设备、存储介质和计算机程序产品。
背景技术
大数据时代,数据质量成为关键因素,而在工业领域的检测数据中,大部分是时序数据,因此对时序数据的高效管理是提高各领域生产效率的关键。时序数据的管理中,需要对时序数据进行清洗,以确保数据分析的准确性和决策有效性。目前对时序数据进行清洗的方式通常是通过单一清洗策略进行清洗。然而,由于时序数据的类型众多,通过单一清洗策略的清洗方式,会导致时序数据的清洗的适用度降低。
因此,目前的时序数据清洗方法存在清洗的适用度差的缺陷。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高清洗的适用度的基于自适应的时序数据清洗方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
第一方面,本申请提供了一种基于自适应的时序数据清洗方法,所述方法包括:
获取待清洗工业检测时序数据;
获取所述待清洗工业检测时序数据的特征参数;所述特征参数包括偏差特征值和波动特征值;
将所述待清洗工业检测时序数据和所述特征参数输入经训练的数据清洗模型,获取所述数据清洗模型输出的清洗后的工业检测时序数据;所述清洗后的工业检测时序数据由所述数据清洗模型基于所述特征参数中的偏差特征值和波动特征值,清洗所述待清洗工业检测时序数据后得到。
在其中一个实施例中,所述获取待清洗工业检测时序数据,包括:
获取原始工业检测时序数据,对所述原始工业检测时序数据进行随机采样,得到第一工业检测时序数据;
对所述第一工业检测时序数据进行小波变换和滤波处理,得到第二工业检测时序数据;
对所述第二工业检测时序数据进行去噪,得到待清洗工业检测时序数据。
在其中一个实施例中,所述获取所述待清洗工业检测时序数据的特征参数,包括:
根据所述待清洗工业检测时序数据中数据的偏差值,确定所述待清洗工业检测时序数据的偏差特征值;
根据所述待清洗工业检测时序数据对应的数据变化幅度,确定所述待清洗工业检测时序数据的波动特征值。
在其中一个实施例中,所述根据所述待清洗工业检测时序数据中数据的偏差值,确定所述待清洗工业检测时序数据的偏差特征值,包括:
获取所述待清洗工业检测时序数据中,各个相邻数据的偏差值;
将多个偏差值顺序排列,得到偏差序列,并根据所述偏差序列的分位数,确定所述待清洗工业检测时序数据的偏差特征值。
在其中一个实施例中,所述根据所述待清洗工业检测时序数据对应的数据变化幅度,确定所述待清洗工业检测时序数据的波动特征值,包括:
获取所述待清洗工业检测时序数据对应的标准差和方差;
根据所述标准差和方差的均值,确定所述待清洗工业检测时序数据的波动特征值。
在其中一个实施例中,所述将所述待清洗工业检测时序数据和所述特征参数输入经训练的数据清洗模型,包括:
将所述待清洗工业检测时序数据和所述特征参数输入经训练的数据清洗模型,由所述数据清洗模型对所述待清洗工业检测时序数据依次进行下采样和差分处理,得到差分工业检测时序数据;
对所述偏差特征值和波动特征值进行卷积操作,根据所述卷积操作的卷积结果,对所述差分工业检测时序数据进行清洗,得到清洗后的工业检测时序数据。
在其中一个实施例中,所述由所述数据清洗模型对所述待清洗工业检测时序数据依次进行下采样和差分处理,得到差分工业检测时序数据,包括:
由所述数据清洗模型对所述待清洗工业检测时序数据进行下采样,得到采样工业检测时序数据;
对所述采样工业检测时序数据进行多次差分处理,得到多个子工业检测时序数据;
根据所述多个子工业检测时序数据与所述采样工业检测时序数据的组合,得到差分工业检测时序数据。
在其中一个实施例中,所述根据所述卷积操作的卷积结果,对所述差分工业检测时序数据进行清洗,包括:
根据所述卷积结果的数值,确定对应的权重参数;
根据所述权重参数与卷积操作后的特征参数的乘累加结果,得到累加后的特征参数;
根据所述累加后的特征参数,对所述差分工业检测时序数据进行清洗。
在其中一个实施例中,所述数据清洗模型包括卷积层和全连接层;所述卷积层包括第一预设的权重参数,所述全连接层包括第二预设的权重参数;
所述根据所述卷积结果的数值,确定对应的权重参数,包括:
若所述卷积结果的数值为预设数值,确定权重参数为所述第一预设的权重参数;
若所述卷积结果不为所述预设数值,根据所述第一预设的权重参数与所述第二预设的权重参数的均值确定所述权重参数。
第二方面,本申请提供了一种基于自适应的时序数据清洗装置,所述装置包括:
第一获取模块,用于获取待清洗工业检测时序数据;
第二获取模块,用于获取所述待清洗工业检测时序数据的特征参数;所述特征参数包括偏差特征值和波动特征值;
清洗模块,用于将所述待清洗工业检测时序数据和所述特征参数输入经训练的数据清洗模型,获取所述数据清洗模型输出的清洗后的工业检测时序数据;所述清洗后的工业检测时序数据由所述数据清洗模型基于所述特征参数中的偏差特征值和波动特征值,清洗所述待清洗工业检测时序数据后得到。
第三方面,本申请提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述的方法的步骤。
第四方面,本申请提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法的步骤。
第五方面,本申请提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述的方法的步骤。
上述基于自适应的时序数据清洗方法、装置、计算机设备、存储介质和计算机程序产品,通过获取待清洗工业检测时序数据,以及待清洗工业检测时序数据的偏差特征值和波动特征值等特征参数,将偏差特征值和波动特征值等特征参数输入经训练的数据清洗模型,获取数据清洗模型基于偏差特征值和波动特征值,清洗待清洗工业检测时序数据后,输出的清洗后的工业检测时序数据。相较于传统的单一清洗策略的清洗方式进行清洗,本方案通过结合工业检测时序市局的特征参数,基于特征参数和数据清洗模型,清洗时序数据,提高了数据清洗的适用度。
附图说明
图1为一个实施例中基于自适应的时序数据清洗方法的流程示意图;
图2为另一个实施例中基于自适应的时序数据清洗方法的流程示意图;
图3为一个实施例中基于自适应的时序数据清洗装置的结构框图;
图4为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种基于自适应的时序数据清洗方法,本实施例以该方法应用于终端进行举例说明,可以理解的是,该方法也可以应用于服务器,还可以应用于包括终端和服务器的***,并通过终端和服务器的交互实现,包括以下步骤:
步骤S202,获取待清洗工业检测时序数据。
其中,待清洗工业检测时序数据可以是在工业检测中产生的时序数据。例如电力领域对电力设备实时监测电力设备所产生和采集的数据。由于工业检测的时序数据的数据量庞大,终端需要对工业检测时序数据进行清洗,以对清洗后的工业检测数据进行分析,进而确定对电力设备的维护策略。本方案通过自适应方式对时序数据进行清洗,提高数据清洗的适用度。
其中,上述待清洗工业检测时序数据可以由电力设备对应的监测设备进行采集,终端从监测设备获取到的工业检测时序数据可以是原始工业检测时序数据。终端需要对原始工业检测时序数据进行预处理,从而消除不同数据源或数据类型之间的差异,提高清洗的准确性。
例如,在一个实施例中,终端可以获取原始工业检测时序数据,并对原始工业检测时序数据进行随机采样,得到第一工业检测时序数据。其中,终端还可以对随机采样后的时序数据中的空缺数据点进行补齐,从而得到第一工业检测时序数据。终端可以对第一工业检测时序数据进行小波变换和滤波处理,得到第二工业检测时序数据。终端还可以对第二工业检测时序数据进行去噪,得到待清洗工业检测时序数据。经过上述预处理后,终端可以得到统一数据类型和去噪后的时序数据,作为待清洗工业检测时序数据。
步骤S204,获取待清洗工业检测时序数据的特征参数;特征参数包括偏差特征值和波动特征值。
其中,终端可以通过自适应方式清洗上述待清洗工业检测时序数据,例如通过特征提取的方式进行清洗,使得终端可以基于各个工业检测时序数据的特征,进行与特征相适应的清洗。终端可以获取待清洗工业检测时序数据的特征参数。其中,上述特征参数可以包括多种,例如可以是待清洗工业检测时序数据的偏差特征值和待清洗工业检测时序数据的波动特征值等。其中,对于不同的特征值,终端可以采用不同的方式进行获取。
步骤S206,将待清洗工业检测时序数据和特征参数输入经训练的数据清洗模型,获取数据清洗模型输出的清洗后的工业检测时序数据;清洗后的工业检测时序数据由数据清洗模型基于特征参数中的偏差特征值和波动特征值,清洗待清洗工业检测时序数据后得到。
其中,终端可以预先训练待训练的数据清洗模型,得到上述经训练的数据清洗模型。其中,终端可以利用待清洗工业检测时序样本数据、待清洗工业检测时序样本数据对应的特征样本参数以及对应的清洗后的工业检测时序样本数据,对待训练的数据清洗模型进行训练。例如,终端将待清洗工业检测时序样本数据、待清洗工业检测时序样本数据对应的特征样本参数输入待训练的数据清洗模型,将待训练的数据清洗模型输出的清洗后的工业检测时序训练数据与对应的清洗后的工业检测时序样本数据进行对比,根据对比的结果,例如相似度,调整待训练的数据清洗模型的模型参数,直至上述对比的结果的数值大于或等于预设相似度阈值时,终端可以得到经训练的数据清洗模型。
终端得到经训练的数据清洗模型后,可以将上述待清洗工业检测时序数据和特征参数输入经训练的数据清洗模型,上述数据清洗模型可以基于特征参数中的偏差特征值和波动特征值,清洗待清洗工业检测时序数据,并输出对应的清洗后的工业检测时序数据。其中,上述数据清洗模型中可以包括多层,终端可以通过数据清洗模型中的各层,对上述输入的待清洗工业检测时序数据和特征参数进行对应的处理。从而得到最终输出的清洗后的工业检测时序数据。
上述基于自适应的时序数据清洗方法中,通过获取待清洗工业检测时序数据,以及待清洗工业检测时序数据的偏差特征值和波动特征值等特征参数,将偏差特征值和波动特征值等特征参数输入经训练的数据清洗模型,获取数据清洗模型基于偏差特征值和波动特征值,清洗待清洗工业检测时序数据后,输出的清洗后的工业检测时序数据。相较于传统的单一清洗策略的清洗方式进行清洗,本方案通过结合工业检测时序市局的特征参数,基于特征参数和数据清洗模型,清洗时序数据,提高了数据清洗的适用度。
在一个实施例中,获取待清洗工业检测时序数据的特征参数,包括:根据待清洗工业检测时序数据中数据的偏差值,确定待清洗工业检测时序数据的偏差特征值;根据待清洗工业检测时序数据对应的数据变化幅度,确定待清洗工业检测时序数据的波动特征值。
本实施例中,终端可以获取上述待清洗工业检测时序数据对应的多个特征参数。例如,终端可以根据待清洗工业检测时序数据中数据的偏差值,确定待清洗工业检测时序数据的偏差特征值。终端还可以根据待清洗工业检测时序数据对应的数据变化幅度,确定待清洗工业检测时序数据的波动特征值。
其中,终端获取偏差特征值时,可以通过对比待清洗工业检测时序数据中的相邻数据得到。例如,在一个实施例中,终端获取偏差特征值时,可以将待清洗工业检测时序数据中的相邻数据进行偏差比较。从而终端可以获取待清洗工业检测时序数据中,各个相邻数据的偏差值。终端可以将多个偏差值顺序排列,得到偏差序列,并根据偏差序列的分位数,确定待清洗工业检测时序数据的偏差特征值。具体地,终端可以计算上述待清洗工业检测时序数据中相邻数据的偏差值,将所有偏差值从大到小排序,得到偏差序列,终端再计算偏差序列的分位数,将偏差序列的分位数作为偏差特征值。
其中,上述工业检测时序数据中可以包括按照时间顺序进行排序的多个监测数据,终端获取波动特征值时,可以基于待清洗工业检测时序数据的标准差和方差确定。例如,在一个实施例中,终端获取波动特征值时,可以获取待清洗工业检测时序数据对应的标准差,并获取待清洗工业检测时序数据对应的方差,终端可以根据标准差和方差的均值,确定待清洗工业检测时序数据的波动特征值。例如将上述均值作为待清洗工业检测时序数据的波动特征值。
通过上述实施例,终端可以通过获取待清洗工业检测时序数据的多种特征参数,基于多种特征参数清洗工业检测时序数据,从而提高了对工业检测时序数据的清洗的适用度。
在一个实施例中,将待清洗工业检测时序数据和特征参数输入经训练的数据清洗模型,包括:将待清洗工业检测时序数据和特征参数输入经训练的数据清洗模型,由数据清洗模型对待清洗工业检测时序数据依次进行下采样和差分处理,得到差分工业检测时序数据;对偏差特征值和波动特征值进行卷积操作,根据卷积操作的卷积结果,对差分工业检测时序数据进行清洗,得到清洗后的工业检测时序数据。
本实施例中,终端可以将待清洗工业检测时序数据和上述确定的特征参数,输入经训练的数据清洗模型。数据清洗模型可以对待清洗工业检测时序数据进行下采样处理,并对下采样处理后的待清洗工业检测时序数据进行差分处理,从而得到差分工业检测时序数据。对于上述特征参数中的偏差特征值和波动特征值,数据清洗模型可以对偏差特征值和波动特征值进行卷积操作,得到对应的卷积结果。数据清洗模型可以基于该卷积结果,对上述差分工业检测时序数据进行清洗,得到清洗后的工业检测时序数据。
其中,上述数据清洗模型可以包括多层,例如数据采样层、数据差分层、数据卷积层、全连接层和数据清洗层等。终端可以利用数据清洗模型,在不同层中对工业检测时序数据进行不同处理。例如,数据清洗模型可以在数据采样层对待清洗工业检测时序数据进行下采样,得到采样时序数据。数据清洗模型将采样时序数据输入数据差分层,在数据差分层中对采样时序数据进行差分,生成差分时序数据。并通过数据卷积层、全连接层和数据清洗层等对上述差分时序数据和特征参数进行卷积、运算和清洗等,得到清洗后的工业检测时序数据。
通过本实施例,终端可以通过数据清洗模型,对待清洗工业检测时序数据和特征参数进行多层处理和清洗后,得到清洗后的工业检测时序数据,提高了时序数据清洗的适用度。
在一个实施例中,由数据清洗模型对待清洗工业检测时序数据依次进行下采样和差分处理,得到差分工业检测时序数据,包括:由数据清洗模型对待清洗工业检测时序数据进行下采样,得到采样工业检测时序数据;对采样工业检测时序数据进行多次差分处理,得到多个子工业检测时序数据;根据多个子工业检测时序数据与采样工业检测时序数据的组合,得到差分工业检测时序数据。
本实施例中,终端可以通过数据清洗模型中的多层模型,对工业检测时序数据进行下采样和差分处理。例如,终端可以由数据清洗模型在数据采样层对待清洗工业检测时序数据进行下采样,得到采样工业检测时序数据,也可以被称为采样时序数据。数据清洗模型将上述采样工业检测时序数据输入数据差分层,在数据差分层中对采样工业检测时序数据进行多次差分处理,得到多个子工业检测时序数据,子工业检测时序数据也可以被称为子时序数据。从而终端由数据清洗模型根据多个子工业检测时序数据与采样工业检测时序数据的组合,得到差分工业检测时序数据。
具体地,数据清洗模型在数据差分层中,对采样工业检测时序数据进行若干次差分,其中,该差分的次数可以基于实际情况进行设定。每次差分可以得到一个子工业检测时序数据,经过若干次差分后,终端可以由数据清洗模型将若干次差分得到的若干个子工业检测时序数据与上述采样工业检测时序数据进行组合,生成差分时序数据。
通过本实施例,终端可以通过数据清洗模型中的数据采样层和数据差分层,对待清洗工业检测时序数据进行下采样和多次差分操作,从而终端可以在数据清洗模型中基于差分得到的差分时序数据对待清洗工业检测时序数据进行清洗,提高了数据清洗的适用度。
在一个实施例中,根据卷积操作的卷积结果,对差分工业检测时序数据进行清洗,包括:根据卷积结果的数值,确定对应的权重参数;根据权重参数与卷积操作后的特征参数的乘累加结果,得到累加后的特征参数;根据累加后的特征参数,对差分工业检测时序数据进行清洗。
本实施例中,终端可以通过数据清洗模型对差分工业检测时序数据进行清洗。其中,终端可以由数据清洗模型对特征参数中的偏差特征值和波动特征值进行卷积操作,得到相应的卷积结果。终端可以根据卷积结果的数值,确定对应的权重参数。其中,权重参数可以与数据清洗模型的层对应。例如,上述数据清洗模型中还可以包括数据卷积层和全连接层。在一个实施例中,终端可以设定卷积层包括第一预设的权重参数,设定全连接层包括第二预设的权重参数。其中,终端可以通过数据清洗模型,在卷积结果的数值不同时,将不同层预设的权重参数作为上述权重参数。例如,若终端通过数据清洗模型检测到上述卷积结果的数值为预设数值,则终端可以确定权重参数为上述第一预设的权重参数。若终端通过数据清洗模型检测到上述卷积结果的数值不为预设数值,则终端可以根据第一预设的权重参数与第二预设的权重参数的均值,确定上述权重参数。
具体地,上述权重参数也可以被称为实施权重参数,上述权重参数的确定可以是一种在全连接层中的确定过程,数据清洗模型可以在全连接层中将卷积操作后的特征参数与实时权重参数进行乘累加运算。其中,以预设数值是0为例,若特征参数进行卷积操作的结果为0,则终端可以由数据清洗模型将数据卷积层的权重参数作为实时权重参数。若终端由数据清洗模型检测到对特征参数进行卷积操作的结果不为0,则数据清洗模型可以将数据卷积层的权重参数与全连接层的权重参数的均值作为实时权重参数。其中,上述全连接层中可以包括多个节点,上述全连接层中的节点的数量可以与上述差分时序数据中的数据的个数相等。
终端确定权重参数后,可以有数据清洗模型获取权重参数与卷积操作后的特征参数的乘累加结果。数据清洗模型可以根据上述乘累加结果,得到累加后的特征参数。终端可以由数据清洗模型基于累加后的特征参数,对差分工业检测时序数据进行清洗。
具体地,终端可以由数据清洗模型在数据清洗层中对差分工业检测时序数据进行清洗。例如,终端由数据清洗模型,利用卡尔曼滤波算法以及上述累加后的特征参数,在数据清洗层对差分时序数据进行清洗,从而得到清洗后的工业检测时序数据。
通过上述实施例,终端可以基于卷积结果的特征参数的数值,确定权重参数,并根据权重参数对特征参数进行累加,从而基于累加后的特征参数以及预设算法,清洗上述差分工业检测时序数据,提高了数据清洗的适用度。
在一个实施例中,如图2所示,图2为另一个实施例中基于自适应的时序数据清洗方法的流程示意图。本实施例中,终端可以获取监测设备采集的原始工业检测时序数据,并对原始工业检测时序数据进行预处理,生成上述待清洗工业检测时序数据。终端还可以提取上述待清洗工业检测时序数据的特征参数,例如偏差特征值和波动特征值等。
终端通过预先构建数据清洗模型,并将上述待清洗工业检测时序数据和各个特征参数输入上述数据清洗模型中,从而数据清洗模型可以基于特征参数对待清洗工业检测时序数据进行数据清洗,并输出清洗后的工业检测时序数据。并且,在一些实施例中,终端可以通过数据清洗模型,根据历史处理过的数据进行自适应更新,在处理新数据时,有效利用历史数据,进一步提高数据清洗的适用度。同时,终端还可以引入可配置清洗策略和性能监控模块,使用户可以根据具体需求自定义清洗算法和参数,并对算法的运行效果进行实时监控,从而实现数据清洗过程的智能化和自我优化。
通过上述实施例,终端通过结合工业检测时序市局的特征参数,基于特征参数和数据清洗模型,清洗时序数据,提高了数据清洗的适用度。其中,上述数据清洗方法还具有高度适应性,对原始时序数据的预处理可以消除不同数据源或数据类型之间的差异,提高清洗的准确性;同时,终端通过提取时序数据的特征参数,特征参数可以反映时序数据的特点,确保数据清洗算法在各种情况下具有较高的准确性和鲁棒性;另外,终端通过构建数据清洗模型,能够适应不同类型或质量的数据,保持清洗效果稳定。
应该理解的是,虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的基于自适应的时序数据清洗方法的基于自适应的时序数据清洗装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个基于自适应的时序数据清洗装置实施例中的具体限定可以参见上文中对于基于自适应的时序数据清洗方法的限定,在此不再赘述。
在一个实施例中,如图3所示,提供了一种基于自适应的时序数据清洗装置,包括:第一获取模块500、第二获取模块502和清洗模块504,其中:
第一获取模块500,用于获取待清洗工业检测时序数据。
第二获取模块502,用于获取待清洗工业检测时序数据的特征参数;特征参数包括偏差特征值和波动特征值。
清洗模块504,用于将待清洗工业检测时序数据和特征参数输入经训练的数据清洗模型,获取数据清洗模型输出的清洗后的工业检测时序数据;清洗后的工业检测时序数据由数据清洗模型基于特征参数中的偏差特征值和波动特征值,清洗待清洗工业检测时序数据后得到。
在一个实施例中,上述第一获取模块500,用于获取原始工业检测时序数据,对原始工业检测时序数据进行随机采样,得到第一工业检测时序数据;对第一工业检测时序数据进行小波变换和滤波处理,得到第二工业检测时序数据;对第二工业检测时序数据进行去噪,得到待清洗工业检测时序数据。
在一个实施例中,上述第二获取模块502,用于根据待清洗工业检测时序数据中数据的偏差值,确定待清洗工业检测时序数据的偏差特征值;根据待清洗工业检测时序数据对应的数据变化幅度,确定待清洗工业检测时序数据的波动特征值。
在一个实施例中,上述第二获取模块502,用于获取待清洗工业检测时序数据中,各个相邻数据的偏差值;将多个偏差值顺序排列,得到偏差序列,并根据偏差序列的分位数,确定待清洗工业检测时序数据的偏差特征值。
在一个实施例中,上述第二获取模块502,用于获取待清洗工业检测时序数据对应的标准差和方差;根据标准差和方差的均值,确定待清洗工业检测时序数据的波动特征值。
在一个实施例中,上述清洗模块504,用于将待清洗工业检测时序数据和特征参数输入经训练的数据清洗模型,由数据清洗模型对待清洗工业检测时序数据依次进行下采样和差分处理,得到差分工业检测时序数据;对偏差特征值和波动特征值进行卷积操作,根据卷积操作的卷积结果,对差分工业检测时序数据进行清洗,得到清洗后的工业检测时序数据。
在一个实施例中,上述清洗模块504,用于由数据清洗模型对待清洗工业检测时序数据进行下采样,得到采样工业检测时序数据;对采样工业检测时序数据进行多次差分处理,得到多个子工业检测时序数据;根据多个子工业检测时序数据与采样工业检测时序数据的组合,得到差分工业检测时序数据。
在一个实施例中,上述清洗模块504,用于根据卷积结果的数值,确定对应的权重参数;根据权重参数与卷积操作后的特征参数的乘累加结果,得到累加后的特征参数;根据累加后的特征参数,对差分工业检测时序数据进行清洗。
在一个实施例中,上述清洗模块504,用于若卷积结果的数值为预设数值,确定权重参数为第一预设的权重参数;若卷积结果不为预设数值,根据第一预设的权重参数与第二预设的权重参数的均值确定权重参数。
上述基于自适应的时序数据清洗装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图4所示。该计算机设备包括通过***总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种基于自适应的时序数据清洗方法。该计算机设备的显示单元用于形成视觉可见的画面,可以是显示屏、投影装置或虚拟现实成像装置。显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图4中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述的基于自适应的时序数据清洗方法。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述的基于自适应的时序数据清洗方法。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述的基于自适应的时序数据清洗方法。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (10)

1.一种基于自适应的时序数据清洗方法,其特征在于,所述方法包括:
获取待清洗工业检测时序数据;所述待清洗工业检测时序数据包括实时监测电力设备所产生和采集的数据;
获取所述待清洗工业检测时序数据的特征参数;所述特征参数包括偏差特征值和波动特征值;
将所述待清洗工业检测时序数据和所述特征参数输入经训练的数据清洗模型,获取所述数据清洗模型输出的清洗后的工业检测时序数据;所述清洗后的工业检测时序数据由所述数据清洗模型基于所述特征参数中的偏差特征值和波动特征值,清洗所述待清洗工业检测时序数据后得到;所述将所述待清洗工业检测时序数据和所述特征参数输入经训练的数据清洗模型,包括:将所述待清洗工业检测时序数据和所述特征参数输入经训练的数据清洗模型,由所述数据清洗模型对所述待清洗工业检测时序数据依次进行下采样和差分处理,得到差分工业检测时序数据;对所述偏差特征值和波动特征值进行卷积操作,根据所述卷积操作的卷积结果,对所述差分工业检测时序数据进行清洗,得到清洗后的工业检测时序数据,以对清洗后的工业检测时序数据进行分析,确定对所述电力设备的维护策略。
2.根据权利要求1所述的方法,其特征在于,所述获取待清洗工业检测时序数据,包括:
获取原始工业检测时序数据,对所述原始工业检测时序数据进行随机采样,得到第一工业检测时序数据;
对所述第一工业检测时序数据进行小波变换和滤波处理,得到第二工业检测时序数据;
对所述第二工业检测时序数据进行去噪,得到待清洗工业检测时序数据。
3.根据权利要求2所述的方法,其特征在于,所述获取所述待清洗工业检测时序数据的特征参数,包括:
根据所述待清洗工业检测时序数据中数据的偏差值,确定所述待清洗工业检测时序数据的偏差特征值;
根据所述待清洗工业检测时序数据对应的数据变化幅度,确定所述待清洗工业检测时序数据的波动特征值。
4.根据权利要求3所述的方法,其特征在于,所述根据所述待清洗工业检测时序数据中数据的偏差值,确定所述待清洗工业检测时序数据的偏差特征值,包括:
获取所述待清洗工业检测时序数据中,各个相邻数据的偏差值;
将多个偏差值顺序排列,得到偏差序列,并根据所述偏差序列的分位数,确定所述待清洗工业检测时序数据的偏差特征值。
5.根据权利要求3所述的方法,其特征在于,所述根据所述待清洗工业检测时序数据对应的数据变化幅度,确定所述待清洗工业检测时序数据的波动特征值,包括:
获取所述待清洗工业检测时序数据对应的标准差和方差;
根据所述标准差和方差的均值,确定所述待清洗工业检测时序数据的波动特征值。
6.根据权利要求1所述的方法,其特征在于,所述由所述数据清洗模型对所述待清洗工业检测时序数据依次进行下采样和差分处理,得到差分工业检测时序数据,包括:
由所述数据清洗模型对所述待清洗工业检测时序数据进行下采样,得到采样工业检测时序数据;
对所述采样工业检测时序数据进行多次差分处理,得到多个子工业检测时序数据;
根据所述多个子工业检测时序数据与所述采样工业检测时序数据的组合,得到差分工业检测时序数据。
7.根据权利要求1所述的方法,其特征在于,所述根据所述卷积操作的卷积结果,对所述差分工业检测时序数据进行清洗,包括:
根据所述卷积结果的数值,确定对应的权重参数;
根据所述权重参数与卷积操作后的特征参数的乘累加结果,得到累加后的特征参数;
根据所述累加后的特征参数,对所述差分工业检测时序数据进行清洗。
8.根据权利要求7所述的方法,其特征在于,所述数据清洗模型包括卷积层和全连接层;所述卷积层包括第一预设的权重参数,所述全连接层包括第二预设的权重参数;
所述根据所述卷积结果的数值,确定对应的权重参数,包括:
若所述卷积结果的数值为预设数值,确定权重参数为所述第一预设的权重参数;
若所述卷积结果不为所述预设数值,根据所述第一预设的权重参数与所述第二预设的权重参数的均值确定所述权重参数。
9.一种基于自适应的时序数据清洗装置,其特征在于,所述装置包括:
第一获取模块,用于获取待清洗工业检测时序数据;所述待清洗工业检测时序数据包括实时监测电力设备所产生和采集的数据;
第二获取模块,用于获取所述待清洗工业检测时序数据的特征参数;所述特征参数包括偏差特征值和波动特征值;
清洗模块,用于将所述待清洗工业检测时序数据和所述特征参数输入经训练的数据清洗模型,获取所述数据清洗模型输出的清洗后的工业检测时序数据;所述清洗后的工业检测时序数据由所述数据清洗模型基于所述特征参数中的偏差特征值和波动特征值,清洗所述待清洗工业检测时序数据后得到,具体用于将所述待清洗工业检测时序数据和所述特征参数输入经训练的数据清洗模型,由所述数据清洗模型对所述待清洗工业检测时序数据依次进行下采样和差分处理,得到差分工业检测时序数据;对所述偏差特征值和波动特征值进行卷积操作,根据所述卷积操作的卷积结果,对所述差分工业检测时序数据进行清洗,得到清洗后的工业检测时序数据,以对清洗后的工业检测时序数据进行分析,确定对所述电力设备的维护策略。
10.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。
CN202311282620.4A 2023-10-07 2023-10-07 基于自适应的时序数据清洗方法和装置 Active CN117009751B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311282620.4A CN117009751B (zh) 2023-10-07 2023-10-07 基于自适应的时序数据清洗方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311282620.4A CN117009751B (zh) 2023-10-07 2023-10-07 基于自适应的时序数据清洗方法和装置

Publications (2)

Publication Number Publication Date
CN117009751A CN117009751A (zh) 2023-11-07
CN117009751B true CN117009751B (zh) 2024-05-07

Family

ID=88567618

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311282620.4A Active CN117009751B (zh) 2023-10-07 2023-10-07 基于自适应的时序数据清洗方法和装置

Country Status (1)

Country Link
CN (1) CN117009751B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110287178A (zh) * 2019-06-11 2019-09-27 南京睿永智运维工程科技有限公司 一种基于数据差值的桥梁渐进式漂移数据清洗方法
JP2020071845A (ja) * 2018-11-02 2020-05-07 エヌ・ティ・ティ・コミュニケーションズ株式会社 異常検知装置、異常検知方法および異常検知プログラム
CN114153826A (zh) * 2021-11-08 2022-03-08 北京华能新锐控制技术有限公司 基于增强卷积去噪算法的风电机组数据清洗方法及装置
CN115380294A (zh) * 2020-03-31 2022-11-22 Abb瑞士股份有限公司 针对工业机器学习的数据处理
CN116340726A (zh) * 2023-03-28 2023-06-27 广东电网有限责任公司 一种能源经济大数据清洗方法、***、设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020071845A (ja) * 2018-11-02 2020-05-07 エヌ・ティ・ティ・コミュニケーションズ株式会社 異常検知装置、異常検知方法および異常検知プログラム
CN110287178A (zh) * 2019-06-11 2019-09-27 南京睿永智运维工程科技有限公司 一种基于数据差值的桥梁渐进式漂移数据清洗方法
CN115380294A (zh) * 2020-03-31 2022-11-22 Abb瑞士股份有限公司 针对工业机器学习的数据处理
CN114153826A (zh) * 2021-11-08 2022-03-08 北京华能新锐控制技术有限公司 基于增强卷积去噪算法的风电机组数据清洗方法及装置
CN116340726A (zh) * 2023-03-28 2023-06-27 广东电网有限责任公司 一种能源经济大数据清洗方法、***、设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Toward Translating Raw Indoor Positioning Data into Mobility Semantics;HUAN LI et al.;ACM/IMS Trans. Data Sci;第1-37页 *
风电机组风速-功率异常运行数据特征及清洗方法;沈小军 等;电工技术学报;第33卷(第14期);第3353-3361页 *

Also Published As

Publication number Publication date
CN117009751A (zh) 2023-11-07

Similar Documents

Publication Publication Date Title
CN110839016B (zh) 异常流量监测方法、装置、设备及存储介质
Sandryhaila et al. Discrete signal processing on graphs
Jia et al. Image transformation based on learning dictionaries across image spaces
CN113344295A (zh) 基于工业大数据的设备剩余寿命预测方法、***及介质
Shim et al. Active cluster annotation for wafer map pattern classification in semiconductor manufacturing
WO2015004502A1 (en) Method for imputing corrupted data based on localizing anomalous parts
Cao et al. Resampling detection of recompressed images via dual-stream convolutional neural network
Wang et al. High quality impulse noise removal via non‐uniform sampling and autoregressive modelling based super‐resolution
CN117009751B (zh) 基于自适应的时序数据清洗方法和装置
Peer et al. Investigations of cellular automata game of life rules for noise filtering and edge detection
CN117596191A (zh) 一种电力物联网异常检测方法、装置及存储介质
CN116737681A (zh) 一种实时异常日志检测方法、装置、计算机设备和存储介质
CN116522070A (zh) 一种机械零部件无监督智能故障诊断方法及***
CN115830317A (zh) 基于极坐标转换的U-Net增强注意模块的皮肤癌图像分割方法及装置
CN108062395A (zh) 一种轨道交通大数据分析方法及***
Wang et al. A CBAM‐GAN‐based method for super‐resolution reconstruction of remote sensing image
CN114240987A (zh) 变电站路径临时围栏屏障模型建立方法和装置
Jiang et al. Two‐stage learning framework for single image deraining
CN118036795A (zh) 业务质量预测方法、装置、计算机设备和存储介质
Jayaraman et al. Comprehensive Experimental Evaluation of Open Source Deep Learning Framework for Single Image Deraining Applications
CN116881092A (zh) 告警数据的预测方法、装置、设备和存储介质
CN118228793A (zh) 产品召回方法、故障识别方法、装置和计算机设备
CN116977855A (zh) 异质遥感影像变化检测方法、装置、电子设备及存储介质
CN117692346A (zh) 基于谱正则化变分自编码器的消息阻塞预测方法及装置
CN116796881A (zh) 水下地层回淤预测方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant