CN117150217B - 一种基于大数据的数据压缩处理方法 - Google Patents
一种基于大数据的数据压缩处理方法 Download PDFInfo
- Publication number
- CN117150217B CN117150217B CN202311441320.6A CN202311441320A CN117150217B CN 117150217 B CN117150217 B CN 117150217B CN 202311441320 A CN202311441320 A CN 202311441320A CN 117150217 B CN117150217 B CN 117150217B
- Authority
- CN
- China
- Prior art keywords
- data
- value
- mth
- taking
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013144 data compression Methods 0.000 title claims abstract description 22
- 238000003672 processing method Methods 0.000 title claims abstract description 16
- 238000000034 method Methods 0.000 claims abstract description 41
- 230000008569 process Effects 0.000 claims abstract description 22
- 238000010606 normalization Methods 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 7
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 238000007906 compression Methods 0.000 abstract description 9
- 230000006835 compression Effects 0.000 abstract description 9
- 230000000694 effects Effects 0.000 abstract description 9
- 238000012544 monitoring process Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 230000001133 acceleration Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000006073 displacement reaction Methods 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Mathematics (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Physics (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Operations Research (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
本发明涉及数据压缩技术领域,具体涉及一种基于大数据的数据压缩处理方法。方法包括:获取工业设备运行过程对应的振动数据序列;根据每个数据对应的窗口内数据的差异情况,得到每个数据对应的方差增益;根据每个数据与数据的正常波动范围的差异值、每个数据对应的窗口内数据的波动情况以及方差增益,得到每个数据的重要程度;基于每个数据的重要程度以及数据的正常波动范围,获得每个数据的损失容忍值;基于每种损失容忍值出现的频次对道格拉斯‑普克算法的阈值不断进行调整,确定最优阈值;基于最优阈值采用道格拉斯‑普克算法对振动数据序列进行压缩处理,获得压缩后的数据。本发明保证了工业设备运行数据的压缩效果。
Description
技术领域
本发明涉及数据压缩技术领域,具体涉及一种基于大数据的数据压缩处理方法。
背景技术
在工业设备监测和故障诊断过程中,设备振动数据是一种重要的监测指标。然而,设备振动数据通常包含大量的采样点和高频率成分,导致数据量庞大,给数据传输和存储带来挑战。为了有效地利用大数据减少存储和传输的成本,数据压缩成为一个重要的研究领域。
由于振动数据的精度要求不高,且振动数据是时序数据,故在进行数据存储时对数据的精度要求并非是必须无损的,故在对数据进行存储时可采用有损压缩的方式进行数据压缩存储。其中道格拉斯-普克算法在处理大规模数据集时有较好的效果,该算法的基本思想是通过删除一些不重要的点得到近似于原始数据的曲线,从而达到压缩数据的目的,但传统的道格拉斯-普克算法在对设备的振动数据进行压缩处理时,所选择的阈值为经验阈值,导致压缩效果较差。
发明内容
为了解决现有的道格拉斯-普克算法在对工业设备的振动数据进行压缩处理时存在的压缩效果较差的问题,本发明的目的在于提供一种基于大数据的数据压缩处理方法,所采用的技术方案具体如下:
本发明提供了一种基于大数据的数据压缩处理方法,该方法包括以下步骤:
获取工业设备运行过程对应的振动数据序列;
分别以所述振动数据序列中每个数据为中心数据,构建每个数据对应的窗口;根据每个数据对应的窗口内数据的差异情况,得到每个数据对应的方差增益;根据每个数据与数据的正常波动范围的差异值、每个数据对应的窗口内数据的波动情况以及所述方差增益,得到每个数据的重要程度;
基于每个数据的重要程度以及数据的正常波动范围,获得每个数据的损失容忍值;基于每种损失容忍值出现的频次对道格拉斯-普克算法的阈值不断进行调整,确定最优阈值;
基于所述最优阈值,采用道格拉斯-普克算法对振动数据序列进行压缩处理,获得压缩后的数据。
优选的,所述根据每个数据对应的窗口内数据的差异情况,得到每个数据对应的方差增益,包括:
对于所述振动数据序列中的第m个数据:
将第m个数据对应的窗口内所有数据的方差记为第一方差,将第m个数据对应的窗口内除第m个数据外的其他所有数据的方差记为第二方差;
将所述第一方差与所述第二方差的差值绝对值,确定为第m个数据对应的方差增益。
优选的,所述根据每个数据与数据的正常波动范围的差异值、每个数据对应的窗口内数据的波动情况以及所述方差增益,得到每个数据的重要程度,包括:
对于所述振动数据序列中的第m个数据:
根据第m个数据与数据的正常波动范围的差异,确定第m个数据对应的偏差值;将第m个数据对应的偏差值与工业设备可承受的最大差异值的比值,作为第m个数据的偏差程度;
根据第m个数据的偏差程度和第m个数据对应的方差增益,计算第m个数据的重要程度。
优选的,根据第m个数据与数据的正常波动范围的差异,确定第m个数据对应的偏差值,包括:
若第m个数据小于数据的正常波动范围的下限值,则将数据的正常波动范围的下限值与第m个数据的差值作为第m个数据对应的偏差值;若第m个数据大于等于数据的正常波动范围的下限值,且小于等于数据的正常波动范围的上限值,则令第m个数据对应的偏差值为0;若第m个数据大于数据的正常波动范围的上限值,则将第m个数据与数据的正常波动范围的上限值的差值作为第m个数据对应的偏差值。
优选的,采用如下公式计算第m个数据的重要程度:
;
其中,Gm为第m个数据的重要程度,fm为第m个数据对应的偏差值,fmax为工业设备可承受的最大差异值,为第m个数据对应的第一权重系数,/>为第m个数据对应的第二权重系数,Δdm为第m个数据对应的方差增益,exp( )为以自然常数为底数的指数函数。
优选的,第m个数据对应的第一权重系数和第二权重系数的获取,包括:
若第m个数据对应的方差增益大于等于预设方差增益阈值,且第m个数据的偏差程度为0,则将第m个数据对应的第一权重系数和第二权重系数均设置为基础权重;
若第m个数据对应的方差增益小于预设方差增益阈值,且第m个数据的偏差程度为0,则对第m个数据对应的窗口内所有数据的方差进行负相关归一化处理获得负相关归一化结果,将负相关归一化结果、基础权重以及预设第一超参数三者的乘积记为第一特征值;将基础权重与所述第一特征值之和作为第m个数据对应的第一权重系数,将基础权重与所述第一特征值的差值作为第m个数据对应的第二权重系数;其中,预设第一超参数大于0;
若第m个数据对应的方差增益大于等于预设方差增益阈值,且第m个数据的偏差程度不为0,则将基础权重、第m个数据的偏差程度以及预设第一超参数三者的乘积记为第二特征值;将基础权重与所述第二特征值之和作为第m个数据对应的第一权重系数,将基础权重与所述第二特征值的差值作为第m个数据对应的第二权重系数;
若第m个数据对应的方差增益小于预设方差增益阈值,且第m个数据的偏差程度不为0,则将基础权重、所述第一特征值、所述第二特征值三者之和作为第m个数据对应的第一权重系数,将基础权重与所述第一特征值的差值记为第一差值,将所述第一差值与所述第二特征值的差值作为第m个数据对应的第二权重系数。
优选的,所述基于每个数据的重要程度以及数据的正常波动范围,获得每个数据的损失容忍值,包括:
对于所述振动数据序列中的第m个数据:
将数据的正常波动范围的上限值与下限值的差值作为正常波动区间长度,将预设第二超参数与所述正常波动区间长度的乘积记为第一乘积;其中,预设第二超参数大于0;
将所述第一乘积与第m个数据的重要程度的乘积作为第m个数据的损失容忍值。
优选的,所述基于每种损失容忍值出现的频次对道格拉斯-普克算法的阈值不断进行调整,确定最优阈值,包括:
对所有种损失容忍值出现的频次进行曲线拟合获得第一曲线,其中,第一曲线的横坐标为损失容忍值,纵坐标为损失容忍值出现的频次;获取所述第一曲线上的极值点;
获取每个极值点对应的特征面积;按照特征面积从大到小的顺序对所有极值点对应的损失容忍值进行排序,获得损失容忍值序列;
将所述损失容忍值序列中的第一个元素作为道格拉斯-普克算法的阈值,采用道格拉斯-普克算法对振动数据序列中的数据进行简化调整,获得简化后的数据序列,计算振动数据序列与简化后的数据序列之间的匹配度,若匹配度大于匹配阈值,则将所述损失容忍值序列中的第二个元素作为道格拉斯-普克算法的阈值,采用道格拉斯-普克算法对振动数据序列中的数据进行简化调整,以此类推,直到振动数据序列与简化后的数据序列之间的匹配度小于或等于匹配阈值时为止,并将此时对应的道格拉斯-普克算法的阈值作为最优阈值。
优选的,获取每个极值点对应的特征面积,包括:
对于第n个极值点:
将第n个极值点对应的损失容忍值与预设第一数值的差值作为第n个极值点对应的关联区间的下限值,将第n个极值点对应的损失容忍值与预设第一数值之和作为第n个极值点对应的关联区间的上限值;基于所述关联区间的下限值和所述关联区间的上限值获得第n个极值点对应的关联区间;其中预设第一数值大于0;
将所述第一曲线在第n个极值点对应的关联区间与横轴围成的面积,作为第n个极值点对应的特征面积。
优选的,所述获取工业设备运行过程对应的振动数据序列,包括:
获取工业设备运行过程中每个采集时刻的振动数据;
按照时间先后顺序,对所有采集时刻的振动数据进行排序,获得工业设备运行过程对应的振动数据序列。
本发明至少具有如下有益效果:
本发明首先获取了工业设备运行过程对应的振动数据序列,然后分别对振动数据序列中每个数据对应的窗口内数据的差异情况进行分析,获得了每个数据的重要程度,根据数据的重要程度获取了每个数据的损失容忍值,根据损失容忍值进行限定,通过道格拉斯-普克对振动数据序列进行简化,基于简化结果不断调整道格拉斯-普克算法的阈值,进而获取了最优阈值,利用最优阈值对振动数据序列中的数据进行压缩处理,本发明结合工业设备振动数据的变化特征,自适应地确定了道格拉斯-普克算法的最优阈值,保证了工业设备振动数据的压缩效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为本发明实施例所提供的一种基于大数据的数据压缩处理方法的流程图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种基于大数据的数据压缩处理方法进行详细说明如下。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的一种基于大数据的数据压缩处理方法的具体方案。
一种基于大数据的数据压缩处理方法实施例:
本实施例所针对的具体场景为:由于工业设备在运行过程中产生的监测数据的数据量较多,在对其进行存储时所占存储空间较大,因此为了节省存储空间,往往对采集到的监测数据进行压缩处理,现有的道格拉斯-普克算法在对设备的监测数据进行压缩处理时,所选择的阈值为经验阈值,使得数据的压缩效果较差,本实施例对采集到的工业设备运行过程中的振动数据的变化情况进行分析,获得了每个数据的损失容忍值,进而基于每种损失容忍值出现的频次对道格拉斯-普克算法的阈值不断进行调整,确定了最优阈值,利用最优阈值,采用道格拉斯-普克算法对振动数据序列进行压缩处理,保证了设备振动数据的压缩效果。
本实施例提出了一种基于大数据的数据压缩处理方法,如图1所示,本实施例的一种基于大数据的数据压缩处理方法包括以下步骤:
步骤S1,获取工业设备运行过程对应的振动数据序列。
本实施例首先在工业设备上安装相应的传感器,用于采集工业设备运行过程中的振动数据,振动数据可以是振动加速度,可以是振动速度,也可以是振动位移等,其中,振动加速度:测量工业设备在某个时间点上的加速度值;振动速度:测量工业设备在某个时间点上的速度;振动位移:测量工业设备在某个时间点上的位移。本实施例中以一种振动数据为例进行说明,对于其他振动数据均可采用本实施例提供的方法进行处理。本实施例中振动数据每0.1秒采集一次,在具体应用中,实施者可根据具体情况设置振动数据的采集频率。至此,获得了工业设备运行过程中每个采集时刻的振动数据。
按照时间先后顺序,对工业设备运行过程中所有采集时刻的振动数据进行排序,获得工业设备运行过程对应的振动数据序列。
步骤S2,分别以所述振动数据序列中每个数据为中心数据,构建每个数据对应的窗口;根据每个数据对应的窗口内数据的差异情况,得到每个数据对应的方差增益;根据每个数据与数据的正常波动范围的差异值、每个数据对应的窗口内数据的波动情况以及所述方差增益,得到每个数据的重要程度。
本实施例已经获得了工业设备运行过程对应的振动数据序列,振动数据序列中的数据为待压缩数据,因此本实施例接下来将对振动数据序列中的数据进行分析。
分别以振动数据序列中每个数据为中心数据,构建大小为a×1的窗口,并作为每个数据对应的窗口,每个数据均为其对应的窗口内的中心数据,本实施例中的a的取值为7,在具体应用中,实施者可根据具体情况进行设置。
若某个数据对应的窗口内的数据的差异越大,说明该数据及其周围数据的波动越大,即其对应的方差越大。
对于所述振动数据序列中的第m个数据:
将第m个数据对应的窗口内所有数据的方差记为第一方差,将第m个数据对应的窗口内除第m个数据外的其他所有数据的方差记为第二方差;将所述第一方差与所述第二方差的差值绝对值,确定为第m个数据对应的方差增益。本实施例将第m个数据从对应的窗口中去除,计算剔除该数据后剩余所有数据的新方差与原始方差之间的差异,该差异反映了剔除第m个数据对整个窗口内数据方差的影响,如果方差增益较大,意味着第m个数据对其对应窗口内数据的方差影响较大,即第m个数据越有可能为异常数据;而如果方差增益较小,则意味着第m个数据对其对应窗口内数据的方差影响较小,即第m个数据越有可能为正常数据。
数据的重要程度和自身幅值及其邻域数据的变化相关,设备正常运行时有设备正常运行的数据取值范围,本实施例将根据第m个数据与数据的正常波动范围的差异,确定第m个数据对应的偏差值,然后结合偏差值和方差增益确定数据的重要程度。具体地,若第m个数据小于数据的正常波动范围的下限值,则将数据的正常波动范围的下限值与第m个数据的差值作为第m个数据对应的偏差值;若第m个数据大于等于数据的正常波动范围的下限值,且小于等于数据的正常波动范围的上限值,则令第m个数据对应的偏差值为0;若第m个数据大于数据的正常波动范围的上限值,则将第m个数据与数据的正常波动范围的上限值的差值作为第m个数据对应的偏差值。将第m个数据对应的偏差值与工业设备可承受的最大差异值的比值,作为第m个数据的偏差程度。数据的正常波动范围实施者根据具体情况进行设置,其中数据的正常波动范围的下限值小于数据的正常波动范围的上限值。需要说明的是,工业设备可承受的最大差异值实施者根据具体情况进行设置。第m个数据的重要程度的具体计算公式为:
;
其中,Gm为第m个数据的重要程度,fm为第m个数据对应的偏差值,fmax为工业设备可承受的最大差异值,为第m个数据对应的第一权重系数,/>为第m个数据对应的第二权重系数,Δdm为第m个数据对应的方差增益,exp( )为以自然常数为底数的指数函数。
表示第m个数据的偏差程度。当第m个数据的偏差程度越大、第m个数据对应的方差增益越大时,说明第m个数据越可能为异常数据,因此其重要程度越大;当第m个数据的偏差程度越小、第m个数据对应的方差增益越小时,说明第m个数据越可能为正常数据,因此其重要程度越小。
第m个数据对应的第一权重系数和第二权重系数的获取过程具体为:
若第m个数据对应的方差增益大于等于预设方差增益阈值,且第m个数据的偏差程度为0,则将第m个数据对应的第一权重系数和第二权重系数均设置为基础权重。本实施例中基础权重为0.5,因此此时将第m个数据对应的第一权重系数和第二权重系数均为0.5。本实施例中预设方差增益阈值为0.58,在具体应用中,实施者可根据具体情况进行设置。
若第m个数据对应的方差增益小于预设方差增益阈值,且第m个数据的偏差程度为0,则对第m个数据对应的窗口内所有数据的方差进行负相关归一化处理获得负相关归一化结果,将负相关归一化结果、基础权重以及预设第一超参数三者的乘积记为第一特征值;将基础权重与所述第一特征值之和作为第m个数据对应的第一权重系数,将基础权重与所述第一特征值的差值作为第m个数据对应的第二权重系数;其中,预设第一超参数大于0,本实施例中的预设第一超参数为3,在具体应用中,实施者可根据具体情况进行设置;该种情况下,第m个数据对应的第一权重系数和第二权重系数的具体计算公式为:
;
;
其中,为第m个数据对应的第一权重系数,/>为第m个数据对应的第二权重系数,β0为基础权重,bm为第m个数据对应的窗口内所有数据的方差,δ1为预设第一超参数。exp(-bm)表示第m个数据对应的窗口内所有数据的方差的负相关归一化结果,exp(-bm)×(β0×δ1)表示第一特征值。
若第m个数据对应的方差增益大于等于预设方差增益阈值,且第m个数据的偏差程度不为0,则将基础权重、第m个数据的偏差程度以及预设第一超参数三者的乘积记为第二特征值;将基础权重与所述第二特征值之和作为第m个数据对应的第一权重系数,将基础权重与所述第二特征值的差值作为第m个数据对应的第二权重系数;该种情况下,第m个数据对应的第一权重系数和第二权重系数的具体计算公式为:
;
;
其中,为第m个数据对应的第一权重系数,/>为第m个数据对应的第二权重系数,Δβ表示基础权重,fm为第m个数据对应的偏差值,fmax表示设备可承受的最大差异值。表示第二特征值。
若第m个数据对应的方差增益小于预设方差增益阈值,且第m个数据的偏差程度不为0,则将基础权重、所述第一特征值、所述第二特征值三者之和作为第m个数据对应的第一权重系数,将基础权重与所述第一特征值的差值记为第一差值,将所述第一差值与所述第二特征值的差值作为第m个数据对应的第二权重系数;该种情况下,第m个数据对应的第一权重系数和第二权重系数的具体计算公式为:
;
;
其中,为第m个数据对应的第一权重系数,/>为第m个数据对应的第二权重系数,β0表示基础权重,fm为第m个数据对应的偏差值,fmax表示设备可承受的最大差异值,bm为第m个数据对应的窗口内所有数据的方差,δ1为预设第一超参数。β0-exp(-bm)×(β0×δ1)表示第一差值。
采用上述方法,能够获得振动数据序列中每个数据的重要程度。
步骤S3,基于每个数据的重要程度以及数据的正常波动范围,获得每个数据的损失容忍值;基于每种损失容忍值出现的频次对道格拉斯-普克算法的阈值不断进行调整,确定最优阈值。
振动数据序列中的数据处于[g1,g2]内时,说明对应数据为正常运行数据,其中,g1表示数据的正常波动范围的下限值,g2表示数据的正常波动范围的上限值,正常运行数据中蕴含的信息较少,道格拉斯-普克算法的原理是通过保留关键的数据点来近似原始曲线,阈值参数在算法中起到控制抽象程度的作用,较小的阈值会保留更多细节,而较大的阈值会进行更大程度的数据点压缩。本实施例获得了振动数据序列中每个数据的重要程度,接下来本实施例将基于每个数据的重要程度以及数据的正常波动范围,获得每个数据的损失容忍值。
对于所述振动数据序列中的第m个数据:将数据的正常波动范围的上限值与下限值的差值作为正常波动区间长度,将预设第二超参数与所述正常波动区间长度的乘积记为第一乘积;其中,预设第二超参数大于0,本实施例中的预设第二超参数为1,在具体应用中,实施者可根据具体情况进行设置;将所述第一乘积与第m个数据的重要程度的乘积作为第m个数据的损失容忍值。
采用上述方法,获得振动数据序列中每个数据的损失容忍值,将相同的损失容忍值作为同一种损失容忍值,统计每种损失容忍值出现的频次,对所有种损失容忍值出现的频次进行曲线拟合获得一条曲线,将此时获得的曲线记为第一曲线,其中,第一曲线的横坐标为损失容忍值,纵坐标为损失容忍值出现的频次;获取所述第一曲线上的极值点;极值点的获取方法为现有技术,此处不再过多赘述。
对于第n个极值点:将第n个极值点对应的损失容忍值与预设第一数值的差值作为第n个极值点对应的关联区间的下限值,将第n个极值点对应的损失容忍值与预设第一数值之和作为第n个极值点对应的关联区间的上限值;基于所述关联区间的下限值和所述关联区间的上限值获得第n个极值点对应的关联区间;将所述第一曲线在第n个极值点对应的关联区间与横轴围成的面积,作为第n个极值点对应的特征面积。本实施例中预设第一数值得到具体获取方法为:第一乘积与常数15的比值,在具体应用中,实施者可根据具体情况进行设置。
采用上述方法,能够获得每个极值点对应的特征面积,按照特征面积从大到小的顺序对所有极值点对应的损失容忍值进行排序,获得损失容忍值序列。将所述损失容忍值序列中的第一个元素作为道格拉斯-普克算法的阈值,采用道格拉斯-普克算法对振动数据序列中的数据进行简化调整,获得简化后的数据序列;其中道格拉斯-普克算法的运行过程为:选择振动数据序列曲线上的起始点P和结束点Q,将它们加入结果点集合中;计算曲线上所有点到线段PQ的距离,找到距离最大的点M。如果M的距离小于道格拉斯-普克算法的阈值,则认为整条曲线已经足够简化,算法结束;如果M的距离大于或等于道格拉斯-普克算法的阈值,则将M加入结果点集合中。将曲线分为两段,一段是起始点P到点M,另一段是点M到结束点Q。对这两段曲线分别递归地应用道格拉斯-普克算法。将递归得到的结果点集合合并起来,得到最终的简化曲线,简化曲线上的数据构成简化后的数据序列。计算振动数据序列与简化后的数据序列的DTW距离,将计算获得的DTW距离的负相关映射值作为振动数据序列与简化后的数据序列之间的匹配度,DTW距离的负相关映射值可以用指数函数来表示,例如:将以自然常数为底数,以负的所述DTW距离为指数的指数函数的值作为匹配度;也可以用倒数来表示,即将所述DTW距离的倒数作为匹配度。DTW距离的计算方法为现有技术,此处不再过多赘述。若匹配度大于匹配阈值,则将所述损失容忍值序列中的第二个元素作为道格拉斯-普克算法的阈值,采用道格拉斯-普克算法对振动数据序列中的数据进行简化调整,获得简化后的数据序列,计算振动数据序列与简化后的数据序列之间的匹配度,若此时计算出来的匹配度大于匹配阈值,则将所述损失容忍值序列中的第三个元素作为道格拉斯-普克算法的阈值,以此类推,直到振动数据序列与简化后的数据序列之间的匹配度小于或等于匹配阈值时为止,并将此时对应的道格拉斯-普克算法的阈值作为最优阈值。
至此,采用本实施例提供的方法,获得了最优阈值。
步骤S4,基于所述最优阈值,采用道格拉斯-普克算法对振动数据序列进行压缩处理,获得压缩后的数据。
本实施例已经获得了最优阈值,接下来本实施例基于最优阈值,采用道格拉斯-普克算法对工业设备运行过程对应的振动数据序列进行压缩处理,获得压缩后的数据。
至此,采用本实施例提供的方法完成了对工业设备运行过程中的振动数据的压缩处理,保证了设备振动数据的压缩效果。
本实施例首先获取了工业设备运行过程对应的振动数据序列,然后分别对振动数据序列中每个数据对应的窗口内数据的差异情况进行分析,获得了每个数据的重要程度,根据数据的重要程度获取了每个数据的损失容忍值,根据损失容忍值进行限定,通过道格拉斯-普克对振动数据序列进行简化,基于简化结果不断调整道格拉斯-普克算法的阈值,进而获取了最优阈值,利用最优阈值对振动数据序列中的数据进行压缩处理,本实施例结合工业设备振动数据的变化特征,自适应地确定了道格拉斯-普克算法的最优阈值,保证了工业设备振动数据的压缩效果。
需要说明的是:以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种基于大数据的数据压缩处理方法,其特征在于,该方法包括以下步骤:
获取工业设备运行过程对应的振动数据序列;
分别以所述振动数据序列中每个数据为中心数据,构建每个数据对应的窗口;根据每个数据对应的窗口内数据的差异情况,得到每个数据对应的方差增益;根据每个数据与数据的正常波动范围的差异值、每个数据对应的窗口内数据的波动情况以及所述方差增益,得到每个数据的重要程度;
基于每个数据的重要程度以及数据的正常波动范围,获得每个数据的损失容忍值;基于每种损失容忍值出现的频次对道格拉斯-普克算法的阈值不断进行调整,确定最优阈值;
基于所述最优阈值,采用道格拉斯-普克算法对振动数据序列进行压缩处理,获得压缩后的数据;
所述基于每个数据的重要程度以及数据的正常波动范围,获得每个数据的损失容忍值,包括:
对于所述振动数据序列中的第m个数据:
将数据的正常波动范围的上限值与下限值的差值作为正常波动区间长度,将预设第二超参数与所述正常波动区间长度的乘积记为第一乘积;其中,预设第二超参数大于0;
将所述第一乘积与第m个数据的重要程度的乘积作为第m个数据的损失容忍值;
所述基于每种损失容忍值出现的频次对道格拉斯-普克算法的阈值不断进行调整,确定最优阈值,包括:
对所有每种损失容忍值出现的频次进行曲线拟合获得第一曲线,其中,第一曲线的横坐标为损失容忍值,纵坐标为损失容忍值出现的频次;获取所述第一曲线上的极值点;
获取每个极值点对应的特征面积;按照特征面积从大到小的顺序对所有极值点对应的损失容忍值进行排序,获得损失容忍值序列;
将所述损失容忍值序列中的第一个元素作为道格拉斯-普克算法的阈值,采用道格拉斯-普克算法对振动数据序列中的数据进行简化调整,获得简化后的数据序列,计算振动数据序列与简化后的数据序列之间的匹配度,若匹配度大于匹配阈值,则将所述损失容忍值序列中的第二个元素作为道格拉斯-普克算法的阈值,采用道格拉斯-普克算法对振动数据序列中的数据进行简化调整,以此类推,直到振动数据序列与简化后的数据序列之间的匹配度小于或等于匹配阈值时为止,并将此时对应的道格拉斯-普克算法的阈值作为最优阈值。
2.根据权利要求1所述的一种基于大数据的数据压缩处理方法,其特征在于,所述根据每个数据对应的窗口内数据的差异情况,得到每个数据对应的方差增益,包括:
对于所述振动数据序列中的第m个数据:
将第m个数据对应的窗口内所有数据的方差记为第一方差,将第m个数据对应的窗口内除第m个数据外的其他所有数据的方差记为第二方差;
将所述第一方差与所述第二方差的差值绝对值,确定为第m个数据对应的方差增益。
3.根据权利要求1所述的一种基于大数据的数据压缩处理方法,其特征在于,所述根据每个数据与数据的正常波动范围的差异值、每个数据对应的窗口内数据的波动情况以及所述方差增益,得到每个数据的重要程度,包括:
对于所述振动数据序列中的第m个数据:
根据第m个数据与数据的正常波动范围的差异,确定第m个数据对应的偏差值;将第m个数据对应的偏差值与工业设备可承受的最大差异值的比值,作为第m个数据的偏差程度;
根据第m个数据的偏差程度和第m个数据对应的方差增益,计算第m个数据的重要程度。
4.根据权利要求3所述的一种基于大数据的数据压缩处理方法,其特征在于,根据第m个数据与数据的正常波动范围的差异,确定第m个数据对应的偏差值,包括:
若第m个数据小于数据的正常波动范围的下限值,则将数据的正常波动范围的下限值与第m个数据的差值作为第m个数据对应的偏差值;若第m个数据大于等于数据的正常波动范围的下限值,且小于等于数据的正常波动范围的上限值,则令第m个数据对应的偏差值为0;若第m个数据大于数据的正常波动范围的上限值,则将第m个数据与数据的正常波动范围的上限值的差值作为第m个数据对应的偏差值。
5.根据权利要求3所述的一种基于大数据的数据压缩处理方法,其特征在于,采用如下公式计算第m个数据的重要程度:
;
其中,Gm为第m个数据的重要程度,fm为第m个数据对应的偏差值,fmax为工业设备可承受的最大差异值,为第m个数据对应的第一权重系数,/>为第m个数据对应的第二权重系数,Δdm为第m个数据对应的方差增益,exp( )为以自然常数为底数的指数函数。
6.根据权利要求5所述的一种基于大数据的数据压缩处理方法,其特征在于,第m个数据对应的第一权重系数和第二权重系数的获取,包括:
若第m个数据对应的方差增益大于等于预设方差增益阈值,且第m个数据的偏差程度为0,则将第m个数据对应的第一权重系数和第二权重系数均设置为基础权重;
若第m个数据对应的方差增益小于预设方差增益阈值,且第m个数据的偏差程度为0,则对第m个数据对应的窗口内所有数据的方差进行负相关归一化处理获得负相关归一化结果,将负相关归一化结果、基础权重以及预设第一超参数三者的乘积记为第一特征值;将基础权重与所述第一特征值之和作为第m个数据对应的第一权重系数,将基础权重与所述第一特征值的差值作为第m个数据对应的第二权重系数;其中,预设第一超参数大于0;
若第m个数据对应的方差增益大于等于预设方差增益阈值,且第m个数据的偏差程度不为0,则将基础权重、第m个数据的偏差程度以及预设第一超参数三者的乘积记为第二特征值;将基础权重与所述第二特征值之和作为第m个数据对应的第一权重系数,将基础权重与所述第二特征值的差值作为第m个数据对应的第二权重系数;
若第m个数据对应的方差增益小于预设方差增益阈值,且第m个数据的偏差程度不为0,则将基础权重、所述第一特征值、所述第二特征值三者之和作为第m个数据对应的第一权重系数,将基础权重与所述第一特征值的差值记为第一差值,将所述第一差值与所述第二特征值的差值作为第m个数据对应的第二权重系数。
7.根据权利要求1所述的一种基于大数据的数据压缩处理方法,其特征在于,获取每个极值点对应的特征面积,包括:
对于第n个极值点:
将第n个极值点对应的损失容忍值与预设第一数值的差值作为第n个极值点对应的关联区间的下限值,将第n个极值点对应的损失容忍值与预设第一数值之和作为第n个极值点对应的关联区间的上限值;基于所述关联区间的下限值和所述关联区间的上限值获得第n个极值点对应的关联区间;其中预设第一数值大于0;
将所述第一曲线在第n个极值点对应的关联区间与横轴围成的面积,作为第n个极值点对应的特征面积。
8.根据权利要求1所述的一种基于大数据的数据压缩处理方法,其特征在于,所述获取工业设备运行过程对应的振动数据序列,包括:
获取工业设备运行过程中每个采集时刻的振动数据;
按照时间先后顺序,对所有采集时刻的振动数据进行排序,获得工业设备运行过程对应的振动数据序列。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311441320.6A CN117150217B (zh) | 2023-11-01 | 2023-11-01 | 一种基于大数据的数据压缩处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311441320.6A CN117150217B (zh) | 2023-11-01 | 2023-11-01 | 一种基于大数据的数据压缩处理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117150217A CN117150217A (zh) | 2023-12-01 |
CN117150217B true CN117150217B (zh) | 2024-01-26 |
Family
ID=88908632
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311441320.6A Active CN117150217B (zh) | 2023-11-01 | 2023-11-01 | 一种基于大数据的数据压缩处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117150217B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117459073B (zh) * | 2023-12-26 | 2024-03-05 | 大连亚明汽车部件股份有限公司 | 一种热泵***运行数据的智能管理方法 |
CN117857648A (zh) * | 2024-03-04 | 2024-04-09 | 广东华宸建设工程质量检测有限公司 | 基于大数据的建设工程管理云服务器通信方法 |
CN117954037A (zh) * | 2024-03-26 | 2024-04-30 | 光大宏远(天津)技术有限公司 | 一种心理测评数据存储方法及*** |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101477687A (zh) * | 2009-01-22 | 2009-07-08 | 上海交通大学 | 复杂背景下的棋盘格角点检测方法 |
CN107644069A (zh) * | 2017-09-11 | 2018-01-30 | 千寻位置网络有限公司 | 高密度监测数据的抽稀方法 |
CN113032378A (zh) * | 2021-03-05 | 2021-06-25 | 北京工业大学 | 一种基于聚类算法和模式挖掘的船舶行为模式挖掘方法 |
CN116505953A (zh) * | 2023-06-30 | 2023-07-28 | 湖南腾琨信息科技有限公司 | 基于bim和gis的海量地图数据优化压缩处理方法 |
-
2023
- 2023-11-01 CN CN202311441320.6A patent/CN117150217B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101477687A (zh) * | 2009-01-22 | 2009-07-08 | 上海交通大学 | 复杂背景下的棋盘格角点检测方法 |
CN107644069A (zh) * | 2017-09-11 | 2018-01-30 | 千寻位置网络有限公司 | 高密度监测数据的抽稀方法 |
CN113032378A (zh) * | 2021-03-05 | 2021-06-25 | 北京工业大学 | 一种基于聚类算法和模式挖掘的船舶行为模式挖掘方法 |
CN116505953A (zh) * | 2023-06-30 | 2023-07-28 | 湖南腾琨信息科技有限公司 | 基于bim和gis的海量地图数据优化压缩处理方法 |
Non-Patent Citations (1)
Title |
---|
自动设置阈值的道格拉斯-普克压缩法;赵永清;山西煤炭管理干部学院学报;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN117150217A (zh) | 2023-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN117150217B (zh) | 一种基于大数据的数据压缩处理方法 | |
CN117407700B (zh) | 一种带电作业过程中作业环境的监测方法 | |
WO2021126079A1 (en) | Method and apparatus for storing and querying time series data, and server and storage medium thereof | |
CN116320042B (zh) | 边缘计算的物联终端监测控制*** | |
CN116592951B (zh) | 一种电缆数据智能采集方法及*** | |
CN117459072B (zh) | 用于自生氧装置性能测试的数据处理方法 | |
CN116975503B (zh) | 一种土壤侵蚀信息管理方法及*** | |
CN115329910A (zh) | 一种企业生产排放数据智能处理方法 | |
CN117167903A (zh) | 基于人工智能的暖通设备异物故障检测方法 | |
CN102595138B (zh) | 图像压缩的方法及装置、终端 | |
CN117313020B (zh) | 一种承载式张力传感器数据处理方法 | |
CN117459073B (zh) | 一种热泵***运行数据的智能管理方法 | |
CN117272479B (zh) | 基于荷载时程分析的高强度土工膜顶破强度预测方法 | |
CN116776094B (zh) | 一种晶振温度测试数据智能分析存储*** | |
CN112700039B (zh) | 一种火电厂负荷运行数据的稳态检测与提取方法 | |
CN109684970B (zh) | 一种结构动力响应的移动主成分分析的窗口长度确定方法 | |
EP2803141B1 (en) | Method and device for compressing data representing a time dependent signal | |
CN117851414B (zh) | 一种避雷器老化试验数据存储方法及*** | |
CN112200037A (zh) | 一种微弱信号检测方法、终端和计算机可读存储介质 | |
CN117155402B (zh) | 基于rpa技术的公卫健康智能体检服务*** | |
CN110543505B (zh) | 一种基于时间序列数据的监测*** | |
CN114087940B (zh) | 一种多功能游标卡尺使用方法 | |
CN117390379B (zh) | 在线信号测量装置、信号特征的置信度测量装置 | |
CN113468234B (zh) | 一种监控数据处理方法、装置、***及存储介质 | |
CN117470528B (zh) | 一种型钢混凝土结构的磁流变减震器的性能检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |