CN114595270A - 基于大数据的时序数据高效压缩方法 - Google Patents

基于大数据的时序数据高效压缩方法 Download PDF

Info

Publication number
CN114595270A
CN114595270A CN202210165461.9A CN202210165461A CN114595270A CN 114595270 A CN114595270 A CN 114595270A CN 202210165461 A CN202210165461 A CN 202210165461A CN 114595270 A CN114595270 A CN 114595270A
Authority
CN
China
Prior art keywords
sequence
time
hough
values
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210165461.9A
Other languages
English (en)
Other versions
CN114595270B (zh
Inventor
肖书英
徐兰英
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Shenside Cultural And Creative Co ltd
Original Assignee
Nanjing Yunbati Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Yunbati Information Technology Co ltd filed Critical Nanjing Yunbati Information Technology Co ltd
Priority to CN202210165461.9A priority Critical patent/CN114595270B/zh
Publication of CN114595270A publication Critical patent/CN114595270A/zh
Application granted granted Critical
Publication of CN114595270B publication Critical patent/CN114595270B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2474Sequence data queries, e.g. querying versioned data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Fuzzy Systems (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明涉及基于大数据的时序数据高效压缩方法,该方法步骤包括:获取时序数据中各个数值对应的时间戳,对时间戳进行压缩;获取时序数据中数值连续重复出现的次数值,得到去掉连续重复数值的数值序列
Figure 100004_DEST_PATH_IMAGE001
及与数值序列
Figure 47957DEST_PATH_IMAGE001
中每个数值所对应的次数值的第一序列
Figure 660204DEST_PATH_IMAGE002
;对第一序列
Figure 327857DEST_PATH_IMAGE002
进行压缩得到第三序列;对数值序列S进行霍夫变换得到霍夫点数列,根据霍夫点数列获取去掉连续重复霍夫点的霍夫点序列
Figure 100004_DEST_PATH_IMAGE003
及获取霍夫点序列
Figure 824698DEST_PATH_IMAGE003
中连续重复出现的霍夫点所对应次数值的第二序列
Figure 583444DEST_PATH_IMAGE004
,对第二序列
Figure 304275DEST_PATH_IMAGE004
进行压缩得到第四序列,完成压缩,本发明方法通过对连续重复的数值进行压缩,在对压缩后的数值在进行压缩,从而提高压缩率,实用性强,值得推广。

Description

基于大数据的时序数据高效压缩方法
技术领域
本发明涉及数据压缩技术领域,具体涉及基于大数据的时序数据高效压缩方法。
背景技术
时序数据是指数据根据时间戳升序排列的数据集合。物联网、工业互联网、车联网等智能互联技术在各个行业场景下快速普及应用,导致联网传感器、智能设备数量急剧增加,随之而来的海量时序监控数据存储、处理问题,也为时序数据库高效压缩、存储数据能力提出了更高的要求。
针对时序数据的压缩时,主要分为无损压缩与有损压缩。无损压缩利用数据统计冗余进行压缩,压缩率受统计冗余限制,压缩率不高,有损压缩通常利用拟合的思想,在压缩过程中损失一定的信息来换取高的压缩率,因此,需要基于大数据的时序数据高效压缩方法。
发明内容
本发明提供一种能在提高压缩率的同时保证数据完整性的基于大数据的时序数据高效压缩方法,以解决现有的问题。
本发明的基于大数据的时序数据高效压缩方法采用如下技术方案:该方法包括:
获取时序数据中各个数值对应的时间戳,并对时间戳进行压缩得到时间戳压缩信息,时间戳压缩信息包括:初始时间戳、时间戳递增量以及时间戳数量;
获取时序数据中数值连续重复出现的次数值,根据时序数据的数值顺序获取去掉 连续重复数值的数值序列
Figure 100002_DEST_PATH_IMAGE001
,根据数值序列
Figure 60986DEST_PATH_IMAGE001
获取数值序列
Figure 768042DEST_PATH_IMAGE001
中每个数值所对应的次数值 的第一序列
Figure 387154DEST_PATH_IMAGE002
,将第一序列
Figure 75625DEST_PATH_IMAGE002
中的连续相同的次数值进行过滤得到作为第一压缩信息的第 三序列;
构建数值序列S对应的坐标点序列,并获取所述坐标点序列中两两相邻的坐标点之间的直线方程,对获取的直线方程进行霍夫变换得到霍夫点数列;
根据霍夫点数列获取去掉连续重复霍夫点的霍夫点序列
Figure 100002_DEST_PATH_IMAGE003
Figure 587377DEST_PATH_IMAGE004
霍夫点序列
Figure 100002_DEST_PATH_IMAGE005
中 每个连续重复出现的霍夫点所对应次数值的第二序列
Figure 98124DEST_PATH_IMAGE006
,利用对第一序列
Figure 893780DEST_PATH_IMAGE002
的过滤方法对 第二序列
Figure 18731DEST_PATH_IMAGE006
过滤得到第四序列,将第四序列及霍夫点序列
Figure 643878DEST_PATH_IMAGE003
作为压缩后的第二压缩信息;
将时间戳压缩信息、第一压缩信息、第二压缩信息及时序数据的第一个数值与最后一个数值存储,得到压缩数据。
优选的,对时间戳进行压缩得到时间戳压缩信息的步骤包括:
根据各个时间戳获取初始时间戳、时间戳数量、时间戳递增量;
根据初始时间戳、时间戳数量、时间戳递增量,将各个时间戳压缩为时间戳压缩信息。
优选的,获取时序数据中数值连续重复出现的次数值,根据时序数据的数值顺序 获取去掉连续重复数值的数值序列
Figure 879687DEST_PATH_IMAGE001
,根据数值序列获取数值序列
Figure 795428DEST_PATH_IMAGE001
中每个数值所对应的 次数值的第一序列
Figure 779696DEST_PATH_IMAGE002
的步骤包括:
根据时间戳顺序获取时序数据中各个时间戳对应的数值的原始序列;
根据原始序列中数值排列的顺序过滤掉原始序列中的连续重复的数值得到数值 序列
Figure 203724DEST_PATH_IMAGE001
获取原始序列中数值连续重复的次数值,根据次数值和数值序列
Figure 548949DEST_PATH_IMAGE001
得到数值序列
Figure 758345DEST_PATH_IMAGE001
中每个数值所对应的次数值的第一序列
Figure 162782DEST_PATH_IMAGE002
优选的,将第一序列
Figure 57794DEST_PATH_IMAGE002
中的连续相同的次数值进行过滤得到作为第一压缩信息的 第三序列步骤包括:
获取第一序列
Figure 979614DEST_PATH_IMAGE002
中连续重复出现的次数值;
将第一序列
Figure 27204DEST_PATH_IMAGE002
中的连续且相同的次数值中的第一个次数值保留,并将保留的第一 个次数值后与第一个次数值连续且相同的次数值省略得到第三序列,第三序列即为第一压 缩信息,其中,每个省略的次数值与相邻的次数值用“:”分隔开。
优选的,构建数值序列S对应的坐标点序列的步骤包括:
对数值序列
Figure 851810DEST_PATH_IMAGE001
中数值按顺序进行编号;
以每个编号作为点坐标的横坐标,每个编号对应的数值作为纵坐标,得到坐标点序列。
优选的,对获取的直线方程进行霍夫变换得到霍夫点数列的步骤包括:
将直线方程转换到霍夫空间中,得到多个霍夫空间中的霍夫点坐标;
根据霍夫点坐标顺序获取霍夫点数列。
优选的,还包括:获取时间戳压缩信息、第一压缩信息、第二压缩信息及第三压缩信息的压缩率;根据压缩率、时间戳压缩信息、第一压缩信息、第二压缩信息及第三压缩信息对时序数据进行解压。
优选的,获取时间戳压缩信息、第一压缩信息、第二压缩信息及第三压缩信息的压缩率的步骤包括:
根据下式(1)计算压缩率
Figure 100002_DEST_PATH_IMAGE007
Figure 797900DEST_PATH_IMAGE008
(1)
其中,
Figure 100002_DEST_PATH_IMAGE009
表示时间戳数量;
Figure 553104DEST_PATH_IMAGE010
表示第一序列
Figure 471513DEST_PATH_IMAGE002
去除连续相同的次数值之后的次数值 的个数;
Figure 100002_DEST_PATH_IMAGE011
表示第四序列中的次数值的个数;
Figure 535196DEST_PATH_IMAGE012
表示霍夫点序列中的霍夫点的个数;
Figure DEST_PATH_IMAGE013
表示数 值序列
Figure 234161DEST_PATH_IMAGE001
中数值的总个数。
优选的,根据压缩率、时间戳压缩信息、第一压缩信息、第二压缩信息及第三压缩信息对时序数据进行解压的步骤包括:
时间戳还原:根据时间戳压缩信息中的初始时间、时间戳递增量及时间戳数量,即可计算得到所有的时间戳;
数值还原:
根据第二压缩信息获取霍夫点的数量,霍夫点的数量对应坐标空间中的直线;
获取相邻两条直线之间的交点,该交点的纵坐标即为时序数据的部分数值,得到交点的纵坐标序列;
根据纵坐标序列及第三压缩信息中的第一个数值、最后一个数值,得到第一解压序列;根据第四序列中的分隔符“:”,对第四序列解压得到第二序列G;
根据第二序列G与第一解压序列将时序数据的数值恢复得到数值序列S;
根据第三序列中分隔符“:”,对第三序列解压得到第一序列N;
根据第一序列N、数值序列S得到时序数据的数值,即完成解压。
本发明的有益效果是:本发明的基于大数据的时序数据高效压缩方法,通过对时 序数据中连续重复数值进行过滤得到数值序列
Figure 465160DEST_PATH_IMAGE001
,并根据时序数据中数值连续重复的次数 值获得数值序列中每个数值对应的重复次数值的第一序列N,然后对第一序列N的连续重复 数值进行过滤,实现对时序数据中数值的第一次压缩,其次通过构建数值序列S对应的坐标 点序列,获取相邻坐标点的直线方程,对直线方程进行霍夫变化得到去除连续重复霍夫点 的霍夫点序列
Figure 487343DEST_PATH_IMAGE003
,根据霍夫点序列
Figure 951954DEST_PATH_IMAGE003
得到霍夫点所对应次数值的第二序列
Figure 794008DEST_PATH_IMAGE006
,然后对第二序 列
Figure 766381DEST_PATH_IMAGE006
压缩得到第四序列,实现对数值序列S中重复数值的再次压缩,本方法对时序数据的数 值进行了两次压缩,且同时对数值所对应的次数值进行压缩,从而提高了压缩率,且保证了 压缩信息的整性,其次,在压缩过程中,本方法将连续重复的数值或者次数值省略并用分隔 符“:”隔开,每个分隔符的仅占一个字节,从而使得极大的提高了时序数据的压缩率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的基于大数据的时序数据高效压缩方法的实施例总体步骤的流程图;
图2为实施例中时序数据图;
图3为图2时序数据压缩后的数据图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的基于大数据的时序数据高效压缩方法的实施例,该方法包括:
S1、获取时序数据中各个数值对应的时间戳,并对时间戳进行压缩得到时间戳压 缩信息,时间戳压缩信息包括:初始时间戳、时间戳递增量以及时间戳数量;其中,如图2所 示,
Figure 846332DEST_PATH_IMAGE014
表示第
Figure DEST_PATH_IMAGE015
个时间戳,
Figure 544161DEST_PATH_IMAGE016
表示第
Figure 388358DEST_PATH_IMAGE015
个时间戳对应的数值,具体的,由于时序 数据时间戳为稳定递增的,每次递增量一致,根据各个时间戳获取初始时间戳、时间戳数 量、时间戳递增量,时间戳的增量
Figure DEST_PATH_IMAGE017
,将初始时间戳记为
Figure 790520DEST_PATH_IMAGE018
、时间戳数量记为
Figure 601062DEST_PATH_IMAGE009
、 时间戳递增量
Figure DEST_PATH_IMAGE019
,则时间戳压缩后的时间戳压缩信息为
Figure 938633DEST_PATH_IMAGE020
,并将时间戳压缩信息存 储。
S2、由于时序数据的数值具有规律性,且变化稳定,相近的时间内可能存在数值未 变化的情况,因此,获取时序数据中数值连续重复出现的次数值,根据时序数据的数值顺序 获取去掉连续重复数值的数值序列
Figure DEST_PATH_IMAGE021
,根据数值序列获取数值序列
Figure 332443DEST_PATH_IMAGE021
中每个数值所对应的 次数值的第一序列
Figure 397351DEST_PATH_IMAGE022
,将第一序列
Figure 61682DEST_PATH_IMAGE002
中的连续相同的次数值进行过滤得到作为第一压缩信 息的第三序列。
具体的,S21、获取时序数据中数值连续重复出现的次数值,根据时序数据的数值 顺序获取去掉连续重复数值的数值序列
Figure 537531DEST_PATH_IMAGE001
,根据数值序列获取数值序列
Figure 841474DEST_PATH_IMAGE001
中每个数值所对 应的次数值的第一序列
Figure 460805DEST_PATH_IMAGE002
的步骤包括:S211、根据时间戳顺序获取时序数据中各个时间戳 对应的数值的原始序列,即如图2所示,时序数据数值的原始序列为
Figure DEST_PATH_IMAGE023
,获取 时序数据中原始序列中的数值连续重复出现的次数值,根据数值连续重复出现的次数值能 统计得到时序数值数列
Figure 415860DEST_PATH_IMAGE024
,其中
Figure DEST_PATH_IMAGE025
为时序数值去掉连续重复 的值之后的第一个数值;
Figure 157551DEST_PATH_IMAGE013
为时序数值去掉连续重复的值之后的所有数值个数,
Figure 683211DEST_PATH_IMAGE026
表示去 掉连续重复的值之后的第
Figure 345048DEST_PATH_IMAGE013
个数值,即最后一个数值;
Figure DEST_PATH_IMAGE027
表示
Figure 46288DEST_PATH_IMAGE025
连续重复出现了
Figure 129519DEST_PATH_IMAGE027
次。 S212、则根据时序数值数列
Figure 345737DEST_PATH_IMAGE024
即可得到去掉连续重复数值的 数值数列
Figure 306871DEST_PATH_IMAGE028
及数值重复次数值的第一序列
Figure DEST_PATH_IMAGE029
;例如,时序数 据的数值为
Figure 33256DEST_PATH_IMAGE030
,能统计得到一个时序数值数列
Figure DEST_PATH_IMAGE031
,其中表示
Figure DEST_PATH_IMAGE033
连续出现
Figure 490651DEST_PATH_IMAGE034
次后,
Figure DEST_PATH_IMAGE035
连续出现
Figure 272794DEST_PATH_IMAGE034
次,接着
Figure 286886DEST_PATH_IMAGE033
出现
Figure 127498DEST_PATH_IMAGE033
次。
具体的,S22、将第一序列
Figure 53996DEST_PATH_IMAGE002
中的连续相同的次数值进行过滤得到作为第一压缩信 息的第三序列步骤包括:具体的,对
Figure 41544DEST_PATH_IMAGE036
中的连续相同的次数值进 行省略得到作为第一压缩信息的第三序列,省略的次数值与相邻的次数值之间用“
Figure DEST_PATH_IMAGE037
”分隔 开,则第三序列为
Figure 905333DEST_PATH_IMAGE038
,其中
Figure DEST_PATH_IMAGE039
为压缩后第一个重复次数值;
Figure 576616DEST_PATH_IMAGE040
为压缩后第二个 数值重复次数值;
Figure DEST_PATH_IMAGE041
表示
Figure 47918DEST_PATH_IMAGE040
之后的一个重复次数值与
Figure 522762DEST_PATH_IMAGE040
相等,“:”表示分隔符,每两个相 邻的分割符之间为一个省略的次数值;
Figure 862345DEST_PATH_IMAGE042
为第
Figure DEST_PATH_IMAGE043
个重复次数值。
S3、结合有损拟合局部数据成线性关系的思想,认为去掉连续重复数值的数值数 列
Figure 184873DEST_PATH_IMAGE001
中局部数据也存在的线性关系,因此,先构建数值序列S对应的坐标点序列,并获取所 述坐标点序列中两两相邻的坐标点之间的直线方程,对获取的直线方程进行霍夫变换得到 霍夫点数列。
具体的,S31、构建数值序列S对应的坐标点序列的步骤包括:S311、对数值序列
Figure 905704DEST_PATH_IMAGE001
中 每个数值按顺序进行编号;S312、以每个编号作为点坐标的横坐标,数值序列
Figure 122971DEST_PATH_IMAGE028
中的数值作为纵坐标,得到坐标点序列,坐标点序列即为
Figure 751399DEST_PATH_IMAGE044
具体的,S32、对获取的直线方程进行霍夫变换得到霍夫点数列的步骤包括:S321、 根据坐标点序列中相邻两个坐标点确定一条直线,设得到
Figure DEST_PATH_IMAGE045
个直线方程,并将
Figure 974438DEST_PATH_IMAGE045
个直 线方程转换到霍夫空间中,得到
Figure 928488DEST_PATH_IMAGE045
个霍夫空间中的霍夫点坐标
Figure 863077DEST_PATH_IMAGE046
;S322、按照得到的
Figure 872359DEST_PATH_IMAGE045
个霍夫空间中霍夫点获取的此些 点连续重复出现的次数值,统计得到霍夫点数列
Figure DEST_PATH_IMAGE047
,其 中
Figure 169479DEST_PATH_IMAGE048
表示去掉连续重复霍夫点之后的霍夫空间中第
Figure 232113DEST_PATH_IMAGE033
个霍夫点;
Figure DEST_PATH_IMAGE049
表示
Figure 480430DEST_PATH_IMAGE048
霍夫点 连续重复出现的次数值;
Figure 201392DEST_PATH_IMAGE050
为去掉连续重复霍夫点之后霍夫空间中霍夫点的个数;
Figure DEST_PATH_IMAGE051
为去掉连续重复霍夫点之后霍夫空间中第
Figure 931449DEST_PATH_IMAGE050
个霍夫点;
Figure 712454DEST_PATH_IMAGE052
Figure 136483DEST_PATH_IMAGE051
霍夫点连续重复出现的 次数值。
S4、根据霍夫点数列获取去掉连续重复霍夫点的霍夫点序列
Figure 159671DEST_PATH_IMAGE003
Figure 290438DEST_PATH_IMAGE004
霍夫点序列
Figure 242345DEST_PATH_IMAGE005
中每个连续重复出现的霍夫点所对应次数值的第二序列
Figure 153669DEST_PATH_IMAGE006
,利用对第一序列
Figure 980548DEST_PATH_IMAGE002
的过滤方法 对第二序列
Figure 841188DEST_PATH_IMAGE006
过滤得到第四序列,将第四序列及霍夫点序列
Figure 213264DEST_PATH_IMAGE003
作为压缩后的第二压缩信息。 具体的,S41、根据霍夫点数据序列
Figure 861152DEST_PATH_IMAGE047
得到去掉连续重复 点之后霍夫空间中霍夫点序列
Figure DEST_PATH_IMAGE053
以及霍夫点连续重复次数值的第 二序列
Figure 789924DEST_PATH_IMAGE054
。S42、利用对第一序列
Figure 692021DEST_PATH_IMAGE002
的过滤方法对第二序列
Figure 490125DEST_PATH_IMAGE006
过滤得到第四 序列,将第四序列及霍夫点序列
Figure 313725DEST_PATH_IMAGE003
作为压缩后的第二压缩信息的具体步骤包括:对霍夫点 连续重复次数值的第二序列
Figure 577347DEST_PATH_IMAGE054
进行省略,省略的次数值与相邻的次数值之 间用“
Figure 52059DEST_PATH_IMAGE037
”分隔开,得到
Figure DEST_PATH_IMAGE055
,其中
Figure 641304DEST_PATH_IMAGE056
为压缩后第一个霍夫点连续重复的 次数值;
Figure DEST_PATH_IMAGE057
为压缩后第二个霍夫点连续重复的次数值;
Figure 60521DEST_PATH_IMAGE058
表示
Figure 268780DEST_PATH_IMAGE057
之后有一个重复的次数 值与
Figure 722633DEST_PATH_IMAGE057
相等,所以进行省略;
Figure DEST_PATH_IMAGE059
为压缩后第
Figure 889303DEST_PATH_IMAGE060
个重复的次数值。
S5、将时间戳压缩信息、第一压缩信息、第二压缩信息及时序数据的第一个数值与 最后一个数值存储,得到压缩数据,具体的,如图3所示,时序数据的最终压缩结果为:时间 戳压缩信息:
Figure 218653DEST_PATH_IMAGE020
;第一压缩信息为
Figure 988858DEST_PATH_IMAGE038
、第二压缩信息
Figure DEST_PATH_IMAGE061
Figure 860999DEST_PATH_IMAGE062
,第三压缩信息时序数据的第一个数值与最后一个数值
Figure DEST_PATH_IMAGE063
。具体 的,设时序数据为
Figure 493843DEST_PATH_IMAGE064
Figure 61222DEST_PATH_IMAGE035
列的数据,本方案中时间戳为长整型,一个时间戳占8个字节,数值 为双精度浮点型,一个数值占8个字节,则原始数据大小为
Figure DEST_PATH_IMAGE065
个字节,如图
Figure 375397DEST_PATH_IMAGE066
所示,时间戳 压缩信息中,
Figure DEST_PATH_IMAGE067
为初始时间戳,占
Figure 39728DEST_PATH_IMAGE068
个字节;
Figure DEST_PATH_IMAGE069
为时间戳的增量即时间差,时序数据中时间 差日、时、分、秒,相对时间戳较小,占
Figure 171370DEST_PATH_IMAGE035
个字节;
Figure 491624DEST_PATH_IMAGE064
为数据长度,占
Figure 829064DEST_PATH_IMAGE068
个字节。第一压缩信息中 的第三序列
Figure 993241DEST_PATH_IMAGE038
为数值重复次数值,
Figure 390725DEST_PATH_IMAGE070
为整型,占
Figure 932696DEST_PATH_IMAGE034
个字节,“:”为英文字符,占 一个字节,共
Figure DEST_PATH_IMAGE071
个“:”,则
Figure 978887DEST_PATH_IMAGE072
Figure DEST_PATH_IMAGE073
个字节,其中
Figure 352230DEST_PATH_IMAGE074
。第二压缩信 息中的霍夫点序列
Figure 701041DEST_PATH_IMAGE053
中的、
Figure DEST_PATH_IMAGE075
为双精度浮点型,占8个字节,
Figure 730308DEST_PATH_IMAGE076
共占
Figure DEST_PATH_IMAGE077
个字节,其中
Figure 252294DEST_PATH_IMAGE078
;第二压缩信息中的
Figure DEST_PATH_IMAGE079
为整型,占
Figure 808040DEST_PATH_IMAGE034
个字节,“:”为英文字符,占一个字节,共
Figure 79751DEST_PATH_IMAGE080
个“:”,则
Figure DEST_PATH_IMAGE081
Figure 658631DEST_PATH_IMAGE082
个字节,其中
Figure DEST_PATH_IMAGE083
;第三压缩信息中
Figure 656412DEST_PATH_IMAGE084
分别为数值的头部和尾部,共 占16个字节,最终得到压缩后的数据大小为
Figure DEST_PATH_IMAGE085
具体的,本方法还包括对时序数据进行解压的方法:具体的,根据下式(1)计算压 缩率
Figure 269927DEST_PATH_IMAGE007
Figure 445693DEST_PATH_IMAGE086
(1)
其中,
Figure 682509DEST_PATH_IMAGE009
表示时间戳数量;
Figure 47762DEST_PATH_IMAGE010
表示第一序列
Figure 171576DEST_PATH_IMAGE002
去除连续相同的次数值之后的次数值 的个数;
Figure 767511DEST_PATH_IMAGE011
表示第四序列中的次数值的个数;表示霍夫点序列
Figure 242355DEST_PATH_IMAGE003
中的霍夫点的个数;
Figure 83403DEST_PATH_IMAGE013
表示数 值序列
Figure 592882DEST_PATH_IMAGE001
中数值的总个数,当时序数值变化规律相近的一段时间内数值未变化的情况较多时,
Figure DEST_PATH_IMAGE087
,当时序数值局部多个点多为线性关系时,
Figure 365578DEST_PATH_IMAGE088
。此时
Figure DEST_PATH_IMAGE089
, 对于时序数据的压缩效果较好,较经典的无损压缩行程编码压缩效果提升,利用了有损压 缩的拟合思想,同时保留了压缩精度,使得数据无损。
具体的,本方法还包括对时序数据进行解压的方法,该方法步骤包括:
时间戳还原:根据时间戳压缩信息中的初始时间、时间戳递增量及时间戳数量,即可计算得到所有的时间戳。
数值还原:根据第二压缩信息获取霍夫点的数量,霍夫点的数量对应坐标空间中 的直线;获取相邻两条直线之间的交点,该交点的纵坐标即为时序数据的部分数值,得到交 点的纵坐标序列;根据纵坐标序列及第三压缩信息中的第一个数值、最后一个数值,得到第 一解压序列;根据第四序列中的分隔符“:”,对第四序列解压得到第二序列G;根据第二序列 G与第一解压序列将时序数据的数值恢复得到数值序列S;根据第三序列中分隔符“:”,对第 三序列解压得到第一序列N;根据第一序列N、数值序列S得到时序数据的数值,即完成解压。 具体的,霍夫点序列
Figure 140767DEST_PATH_IMAGE053
Figure 18462DEST_PATH_IMAGE012
个霍夫空间中的点,表示
Figure 648026DEST_PATH_IMAGE050
条坐标空间 中直线,相邻两条直线之间存在交点,该交点的纵坐标即为部分数值。获取每两条相邻直线 的交点,得到交点纵坐标序列
Figure 821650DEST_PATH_IMAGE090
,共
Figure DEST_PATH_IMAGE091
个,结合第三压缩信息中的第一 个数值、最后一个数值
Figure 910566DEST_PATH_IMAGE092
,得到第一解压序列
Figure DEST_PATH_IMAGE093
Figure 155734DEST_PATH_IMAGE055
为霍夫点重复次数值,以“:”分隔,若“:”之后无数据,则表示此重 复次数值与前一重复次数值一致,根据此特征将霍夫点重复次数值解压,得到霍夫点重复 次数值的第二序列
Figure 357914DEST_PATH_IMAGE054
,根据第一解压序列
Figure 686127DEST_PATH_IMAGE093
Figure 108012DEST_PATH_IMAGE094
第二序列
Figure 609401DEST_PATH_IMAGE054
将数值恢复,其中,
Figure DEST_PATH_IMAGE095
表示
Figure 66753DEST_PATH_IMAGE096
Figure DEST_PATH_IMAGE097
之间在
Figure 674189DEST_PATH_IMAGE098
所表示的直线上,与纵坐标值
Figure 35900DEST_PATH_IMAGE096
相等的霍夫点有
Figure 560554DEST_PATH_IMAGE095
个,此些点的横 坐标为等差数列,横坐标为1,结合
Figure 488059DEST_PATH_IMAGE097
的横坐标,即可得到
Figure 204080DEST_PATH_IMAGE095
个点的横坐标,带入到
Figure 849824DEST_PATH_IMAGE098
所表示的直线上,即可得到所有纵坐标,纵坐标表示数值序列
Figure 240486DEST_PATH_IMAGE001
中对应的数值,同 理可得到所有去掉重复次数值的数值序列
Figure 537344DEST_PATH_IMAGE028
;第三序列
Figure 909419DEST_PATH_IMAGE038
中 的值为数值重复次数值,相同的次数值省略并以“:”分隔,若“:”之后无数据,则表示此重复 次数值与前一重复次数值一致,根据此特征将数值重复次数值解压,得到数值重复次数值
Figure DEST_PATH_IMAGE099
表示时序数据中的数值
Figure 121089DEST_PATH_IMAGE025
连续重复出现了
Figure 491939DEST_PATH_IMAGE027
次,根据此 特征,将所有重复的数值补充到数值序列
Figure 394036DEST_PATH_IMAGE028
序列中,得到完整的原始序列
Figure 891008DEST_PATH_IMAGE023
,即完成解压。
综上所述,本发明提供基于大数据的时序数据高效压缩方法,通过对时序数据中 连续重复数值进行过滤得到数值序列
Figure 245766DEST_PATH_IMAGE001
,并根据时序数据中数值连续重复的次数值获得数 值序列中每个数值对应的重复次数值的第一序列N,然后对第一序列N的连续重复数值进行 过滤,实现对时序数据中数值的第一次压缩,其次通过构建数值序列S对应的坐标点序列, 获取相邻坐标点的直线方程,对直线方程进行霍夫变化得到去除连续重复霍夫点的霍夫点 序列
Figure 680027DEST_PATH_IMAGE003
,根据霍夫点序列
Figure 436630DEST_PATH_IMAGE003
得到霍夫点所对应次数值的第二序列
Figure 229137DEST_PATH_IMAGE006
,然后对第二序列
Figure 586038DEST_PATH_IMAGE006
压缩 得到第四序列,实现对数值序列S中重复数值的再次压缩,本方法对时序数据的数值进行了 两次压缩,且同时对数值所对应的次数值进行压缩,从而提高了压缩率,且保证了压缩信息 的整性,其次,在压缩过程中,本方法将连续重复的数值或者次数值省略并用分隔符“:”隔 开,每个分隔符的仅占一个字节,从而使得极大的提高了时序数据的压缩率。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.基于大数据的时序数据高效压缩方法,其特征在于,该方法包括:
获取时序数据中各个数值对应的时间戳,并对时间戳进行压缩得到时间戳压缩信息,时间戳压缩信息包括:初始时间戳、时间戳递增量以及时间戳数量;
获取时序数据中数值连续重复出现的次数值,根据时序数据的数值顺序获取去掉连续 重复数值的数值序列
Figure DEST_PATH_IMAGE001
,根据数值序列
Figure 763888DEST_PATH_IMAGE001
获取数值序列
Figure 25105DEST_PATH_IMAGE001
中每个连续重复的数值所对应的 次数值的第一序列
Figure 5568DEST_PATH_IMAGE002
,将第一序列
Figure 530090DEST_PATH_IMAGE002
中的连续相同的次数值进行过滤得到作为第一压缩信 息的第三序列;
构建数值序列S对应的坐标点序列,并获取所述坐标点序列中两两相邻的坐标点之间的直线方程,对获取的直线方程进行霍夫变换得到霍夫点数列;
根据霍夫点数列获取去掉连续重复霍夫点的霍夫点序列
Figure DEST_PATH_IMAGE003
,获取霍夫点序列
Figure 159786DEST_PATH_IMAGE003
中每个 连续重复出现的霍夫点所对应次数值的第二序列
Figure 473962DEST_PATH_IMAGE004
,利用对第一序列
Figure 138292DEST_PATH_IMAGE002
的过滤方法对第二 序列
Figure 364874DEST_PATH_IMAGE004
过滤得到第四序列,将第四序列及霍夫点序列
Figure 386926DEST_PATH_IMAGE003
作为压缩后的第二压缩信息;
将时间戳压缩信息、第一压缩信息、第二压缩信息及时序数据的第一个数值与最后一个数值存储,得到压缩数据。
2.根据权利要求1所述的基于大数据的时序数据高效压缩方法,其特征在于,对时间戳进行压缩得到时间戳压缩信息的步骤包括:
根据各个时间戳获取初始时间戳、时间戳数量、时间戳递增量;
根据初始时间戳、时间戳数量、时间戳递增量,将各个时间戳压缩为时间戳压缩信息。
3.根据权利要求1所述的基于大数据的时序数据高效压缩方法,其特征在于,获取时序 数据中数值连续重复出现的次数值,根据时序数据的数值顺序获取去掉连续重复数值的数 值序列
Figure 255525DEST_PATH_IMAGE001
,根据数值序列获取数值序列
Figure 446466DEST_PATH_IMAGE001
中每个数值所对应的次数值的第一序列
Figure 680833DEST_PATH_IMAGE002
的步骤 包括:
根据时间戳顺序获取时序数据中各个时间戳对应的数值的原始序列;
根据原始序列中数值排列的顺序过滤掉原始序列中的连续重复的数值得到数值序列
Figure 206492DEST_PATH_IMAGE001
获取原始序列中数值连续重复的次数值,根据次数值和数值序列
Figure 629514DEST_PATH_IMAGE001
得到数值序列
Figure 393071DEST_PATH_IMAGE001
中 每个数值所对应的次数值的第一序列
Figure 210723DEST_PATH_IMAGE002
4.根据权利要求1所述的基于大数据的时序数据高效压缩方法,其特征在于,将第一序 列
Figure 754837DEST_PATH_IMAGE002
中的连续相同的次数值进行过滤得到作为第一压缩信息的第三序列步骤包括:
获取第一序列
Figure 450391DEST_PATH_IMAGE002
中连续重复出现的次数值;
将第一序列
Figure 865192DEST_PATH_IMAGE002
中的连续且相同的次数值中的第一个次数值保留,并将保留的第一个次 数值后与第一个次数值连续且相同的次数值省略得到第三序列,第三序列即为第一压缩信 息,其中,每个省略的次数值与相邻的次数值之间用“:”分隔开。
5.根据权利要求1所述的基于大数据的时序数据高效压缩方法,其特征在于,构建数值序列S对应的坐标点序列的步骤包括:
对数值序列
Figure 181642DEST_PATH_IMAGE001
中数值按顺序进行编号;
以每个编号作为点坐标的横坐标,每个编号对应的数值作为纵坐标,得到坐标点序列。
6.根据权利要求1所述的基于大数据的时序数据高效压缩方法,其特征在于,对获取的直线方程进行霍夫变换得到霍夫点数列的步骤包括:
将直线方程转换到霍夫空间中,得到多个霍夫空间中的霍夫点坐标;
根据霍夫点坐标顺序获取霍夫点数列。
7.根据权利要求1所述的基于大数据的时序数据高效压缩方法,其特征在于,还包括:
计算压缩后的时序数据的压缩率的方法:
根据下式(1)计算压缩率
Figure DEST_PATH_IMAGE005
Figure 494942DEST_PATH_IMAGE006
(1)
其中,
Figure DEST_PATH_IMAGE007
表示时间戳数量;
Figure 555040DEST_PATH_IMAGE008
表示第一序列
Figure 840659DEST_PATH_IMAGE002
去除连续相同的次数值之后的次数值的个 数;
Figure DEST_PATH_IMAGE009
表示第四序列中的次数值的个数;
Figure 537132DEST_PATH_IMAGE010
表示霍夫点序列
Figure 524679DEST_PATH_IMAGE003
中的霍夫点的个数;
Figure DEST_PATH_IMAGE011
表示数值 序列
Figure 889933DEST_PATH_IMAGE001
中数值的总个数。
8.根据权利要求7所述的基于大数据的时序数据高效压缩方法,其特征在于,还包括:对时序数据进行解压的方法:
时间戳还原:根据时间戳压缩信息中的初始时间、时间戳递增量及时间戳数量,即可计算得到所有的时间戳;
数值还原:
根据第二压缩信息获取霍夫点的数量,霍夫点的数量对应坐标空间中的直线;
获取相邻两条直线之间的交点,该交点的纵坐标即为时序数据的部分数值,得到交点的纵坐标序列;
根据纵坐标序列及第三压缩信息中的第一个数值、最后一个数值,得到第一解压序列;根据第四序列中的分隔符“:”,对第四序列解压得到第二序列G;
根据第二序列G与第一解压序列将时序数据的数值恢复得到数值序列S;
根据第三序列中分隔符“:”,对第三序列解压得到第一序列N;
根据第一序列N、数值序列S得到时序数据的数值,即完成解压。
CN202210165461.9A 2022-02-23 2022-02-23 基于大数据的时序数据高效压缩方法 Active CN114595270B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210165461.9A CN114595270B (zh) 2022-02-23 2022-02-23 基于大数据的时序数据高效压缩方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210165461.9A CN114595270B (zh) 2022-02-23 2022-02-23 基于大数据的时序数据高效压缩方法

Publications (2)

Publication Number Publication Date
CN114595270A true CN114595270A (zh) 2022-06-07
CN114595270B CN114595270B (zh) 2024-06-07

Family

ID=81804896

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210165461.9A Active CN114595270B (zh) 2022-02-23 2022-02-23 基于大数据的时序数据高效压缩方法

Country Status (1)

Country Link
CN (1) CN114595270B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108153483A (zh) * 2016-12-06 2018-06-12 南京南瑞继保电气有限公司 一种基于属性分组的时序数据压缩方法
CN110311687A (zh) * 2019-07-09 2019-10-08 南京天数智芯科技有限公司 一种基于集成算法的时序数据无损压缩方法
CN110602178A (zh) * 2019-08-26 2019-12-20 杭州电子科技大学 一种基于边缘压缩计算处理温度传感器数据的方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108153483A (zh) * 2016-12-06 2018-06-12 南京南瑞继保电气有限公司 一种基于属性分组的时序数据压缩方法
CN110311687A (zh) * 2019-07-09 2019-10-08 南京天数智芯科技有限公司 一种基于集成算法的时序数据无损压缩方法
CN110602178A (zh) * 2019-08-26 2019-12-20 杭州电子科技大学 一种基于边缘压缩计算处理温度传感器数据的方法

Also Published As

Publication number Publication date
CN114595270B (zh) 2024-06-07

Similar Documents

Publication Publication Date Title
CN102804230B (zh) 使用重复图案压缩3d网格
CN112332853B (zh) 一种基于电力***的时序数据压缩与恢复方法
CN100517979C (zh) 一种数据压缩及解压缩方法
RU2007141934A (ru) Адаптивная группировка параметров для улучшенной эффективности кодирования
CN116016606B (zh) 一种基于智慧云的污水处理运维数据高效管理***
CN110021369B (zh) 基因测序数据压缩解压方法、***及计算机可读介质
CN103702133B (zh) 一种图像压缩展示方法及其装置
CN110166779A (zh) 基于超分辨率重构的视频压缩方法
CN101299611B (zh) 一种基于集合游程的数据压缩方法
CN113868206A (zh) 一种数据压缩方法、解压缩方法、装置及存储介质
CN101751897A (zh) 压缩及解压缩查找表的方法及其相关装置
CN115883670A (zh) 一种医疗数据分析采集方法及装置
CN115269526A (zh) 一种半导体生产数据的处理方法及***
JPH08167852A (ja) データ圧縮方法及び装置
CN112468154A (zh) 一种适用于海洋气象可视化的数据压缩方法
CN114595270A (zh) 基于大数据的时序数据高效压缩方法
CN115695564B (zh) 一种物联网数据的高效传输方法
CN108259515A (zh) 一种适用于带宽受限下传输链路的无损信源压缩方法
CN115964347A (zh) 一种市场监管监测中心数据的智能存储方法
CN115603758A (zh) 一种客户号压缩和解压方法及装置
CN109660809A (zh) 基于inter解码的colmv数据无损压缩方法及***
CN104682966A (zh) 列表数据的无损压缩方法
CN113422965A (zh) 一种基于生成对抗网络的图像压缩方法及装置
CN114327264B (zh) 一种时序数据压缩方法、装置及设备
KR101700537B1 (ko) 이진데이터 압축 및 압축해제 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20240511

Address after: Room 117, 1st Floor, Building 2, No. 631 Zhengzhongzhuang Village, Miaocheng Town, Huairou District, Beijing, 100000

Applicant after: Beijing Shenside Cultural and Creative Co.,Ltd.

Country or region after: China

Address before: Room 1001, building B, Xingzhi Science Park, No. 6, Xingzhi Road, Nanjing Economic and Technological Development Zone, Jiangsu 210046

Applicant before: Nanjing yunbati Information Technology Co.,Ltd.

Country or region before: China

TA01 Transfer of patent application right
GR01 Patent grant