CN115882867B

CN115882867B - 一种基于大数据的数据压缩存储方法

Info

Publication number: CN115882867B
Application number: CN202310184433.6A
Authority: CN
Inventors: 董磊; 李勇; 李金稳; 王丽; 李永冠; 孙国庆; 柴丽彬
Original assignee: Shandong Shuifa Ziguang Big Data Co ltd
Current assignee: Shandong Shuifa Ziguang Big Data Co ltd
Priority date: 2023-03-01
Filing date: 2023-03-01
Publication date: 2023-05-12
Anticipated expiration: 2043-03-01
Also published as: CN115882867A

Abstract

本发明涉及数据处理技术领域，具体涉及一种基于大数据的数据压缩存储方法。该方法包括：获取时序数据序列，进行进制转换得到时序数据编码，根据编码顺序对时序数据编码中的编码值进行标号，得到编码值的待处理序号；将时序数据编码划分为初始编码子段，确定初始编码子段的子段序号；确定重复编码子段，基于预设扩充规则对重复编码子段进行扩充处理，得到至少两个不重叠的扩充编码子段；按照编码顺序，将时序数据编码中除扩充编码子段的编码组合生成至少一个***编码子段；对扩充编码子段和***编码子段进行编码，得到目标编码，根据编码顺序将目标编码组合生成数据压缩编码，存储数据压缩编码。综上，本发明能够有效提高数据的压缩效果。

Description

一种基于大数据的数据压缩存储方法

技术领域

本发明涉及数据处理技术领域，具体涉及一种基于大数据的数据压缩存储方法。

背景技术

工业上的生产大数据通常数据量庞大，需要使用大数据分析和处理等方式从海量的数据中分析数据特征，但同时巨大的数据量会带来了存储时间和空间的消耗和浪费，因此需要对数据进行压缩存储以节省存储空间。

相关技术中，通常使用霍夫曼编码对工业上的生产大数据进行编码处理，霍夫曼编码主要是根据数据中字符的频率来最大化节省编码的存储空间，而由于大数据中数据量较大，则会导致构建出的霍夫曼树中参与计算的叶子节点太多，且同一节点下对应的时序数据数量过大，最终导致数据压缩存储的效果不足。

发明内容

为了解决最终导致数据压缩存储的效果不足技术问题，本发明提供一种基于大数据的数据压缩存储方法，所采用的技术方案具体如下：

本发明提出了一种基于大数据的数据压缩存储方法，方法包括：

获取时序数据序列，对所述时序数据序列进行进制转换，得到时序数据编码，根据编码顺序对所述时序数据编码中的编码值进行标号，得到所述编码值的待处理序号；将所述时序数据编码划分为至少两个预设编码长度的初始编码子段，根据所述待处理序号，确定所述初始编码子段的子段序号；

将编码相同且不重叠的所述初始编码子段作为重复编码子段，基于预设扩充规则，根据所述子段序号对所述重复编码子段进行扩充处理，得到至少两个不重叠的扩充编码子段；按照所述编码顺序，将所述时序数据编码中除所述扩充编码子段的编码组合生成至少一个***编码子段；

基于霍夫曼编码规则对所述扩充编码子段和所述***编码子段进行编码，得到目标编码，根据所述编码顺序将所述目标编码组合生成数据压缩编码，存储所述数据压缩编码。

进一步地，所述根据编码顺序对所述时序数据编码中的编码值进行标号，得到所述编码值的待处理序号，包括：

根据所述时序数据编码中所述编码值由前往后的顺序对所述编码值进行标号，得到所述编码值的待处理序号。

进一步地，所述根据所述待处理序号，确定所述初始编码子段的子段序号，包括：

将所述初始编码子段的编码值对应的最小的待处理序号作为所述初始编码子段的子段序号。

进一步地，所述基于预设扩充规则，根据所述子段序号对所述重复编码子段进行扩充处理，得到至少两个不重叠的扩充编码子段，包括：

确定所述子段序号最小的所述重复编码子段为第一编码子段，确定与所述第一编码子段编码相同的且不重叠的其他所述重复编码子段为第二编码子段；

判断所述第一编码子段和所述第二编码子段是否满足预设扩充规则；

在所述第一编码子段和所述第二编码子段不满足所述预设扩充规则时，将所述第一编码子段和所述第二编码子段作为所述扩充编码子段；

在所述第一编码子段和所述第二编码子段满足所述预设扩充规则时，对所述第一编码子段和所述第二编码子段分别进行编码扩充，直至不满足所述预设扩充规则，停止编码扩充，将扩充后的所述第一编码子段和所述第二编码子段作为所述扩充编码子段。

进一步地，所述判断所述第一编码子段和所述第二编码子段是否满足预设扩充规则，包括：

确定所述第一编码子段在所述时序数据编码中的后一位编码值和所述第二编码子段在所述时序数据编码的后一位编码值是否相同；

在所述第一编码子段的后一位编码值和所述第二编码子段的后一位编码值相同时，确定满足所述预设扩充规则；

在所述第一编码子段的后一位编码值和所述第二编码子段的后一位编码值不同时，确定不满足所述预设扩充规则。

进一步地，所述按照所述编码顺序，将所述时序数据编码中除所述扩充编码子段的编码组合生成至少一个***编码子段，包括：

将所述时序数据编码中除所述扩充编码子段的编码作为剩余编码，确定所述剩余编码周围是否包含其他剩余编码；

在所述剩余编码周围包含其他剩余编码时，将所述编码顺序相邻的剩余编码组合作为***编码子段；

在所述剩余编码周围未包含其他剩余编码时，将所述剩余编码作为***编码子段。

进一步地，所述对所述时序数据序列进行进制转换，得到时序数据编码，包括：

将所述时序数据序列转换为二进制编码，并将所述二进制编码作为所述时序数据编码。

本发明具有如下有益效果：

本发明通过对时序数据编码中的编码值进行标号，能够保证后续编码及处理过程中的编码顺序不被打乱，能够进一步保证压缩的可靠性，通过将时序数据编码划分为至少两个预设编码长度的初始编码子段，能够对时序数据编码进行重新划分，则重新划分后的初始编码子段，能够用于执行后续的子段重复性识别和子段扩充步骤。另一方面，通过确定编码相同且不重叠的初始编码子段作为重复编码子段，能够有效避免重叠的初始编码子段对最终压缩准确性的干扰，从而进一步保证无损压缩，基于预设的扩充规则进行编码扩充，从而能够有效增加扩充编码子段内的编码长度，降低后续压缩过程中的子段数量，从而提高压缩效率和压缩效果，同时，按照编码顺序，将时序数据编码中除扩充编码子段的编码组合生成至少一个***编码子段，能够保证未遗漏时序数据编码中的所有编码值，且能够根据编码顺序进行组合，进一步降低了漏码、错码等现象的产生，实现对时序数据编码中的所有编码值的有效整理，得到扩充编码子段和***编码子段，提高扩充编码子段和***编码子段的可靠性；基于霍夫曼编码规则，能够通过频率对扩充编码子段和***编码子段进行重新编码，得到目标编码，霍夫曼编码规则的使用在保证压缩效率的同时进一步实现了对时序数据编码的无损压缩，还能够减少对时序数据编码生成的子段的数量，进而有效避免由于子段数量过多导致的编码长度过长的问题，节省数据压缩存储的空间和时间，有效提高了压缩效率和压缩效果。综上，本发明能够有效提高数据的压缩效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1为本发明一个实施例所提供的一种基于大数据的数据压缩存储方法流程图；

图2为本发明一个实施例所提供的初始编码子段划分示意图。

具体实施方式

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的一种基于大数据的数据压缩存储方法，其具体实施方式、结构、特征及其功效，详细说明如下。在下述说明中，不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外，一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。

下面结合附图具体的说明本发明所提供的一种基于大数据的数据压缩存储方法的具体方案。

请参阅图1，其示出了本发明一个实施例提供的一种基于大数据的数据压缩存储方法流程图，该方法包括：

S101：获取时序数据序列，对时序数据序列进行进制转换，得到时序数据编码，根据编码顺序对时序数据编码中的编码值进行标号，得到编码值的待处理序号；将时序数据编码划分为至少两个预设编码长度的初始编码子段，根据待处理序号，确定初始编码子段的子段序号。

本发明实施例中，可以使用工业数据采集设备获取时序数据序列，其中，时序数据序列，可以具体例如为工业大数据中的时序数据，例如时序温度数据、气体压力变化数据、液体浓度变化数据等，对此不做限制。

进一步地，本发明实施例中，对时序数据序列进行进制转换，得到时序数据编码，包括：将时序数据序列转换为二进制编码，并将二进制编码作为时序数据编码。

可以理解的是，本发明所采集的时序数据序列可以来源于多种类的大数据采集设备，时序数据序列中的数据类型多种多样，直接进行数据压缩时对应的压缩效果较差，因此，本发明实施例中，可以将时序数据序列转换为二进制编码，并根据二进制编码进行压缩。

一些实施例中，可以根据信息互换标准代码（American Standard Code forInformation Interchange，ASCII）表将时序数据序列中的数据转换为十进制编码，并将十进制编码转换为二进制编码，将二进制编码作为时序数据编码，对此不做限制。

举例而言，采集到的时序数据序列为：“fmmM[X”，将时序数据序列中的数据对照ASCII表转换成十进制编码得到的序列为：（102、109、109、77、91、88），对序列中的值进行二进制编码转换；转换后的结果序列为：（1100110、1101101、1101101、1001101、1011011、1011000），由此，得到时序数据序列“fmmM[X”的时序数据编码为：（110011011011011101101100110110110111011000）。

可以理解的是，在时序数据编码中，因编码具有先后顺序，该编码的先后顺序可以作为编码顺序，则本发明实施例中，根据编码顺序对时序数据编码中的编码值进行标号，得到编码值的待处理序号，包括：根据时序数据编码中编码值由前往后的顺序对编码值进行标号，得到编码值的待处理序号。

举例而言，在编码（1100）中，第一个编码值“1”的待处理序号为1，第二个编码值“1”的待处理序号为2，第一个“0”的待处理序号为3，第二个“0”的待处理序号为4，由此，对时序数据编码中的每个编码值分别分配对应的待处理序号。

本发明实施例中,可以基于预设编码长度对时序数据编码进行划分。

其中，预设编码长度，为编码值的预设长度，可以理解的是，预设编码长度可以大于单个数据转换为数据编码的编码长度，以便于提高压缩效率，当然，也可以根据实际需求进行设置，可选地，预设编码长度为8，对此不做限制。

本发明实施例中，在确定预设编码长度之后，可以将时序数据编码划分为至少两个预设编码长度的初始编码子段，可以理解的是，可以根据时序数据编码中每个编码值为起始分别划分生成初始编码子段，如图2所示，图2为本发明一个实施例所提供的初始编码子段划分示意图。在图2中，预设编码长度为8，则时序数据编码（1100110110110111011011）可以划分为（11001101）、（10011011）、（00110110）、（01101101）等多个初始编码子段。

本发明实施例中，还支持多种划分规则，通过预设编码长度将时序数据编码划分为多个初始编码子段，可以理解的是，由于通过预设编码长度对时序数据编码进行划分，可以有效根据预设编码长度调整初始编码子段的数量。

进一步地，本发明实施例中，根据待处理序号，确定初始编码子段的子段序号，包括：将初始编码子段的编码值对应的最小的待处理序号作为初始编码子段的子段序号。

举例而言，在将时序数据编码（1100110110110111011011）划分为（11001101）、（10011011）、（00110110）、（01101101）等多个初始编码子段时，由于初始编码子段（11001101）中的编码值对应的最小待处理序号为1，则初始编码子段（11001101）的子段序号为1，由于初始编码子段（01101101）中的编码值对应的最小待处理序号为4，则初始编码子段（01101101）的子段序号为4，由此，分别为多个初始编码子段分别配置对应的子段序号，便于后续根据子段序号确定各初始编码子段的位置。

S102：将编码相同且不重叠的初始编码子段作为重复编码子段，基于预设扩充规则，根据子段序号对重复编码子段进行扩充处理，得到至少两个不重叠的扩充编码子段；按照编码顺序，将时序数据编码中除扩充编码子段的编码组合生成至少一个***编码子段。

本发明实施例中，可以基于重复性判断公式确定两个初始编码子段的编码是否相同，对应的公式为：

式中，表示重复性判断指标，表示预设编码长度，表示初始编码子段中编码值的索引，为任意两个初始编码子段，表示初始编码子段中第个编码值，表示初始编码子段中第个编码值，表示异或运算。

在重复性判断公式中计算得到两个初始编码子段的重复性判断指标，由于仅在和相同时，，则对应的在重复性判断指标为0时，可以表示两个初始编码子段中对应位置的每个编码值均相同，则两个初始编码子段的编码相同，在重复性判断指标不为0时，可以表示两个初始编码子段中有部分对应位置的编码值不相同，则两个初始编码子段的编码不相同。

本发明实施例中，可以根据重叠判断公式确定两个初始编码子段是否重叠，对应的公式为：

式中，表示重叠判断指标，表示预设编码长度，表示初始编码子段中编码值的索引，为任意两个初始编码子段，表示初始编码子段中第个编码值的待处理序号，表示初始编码子段中第个编码值的待处理序号，表示求绝对值。

在重叠判断公式中确定两个初始编码子段的重叠判断指标，在重叠判断指标大于等于时，可以表示两个初始编码子段没有编码值重叠，在重叠判断指标小于时，可以表示两个初始编码子段中有部分编码值重叠，也即初始编码子段存在重叠。

由重复性判断公式和重叠判断公式从初始编码子段中得到重复编码子段，由此，可以有效从初始编码子段中确定重复编码子段，可以理解的是，重复编码子段可以再次进行扩充，以便于提高压缩效率，则对重复编码子段的扩充步骤如下所示。

进一步地，本发明实施例中，基于预设扩充规则，根据子段序号对重复编码子段进行扩充处理，得到至少两个不重叠的扩充编码子段，包括：确定子段序号最小的重复编码子段为第一编码子段，确定与第一编码子段编码相同的且不重叠的其他重复编码子段为第二编码子段；判断第一编码子段和第二编码子段是否满足预设扩充规则；在第一编码子段和第二编码子段不满足预设扩充规则时，将第一编码子段和第二编码子段作为扩充编码子段；在第一编码子段和第二编码子段满足预设扩充规则时，对第一编码子段和第二编码子段分别进行编码扩充，直至不满足预设扩充规则，停止编码扩充，将扩充后的第一编码子段和第二编码子段作为扩充编码子段。

其中，可以将子段序号最小的重复编码子段作为第一编码子段，将与第一编码子段编码相同的且不重叠的其他重复编码子段作为第二编码子段，第二编码子段的数量可以为多个。

可以理解的是，在第一编码子段和第二编码子段中，由于第二编码子段与第一编码子段重复且不重叠，也即是说，第二编码子段内所表达的数据与第一编码子段所表达的数据可能相同，由于第一编码子段和第二编码子段的编码长度为预设编码长度，在表征相似的数据时，第一编码子段后续的编码也可能与第二编码子段后续的编码相同，因此，可以在满足预设扩充规则时，对第一编码子段和第二编码子段进行编码扩充，直至不满足预设扩充条件，在不满足预设扩充规则时，停止扩充，将扩充后的第一编码子段和第二编码子段作为扩充编码子段。

举例而言，由于工业生产设备需要控制设备温度，往往在温度达到一定阈值时触发温度控制设备工作进行调温，而在调温过程中，由于温度控制设备工作效率相同，且起始温度相同，则对应的温度变化也相同，在传统霍夫曼编码时，则需要分别对不同时刻的温度数据分别编码，而本方案中检测到两个不同的调温时间段内温度数据不重叠且温度变化相同，则可以直接将调温时间段内表示温度数据的编码扩充至一个子段内，从而能够缩短压缩编码，提高压缩效果。

进一步地，本发明实施例中，确定第一编码子段在时序数据编码中的后一位编码值和第二编码子段在时序数据编码的后一位编码值是否相同；在第一编码子段的后一位编码值和第二编码子段的后一位编码值相同时，确定满足预设扩充规则；在第一编码子段的后一位编码值和第二编码子段的后一位编码值不同时，确定不满足预设扩充规则。

本发明实施例中，在将扩充后的第一编码子段和第二编码子段作为扩充编码子段之后，可以确定重复编码子段中未被作为扩充编码子段的完整的重复编码子段，并重新确定将子段序号最小的重复编码子段作为新的第一编码子段，由此，遍历所有的重复编码子段，得到多个不重叠的扩充编码子段，可以理解的是，每个扩充编码子段对应的编码长度可能相同或不同，由此，能将时序数据编码划分为多个不重叠的扩充编码子段。

本发明实施例中，在划分扩充编码子段之后，时序数据编码中还可能具有未被划分为扩充编码子段的剩余编码，该剩余编码可能具有相邻的其他剩余编码，可能由于编码长度过短无法形成完整的编码子段，或者，也可能由于所形成的编码子段没有与之重复的其他编码子段，因此，可以将相邻的剩余编码进行组合。

进一步地，本发明实施例中，按照编码顺序，将时序数据编码中除扩充编码子段的编码组合生成至少一个***编码子段，包括：将时序数据编码中除扩充编码子段的编码作为剩余编码，确定剩余编码周围是否包含其他剩余编码；在剩余编码周围包含其他剩余编码时，将编码顺序相邻的剩余编码组合作为***编码子段；在剩余编码周围未包含其他剩余编码时，将剩余编码作为***编码子段。

可以理解的是，在剩余编码周围包含其他剩余编码时，也即是说，剩余编码可以与其他剩余编码组合作为新的编码子段，也即***编码子段，在剩余编码周围未包含其他剩余编码时，则该剩余编码作为孤立编码值，则将该剩余编码单独作为***编码子段。

举例而言，时序数据编码为：（110011011011011101101100110110110111011000），预设编码长度为8时，可以确定重复编码子段为子段序号为1的（11001101）和子段序号为21的（11001101），将子段序号为1的（11001101）作为第一编码子段，子段序号为21的（11001101）作为第二编码子段，确定第一编码子段和第二编码子段的后一位编码值相同，满足预设扩充规则，则将后一位编码值扩充至第一编码子段和第二编码子段中，并重新判断之后的编码值，由此得到扩充编码子段为子段序号为1的（11001101101101110110）和子段序号为21的（11001101101101110110），在该时序数据编码中，最后两位编码作为剩余编码，组成***编码子段（00），由此，将时序数据编码划分为两个扩充编码子段（11001101101101110110）和一个***编码子段（00）。

S103：基于霍夫曼编码规则对扩充编码子段和***编码子段进行编码，得到目标编码，根据编码顺序将目标编码组合生成数据压缩编码，存储数据压缩编码。

本发明实施例中，可以使用霍夫曼编码规则对扩充编码子段和***编码子段进行编码，其中，霍夫曼编码规则是一种基于概率的编码规则，自底向上的构建二叉树作为霍夫曼树，根据编码子段出现的概率确定霍夫曼树的叶子结点，而后对叶子结点进行编码，霍夫曼编码为本领域技术人员所熟知的技术，对此不做赘述。

本发明实施例中，通过确定不同的扩充编码子段和***编码子段的数量，将数量由高至低进行排序，而后，根据排序结果生成霍夫曼编码树，得到各扩充编码子段和***编码子段的目标编码值。

举例而言，时序数据编码（110011011011011101101100110110110111011000）分为两个扩充编码子段（11001101101101110110）和一个***编码子段（00），则构建霍夫曼树，确定扩充编码子段的目标编码为“0”，***编码子段的目标编码为“1”，则可以将时序数据编码压缩为（001）。可以理解的是，在使用传统霍夫曼编码压缩时，是直接将每一个数据作为一个编码子段，则对应的压缩时，由于每个编码子段的编码长度短，导致相同的节点所对应数据数量过多，进而使得压缩过程中所对应的霍夫曼编码长度变长，因此，编码时该编码方式的压缩效果较差，而本方案通过对编码子段进行扩充，能够有效增加扩充编码子段的编码长度，进而降低相同的节点所对应的数据数量，并且通过***编码子段，从而在保证无损压缩的同时，有效增强压缩效果。

本发明可以将霍夫曼树作为解码密钥，通过霍夫曼树将数据压缩编码中的目标编码转换为扩充编码子段和***编码子段，由于在压缩过程中是按照编码顺序进行压缩的，则可以直接按照编码顺序将扩充编码子段和***编码子段组合生成时序数据编码，而后，根据原始每个时序数据的编码长度对时序数据编码进行划分，并将划分得到的基于进制转换为时序数据序列，实现解码过程。

需要说明的是：上述本发明实施例先后顺序仅仅为了描述，不代表实施例的优劣。在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。

Claims

1.一种基于大数据的数据压缩存储方法，其特征在于，所述方法包括：

基于霍夫曼编码规则对所述扩充编码子段和所述***编码子段进行编码，得到目标编码，根据所述编码顺序将所述目标编码组合生成数据压缩编码，存储所述数据压缩编码；

根据重叠判断公式确定两个初始编码子段是否重叠，对应的公式为：

式中，D表示重叠判断指标，L表示预设编码长度，i表示初始编码子段中编码值的索引，p、q为任意两个初始编码子段，

表示初始编码子段p中第i个编码值的待处理序号，

表示初始编码子段q中第i个编码值的待处理序号，||表示求绝对值；在重叠判断指标D大于等于L²时，表示初始编码子段没有重叠，在重叠判断指标D小于L²时，表示初始编码子段存在重叠。

2.如权利要求1所述的方法，其特征在于，所述根据编码顺序对所述时序数据编码中的编码值进行标号，得到所述编码值的待处理序号，包括：

3.如权利要求1所述的方法，其特征在于，所述根据所述待处理序号，确定所述初始编码子段的子段序号，包括：

4.如权利要求1所述的方法，其特征在于，所述基于预设扩充规则，根据所述子段序号对所述重复编码子段进行扩充处理，得到至少两个不重叠的扩充编码子段，包括：

5.如权利要求4所述的方法，其特征在于，所述判断所述第一编码子段和所述第二编码子段是否满足预设扩充规则，包括：

6.如权利要求1所述的方法，其特征在于，所述按照所述编码顺序，将所述时序数据编码中除所述扩充编码子段的编码组合生成至少一个***编码子段，包括：

7.如权利要求1所述的方法，其特征在于，所述对所述时序数据序列进行进制转换，得到时序数据编码，包括：