CN116192154A - 数据压缩及数据解压方法、装置、电子设备、芯片 - Google Patents
数据压缩及数据解压方法、装置、电子设备、芯片 Download PDFInfo
- Publication number
- CN116192154A CN116192154A CN202310477769.1A CN202310477769A CN116192154A CN 116192154 A CN116192154 A CN 116192154A CN 202310477769 A CN202310477769 A CN 202310477769A CN 116192154 A CN116192154 A CN 116192154A
- Authority
- CN
- China
- Prior art keywords
- compressed
- character
- data
- mode
- length
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 106
- 230000006837 decompression Effects 0.000 title claims abstract description 102
- 238000013144 data compression Methods 0.000 title claims abstract description 39
- 238000007906 compression Methods 0.000 claims abstract description 180
- 230000006835 compression Effects 0.000 claims abstract description 180
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 40
- 238000012545 processing Methods 0.000 claims description 17
- 230000010076 replication Effects 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 5
- 230000005540 biological transmission Effects 0.000 abstract description 10
- 230000008569 process Effects 0.000 description 34
- 238000013528 artificial neural network Methods 0.000 description 17
- 238000010586 diagram Methods 0.000 description 16
- 238000005516 engineering process Methods 0.000 description 5
- 230000003993 interaction Effects 0.000 description 5
- 238000013139 quantization Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000036316 preload Effects 0.000 description 2
- 238000000638 solvent extraction Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 101100498818 Arabidopsis thaliana DDR4 gene Proteins 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
- H03M7/3084—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction using adaptive string matching, e.g. the Lempel-Ziv method
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本申请提供了一种数据压缩及数据解压方法、装置、电子设备、芯片,应用于数据传输领域。该数据压缩方法包括:确定待压缩数据中每个待压缩字符的最长匹配长度,最长匹配长度为从每一待压缩字符开始的字符串与待压缩数据中位于该待压缩字符之前的字符串匹配成功的最长字符串的长度;根据待压缩字符的最长匹配长度、预设压缩模式以及动态规划算法确定待压缩数据中每个区域的待压缩字符的目标压缩模式,目标压缩模式为预设压缩模式中的一种模式;通过目标压缩模式对相应区域的待压缩字符进行压缩。本申请通过前面区域出现过的字符串来表示后面区域与前面相同的字符串,减少了压缩所需要的内存消耗,且提高了压缩后的数据的传输效率。
Description
技术领域
本申请涉及数据传输领域,具体而言,涉及一种数据压缩及数据解压方法、装置、电子设备、芯片。
背景技术
目前,想要通过神经网络实现控制,通常需要将神经网络架构加载到相应的控制芯片中。但是由于控制芯片的缓存容量有限,而一些神经网络又较为复杂,对应的神经网络参数等数据也较多。例如,基于冯诺依曼架构的NPU高速片,该NPU高速片上的缓存容量很小,无法放下完整的神经网络权重。因此,在开始进行模型推理前,NPU一般会将网络权重预加载到DDR内存中,在计算到某一层时才会加载该层的参数至高速片上缓存。但是,目前的数据压缩技术对神经网络模型参数压缩效率较低,而神经网络规模在日益增大,对应的模型参数的加载速度受到了极大的影响。
发明内容
有鉴于此,本申请实施例的目的在于提供一种数据压缩及数据解压方法、装置、电子设备、芯片,能够提高压缩后的数据的传输效率。
第一方面,本申请实施例提供了一种数据压缩方法,包括:确定待压缩数据中每个待压缩字符的最长匹配长度,所述最长匹配长度为从每一所述待压缩字符开始的字符串与所述待压缩数据中位于该待压缩字符之前的字符串匹配成功的最长字符串的长度;其中,所述待压缩字符开始的字符串与所述待压缩数据中位于该待压缩字符之前的字符串不匹配时,该压缩字符的最长匹配长度为零;根据所述待压缩字符的最长匹配长度、预设压缩模式以及动态规划算法确定所述待压缩数据中每个区域的所述待压缩字符的目标压缩模式,所述区域包括一个或多个所述待压缩字符,所述目标压缩模式为所述预设压缩模式中的一种模式;通过所述目标压缩模式对相应区域的所述待压缩字符进行压缩。
在上述实现过程中,通过确定出待压缩数据中的每个待压缩字符的最长匹配长度,基于每个待压缩字符的最长匹配长度对待压缩数据进行区域划分,并基于最长匹配长度确定每个区域对应的目标压缩模式。可以在对该待压缩数据进行压缩按照区域进行压缩,且可以直接通过前面区域出现过的该字符串来表示后面区域与前面相同的字符串,减少了待压缩数据压缩所需要的内存消耗,且可以提高压缩后的数据的传输效率。例如,待压缩数据为神经网络参数,由于神经网络参数中存在大量重复的字符,在对神经网络参数进行压缩时,采用上述方式进行可以极大的减少神经网络参数压缩所需的内存,进而提高模型参数的加载速度。
在一个实施例中,所述根据所述待压缩字符的最长匹配长度、预设压缩模式以及动态规划算法确定所述待压缩数据中每个区域的所述待压缩字符的目标压缩模式,包括:根据所述待压缩数据中的每个所述待压缩字符的最长匹配长度将所述待压缩数据划分为多个区域;根据所述待压缩字符的最长匹配长度、所述预设压缩模式和所述动态规划算法确定所述待压缩数据中每个所述区域的所述待压缩字符的目标压缩模式。
在上述实现过程中,通过最长匹配长度将待压缩数据划分为多个区域,并将该待压缩数据按照每个区域确定相应的目标压缩模式,以使得每个区域可以采用每个区域对应的能够尽量减少压缩消耗的内存的压缩模式进行压缩,减少了各个区域的待压缩数据压缩所消耗的内存,提高了待压缩数据的压缩效率。
在一个实施例中,所述根据所述待压缩字符的最长匹配长度、预设压缩模式以及动态规划算法确定所述待压缩数据中每个区域的所述待压缩字符的目标压缩模式,包括:根据所述待压缩数据中的每个所述待压缩字符的最长匹配长度将所述待压缩数据划分为多个初始区域;判断所述多个初始区域中的相邻区域中的所述待压缩字符的最长匹配长度对应的最长字符串是否部分重叠;若所述相邻初始区域中的所述待压缩字符的最长匹配长度对应的最长字符串部分重叠,则根据所述动态规划算法和所述预设压缩模式重新对所述相邻初始区域的进行区域划分;确定重新划分后的初始区域和未重新划分的初始区域为所述多个区域;根据每个区域的所述待压缩字符的最长匹配长度、所述预设压缩模式和所述动态规划算法确定所述待压缩数据中每个所述区域的所述待压缩字符的目标压缩模式。
在上述实现过程中,对于相邻初始区域,若相邻初始区域中的待压缩字符对应的最长匹配字符对应的最长字符串存在部分重叠,说明该相邻区域组成的大区域还存在不同的划分方式,通过根据动态规划算法对相邻原始区域存在的多种划分方式计算,以确定占用的字符相对更少的方式对该相邻初始区域的进行区域划分,能够提高待压缩数据的区域划分的准确性。另外,重新根据每个区域的待压缩字符的最长匹配长度、预设压缩模式和动态规划算法确定每个区域的待压缩字符的目标压缩模式,由于动态规划算法能够将前一子问题的解为后一子问题的求解提供有用的信息。因而,通过该动态规划算法确定的每个区域对应的目标压缩模式,是该区域对应的占用字节最少的压缩模式,减少了待压缩数据压缩消耗的字节,提高了压缩效率。
在一个实施例中,所述确定每个待压缩字符的匹配长度,包括:历遍所述待压缩字符,将所述目标位置处的待压缩字符与所述目标位置之前的预设数量待压缩字符进行匹配;若匹配成功,则将所述目标位置处的待压缩字符和所述目标位置的后一个位置处的待压缩字符组成的待压缩字符串与所述目标位置之前的预设数量待压缩字符中的字符串进行匹配;若匹配成功,则继续增加一个位置处的待压缩字符形成的待压缩字符串与所述目标位置之前的预设数量待压缩字符中的字符串进行匹配直到匹配失败;确定所述目标位置与匹配失败位置的前一位置之间的长度为所述目标位置处的所述待压缩字符的最长匹配长度。
在上述实现过程中,通过历遍的方式确定出每个位置处待压缩字符的最长匹配长度,能够准确的确定出在后的每个待压缩字符以及待压缩字符串与在前的待压缩字符及待压缩字符串的匹配关系,进而保证能与在前待压缩字符及待压缩字符串匹配的每一个在后的待压缩字符或待压缩字符串均可以通过在前待压缩字符及待压缩字符串表示,能够极大的减少待压缩数据压缩占用的字节,减少压缩后的数据占用的内存。
在一个实施例中,所述在历遍所述待压缩字符之前,所述方法还包括:将所述待压缩字符按照预设字节数分为多个字节组;计算每个所述字节组的哈希值,并将所述哈希值存储在哈希桶中;所述将目标位置处的待压缩字符与所述目标位置之前的所有待压缩字符进行匹配,包括:基于所述哈希桶将目标位置处的待压缩字符与所述目标位置之前的所有待压缩字符进行匹配。
在上述实现过程中,通过计算每个字节组的哈希值,由于哈希值可以用于检验信息是否相同,可以通过对比哈希值可以确定待压缩数据中的所有重复待压缩字符或待压缩字符串,可以很大程度上提高确定每个位置处的待压缩字符的最长匹配长度的准确性。另外,再基于哈希桶将目标位置处的待压缩字符与目标位置之前的所有待压缩字符进行匹配。由于哈希桶具有查找快等优点,因而基于该哈希桶将目标位置处的待压缩字符与目标位置之前的所有待压缩字符进行匹配,能够提高匹配效率。
在一个实施例中,所述预设压缩模式包括:匹配模式和不匹配模式;所述匹配模式包括以下字段:模式标识字段、字符偏移量字段以及所述匹配长度字段;其中,所述匹配模式的模式标识字段用于记录所述匹配模式的模式标识;所述字符偏移量字段用于记录:在所述待压缩数据中位于第一目标区域之前的部分中,与第一目标区域中的整个待压缩字符串匹配成功的字符串中的第一个待压缩字符,间隔所述第一目标区域待压缩字符串中的第一个待压缩字符的字符数量,所述第一目标区域为所述待压缩数据中采用所述匹配模式的任意区域;所述匹配长度字段用于记录所述第一目标区域的首个所述待压缩字符的匹配长度;所述不匹配模式包括以下字段:模式标识字段、不匹配长度字段和原始字符字段;其中,所述不匹配模式的模式标识字段用于记录所述不匹配模式的模式标识;所述不匹配长度为从任一所述待压缩字符开始的、与所述待压缩数据中位于该待压缩字符之前的字符串中所有字符均匹配失败的字符串的长度,所述字符不匹配长度字段用于记录第二目标区域的首个所述待压缩字符的不匹配长度,所述第二目标区域为所述待压缩数据中采用所述不匹配模式的任意区域;所述原始字符字段用于记录所述第二目标区域中的待压缩字符的原始字符。
在上述实现过程中,通过将压缩模式分为匹配模式和不匹配模式,进而可以根据匹配模式对匹配的待压缩字符或待压缩字符串进行压缩,根据不匹配模式对不匹配的待压缩字符或待压缩字符串进行压缩。使得待压缩字符或待压缩字符串可以根据其自身匹配情况采用相应的压缩模式进行压缩,在减少待压缩数据压缩占用的内存的同时,提高了压缩的准确性。
在一个实施例中,所述预设压缩模式还包括:混合模式;所述混合模式包括以下字段:模式标识字段、所述字符偏移量字段、所述匹配长度字段、所述不匹配长度字段和所述原始字符字段;其中,所述混合模式的模式标识字段用于所述记录所述匹配模式的模式标识。
在上述实现过程中,对于一些内存要求较小,或一些特殊状态下的区域,可以通过采用匹配模式压缩和不匹配模式结合的混合模式进行压缩,能够使得该区域的压缩更加符合区域的实际情况,进而提高压缩的准确性。
第二方面,本申请实施例还提供一种数据解压方法,包括:获取每个区域的压缩数据,所述压缩数据通过上述第一方面,或第一方面的任一种可能的实施方式中的方法压缩获得;针对每个区域的所述压缩数据,根据该区域的所述压缩数据中的模式标识确定该区域采用的所述目标压缩模式,并根据所述目标压缩模式对该区域的所述压缩数据进行解压,得到解压结果中对应该区域的解压数据。
在上述实现过程中,在进行解压时,通过确定出每个区域的目标压缩模式对应的解压方式对该区域进行解压,使得每个区域都按照预设方式解压,提高了解压的准确性。
在一个实施例中,若目标压缩模式为不匹配模式,所述根据所述目标压缩模式对该区域的所述压缩数据进行解压,包括:解码所述不匹配模式中的字符不匹配长度字段,获得字符不匹配长度;其中,所述不匹配长度为从任一所述待压缩字符开始的、与所述待压缩数据中位于该待压缩字符之前的字符串中所有字符均匹配失败的字符串的长度;将所述字符不匹配长度对应字符串的原始字符拷贝至解压结果中的当前解压位置。
在上述实现过程中,在对不匹配模式解压时,直接将不匹配长度对应字符串的原始字符拷贝到解压结果中的当前解压位置,解压过程简单、快速,能够有较高吞吐量,可以满足实时加载需求,进而提高芯片实时解压的效率。
在一个实施例中,若目标压缩模式为匹配模式,所述根据所述目标压缩模式对该区域的所述压缩数据进行解压,包括:解码所述匹配模式中的字符偏移量字段以及匹配长度字段,获得字符偏移量;其中,所述字符偏移量为:在所述待压缩数据中位于第一目标区域之前的部分中,与第一目标区域中的整个待压缩字符串匹配成功的字符串中的第一个待压缩字符,间隔所述第一目标区域待压缩字符串中的第一个待压缩字符的字符数量,所述第一目标区域为所述待压缩数据中采用所述匹配模式的任意区域;根据解析后的所述字符偏移量确定解压结果中的当前解压位置之前的解压数据中的复制起始位置;从所述复制起始位置开始复制相应匹配长度的字符至所述解压结果中的当前解压位置。
在上述实现过程中,对于匹配模式,在解压时,直接解压出对应的字符偏移量和匹配长度,进而从在前的解压数据中确定出复制起始位置,并从复制起始位置开始复制相应匹配长度的字符至解压结果中的当前解压位置。整个解压过程十分简单、快速,能够有较高吞吐量,可以满足实时加载需求,进而提高芯片实时解压的效率。
在一个实施例中,若目标压缩模式为混合模式,所述根据所述目标压缩模式对该区域的所述压缩数据进行解压,包括:解码混合模式中的字符偏移量字段以及所述匹配长度字段,获得字符偏移量;其中,所述字符偏移量为:在所述待压缩数据中位于第三目标区域之前的部分中,与第三目标区域中的整个待压缩字符串匹配成功的字符串中的第一个待压缩字符,间隔所述第三目标区域待压缩字符串中的第一个待压缩字符的字符数量,所述第三目标区域为所述待压缩数据中采用所述混合模式的任意区域;根据解析后的所述字符偏移量确定解压结果中的当前解压位置之前的解压数据中的复制起始位置;从所述复制起始位置开始复制相应匹配长度的字符至所述解压结果中的当前解压位置;解码所述混合模式中的字符不匹配长度字段,获得字符不匹配长度;其中,所述不匹配长度为从任一所述待压缩字符开始的、与所述待压缩数据中位于该待压缩字符之前的字符串中所有字符均匹配失败的字符串的长度;将所述字符不匹配长度对应字符串的原始字符拷贝至所述解压结果中的当前解压位置。
在上述实现过程中,在对混合模式解压时,对于匹配的压缩数据直接使用匹配模式对应的解压方式进行解压,对于不匹配的压缩数据直接使用不匹配模式对应的解压方式进行解压。解压过程简单、快速,能够有较高吞吐量,可以满足实时加载需求,进而提高芯片实时解压的效率。
第三方面,本申请实施例还提供一种数据压缩装置,包括:第一确定模块,用于确定待压缩数据中每个待压缩字符的最长匹配长度,所述最长匹配长度为从每一所述待压缩字符开始的字符串与所述待压缩数据中位于该待压缩字符之前的字符串匹配成功的最长字符串的长度;其中,所述待压缩字符开始的字符串与所述待压缩数据中位于该待压缩字符之前的字符串不匹配时,该压缩字符的最长匹配长度为零;第二确定模块,用于根据所述待压缩字符的最长匹配长度、预设压缩模式以及动态规划算法确定所述待压缩数据中每个区域的所述待压缩字符的目标压缩模式,所述区域包括一个或多个所述待压缩字符,所述目标压缩模式为所述预设压缩模式中的一种模式;压缩模块,用于通过所述目标压缩模式对相应区域的所述待压缩字符进行压缩。
第四方面,本申请实施例还提供一种数据解压装置,包括:获取模块,用于获取每个区域的压缩数据,所述压缩数据通过上述第一方面,或第一方面的任一种可能的实施方式中的方法压缩获得;解压模块,用于针对每个区域的所述压缩数据,根据该区域的所述压缩数据中的模式标识确定该区域采用的所述目标压缩模式,并根据所述目标压缩模式对该区域的所述压缩数据进行解压,得到解压结果中对应该区域的解压数据。
第五方面,本申请实施例还提供一种电子设备,包括:处理器、存储器,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述机器可读指令被所述处理器执行时执行上述第一方面,或第一方面的任一种可能的实施方式中的方法的步骤。
第六方面,本申请实施例还提供一种芯片,包括:处理模块、存储模块,所述存储模块存储有所述处理模块可执行的机器可读指令,当芯片运行时,所述机器可读指令被所述处理模块执行时执行上述第二方面,或第二方面的任一种可能的实施方式中的方法的步骤。
第七方面,本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述第一方面,或第一方面的任一种可能的实施方式、第二方面,或第二方面的任一种可能的实施方式中方法的步骤。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的电子设备与芯片进行交互的示意图;
图2为本申请实施例提供的电子设备的方框示意图;
图3为本申请实施例提供的芯片的方框示意图;
图4为本申请实施例提供的数据压缩方法的流程图;
图5为本申请实施例提供的一种待压缩数据示意图;
图6为本申请实施例提供的另一种待压缩数据示意图;
图7为本申请实施例提供的数据解压方法的流程图;
图8为本申请实施例提供的数据压缩装置的功能模块示意图;
图9为本申请实施例提供的数据解压装置的功能模块示意图。
具体实施方式
下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行描述。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
目前,基于冯诺依曼架构的NPU高速片,在开始进行模型推理前,NPU一般会将网络权重预加载到DDR内存中,在计算到某一层时才会加载该层的参数至高速片上缓存。但是随着神经网络规模的日益增大,模型的加载带宽成为了模型参数加载效率提升的瓶颈。例如30MB的模型按300FPS运行需9GB/s的加载带宽,但是目前的技术很难满足。
本申请发明人经长期研究发现,目前针对上述问题,常见的解决方法有:a,通过量化感知训练和训练后量化技术,可以在几乎不损失任务精度的情况下,将模型量化到2bit/4bit/8bit,降低模型参数量的大小,从而节省加载带宽。但是,量化感知训练和训练后量化技术会对模型精度产生影响,并且量化后可能瓶颈依然存在。b,提升内存带宽大小,从DDR3/DDR4提升到HBM等。但是,提升硬件带宽的成本很高,并且会增加功耗。C,使用游程编码、LZ77、huff man编码等数据压缩技术,在传输前对数据进行压缩,并在接收端进行解压。但是,现有的数据压缩技术解压缩吞吐量不够高,无法满足实时加载的需求。
有鉴于此,本申请发明人提出一种数据压缩方法,通过在确定待压缩数据中每个待压缩字符的最长匹配长度后,根据该确定待压缩数据中每个待压缩字符的最长匹配长度对该待压缩数据进行分区,并根据不同区域的最长匹配长度、预设压缩模式以及动态规划算法确定每个区域对应的目标压缩模式,并通过每个区域的目标压缩模式对该区域进行压缩。可以在对该待压缩数据进行压缩按照区域进行压缩,且可以直接通过前面区域出现过的该字符串来表示后面区域与前面相同的字符串,减少了待压缩数据压缩所需要的内存消耗,且可以提高压缩后的数据的传输效率。
为便于对本实施例进行理解,首先对执行本申请实施例所公开的一种数据压缩方法的运行环境进行详细介绍。
如图1所示,是本申请实施例提供的电子设备与芯片进行交互的示意图。所述电子设备100通过网络与芯片200进行通信连接,以进行数据通信或交互。所述电子设备100可以是网络服务器、数据库服务器、个人电脑(personal computer,PC)、平板电脑、智能手机、个人数字助理(personal digital assistant,PDA)等。所述芯片200可以NPU芯片、CPU芯片等。
这里的电子设备100用于将待压缩数据进行压缩,并将压缩后的数据传输到芯片200的缓存上。该芯片200用于根据相应的压缩模式对缓存中的压缩数据进行解压。
可选地,本申请实施例中,对待压缩数据进行压缩以及对压缩数据进行解压可以在同一设备中进行,也可以分两个设备进行。该电子设备100既可以对待压缩数据进行压缩,也可以对压缩数据解压。该芯片200既可以对待压缩数据进行压缩,也可以对压缩数据解压。
为便于对本实施例进行理解,首先对执行本申请实施例所公开的数据压缩方法的电子设备进行详细介绍。
如图2所示,是电子设备的方框示意图。电子设备100可以包括存储器111、处理器113。本领域普通技术人员可以理解,图2所示的结构仅为示意,其并不对电子设备100的结构造成限定。例如,电子设备100还可包括比图2中所示更多或者更少的组件,或者具有与图2所示不同的配置。
上述的存储器111和处理器113相互之间直接或间接地电性连接,以实现字符的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。上述的处理器113用于执行存储器中存储的可执行模块。
其中,存储器111可以是,但不限于,随机存取存储器(Random Access Memory,简称RAM),只读存储器(Read Only Memory,简称ROM),可编程只读存储器(ProgrammableRead-Only Memory,简称PROM),可擦除只读存储器(Erasable Programmable Read-OnlyMemory,简称EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-OnlyMemory,简称EEPROM)等。其中,存储器111用于存储程序,所述处理器113在接收到执行指令后,执行所述程序,本申请实施例任一实施例揭示的过程定义的电子设备100所执行的方法可以应用于处理器113中,或者由处理器113实现。
上述的处理器113可能是一种集成电路芯片,具有信号的处理能力。上述的处理器113可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(digital signalprocessor,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本实施例中的电子设备100可以用于执行本申请实施例提供的数据压缩方法中的各个步骤。
如图3所示,是芯片的方框示意图。芯片200可以包括处理单元211、缓存单元212。本领域普通技术人员可以理解,图3所示的结构仅为示意,其并不对芯片200的结构造成限定。例如,芯片200还可包括比图3中所示更多或者更少的单元,或者具有与图3所示不同的配置。
上述的处理单元211和缓存单元212相互之间直接或间接地电性连接,以实现字符的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。上述的处理单元211用于执行缓存单元212中存储的可执行数据。
其中,缓存单元212用于存储程序,所述处理单元211在接收到执行指令后,执行所述程序,本申请实施例任一实施例揭示的过程定义的芯片200所执行的方法可以应用于处理单元211中,或者由处理单元211实现。
上述的处理单元211具有信号的处理能力。可以实现或者执行本申请实施例中的公开的数据解压方法、步骤及逻辑框图。
本实施例中的芯片200可以用于执行本申请实施例提供的数据解压方法中的各个步骤。
请参阅图4,是本申请实施例提供的数据压缩方法的流程图。下面将对图4所示的具体流程进行详细阐述。
步骤S201,确定待压缩数据中每个待压缩字符的最长匹配长度。
这里的最长匹配长度为从每一待压缩字符开始的字符串与待压缩数据中位于该待压缩字符之前的字符串匹配成功的最长字符串的长度;其中,待压缩字符开始的字符串与待压缩数据中位于该待压缩字符之前的字符串不匹配时,该压缩字符的最长匹配长度为零。
示例性地,如图5所示,图5中示出包括14个待压缩字符的待压缩数据。若此时被匹配待压缩字符为位置5处的“J”字符,则将该“J”字符与该“J”字符前面的位置1-4的字符进行匹配,则确定位置5处的“J”字符的最长匹配长度为0。
若此时被匹配待压缩字符为位置8处的“A”字符,则将该“A”字符开始的字符串(图5中示出,“A”字符开始的字符串包括:“A”、“AQ”、“AQA”和“AQAB”)与该“A”字符前面的位置1-7中的字符串(图5中示出“A”、“AQ”、“AQA”、“AQAB”、“AQABJ”、“AQABJE”、“AQABJED”、“Q”、“QA”、“QAB”、“QABJ”、“QABJE”、“QABJED”、“ABJ”、“ABJE”、“ABJED”…)进行匹配,则确定位置8处的“A”字符的最长匹配长度为4。
若此时被匹配待压缩字符为位置13处的“E”字符,则将该“E”字符开始的字符串(图5中示出,“E”字符开始的字符串包括:“E”和“ED”)与该“A”字符前面的位置1-12中的字符串(图5中示出“A”、“AQ”、“AQA”、“AQAB”、“AQABJ”、“AQABJE”、“AQABJED”、“Q”、“QA”、“QAB”、“QABJ”、“QABJE”、“QABJED”、“ABJ”、“ABJE”、“ABJED”…)进行匹配,则确定位置13处的“E”字符的最长匹配长度为2。
步骤S202,根据待压缩字符的最长匹配长度、预设压缩模式以及动态规划算法确定待压缩数据中每个区域的待压缩字符的目标压缩模式。
这里的区域包括一个或多个待压缩字符。该区域可以通过待压缩数据中的每个待压缩字符的最长匹配长度直接确定,也可以通过待压缩数据中的每个待压缩字符的最长匹配长度、预设压缩模式以及动态规划算法计算确定。
上述的目标压缩模式为预设压缩模式中的一种模式。该预设压缩模式包括:匹配模式、不匹配模式和混合模式等。
其中,匹配模式包括需要包括以下信息:模式标识、字符偏移量以及匹配长度。不匹配模式包括以下信息:模式标识、不匹配长度和原始字符字段。混合模式包括以下信息:模式标识、字符偏移量、匹配长度字段、不匹配长度字段和原始字符字段。
这里的匹配模式的模式标识包括匹配模式标识、不匹配模式标识、混合模式标识等。该模式标识可以通过二进制表示。例如,00表示匹配模式,01表示不匹配模式,10表示混合模式。当然,该模式标识也可以通过其他字段表示,如三进制、四进制等。
该字符偏移量为在待压缩数据中位于第一目标区域之前的部分中,与第一目标区域中的整个待压缩字符串匹配成功的字符串中的第一个待压缩字符,间隔第一目标区域待压缩字符串中的第一个待压缩字符的字符数量。这里的第一目标区域为待压缩数据中采用匹配模式的任意区域。
示例性地,如图5所示,若第一目标区域为位置8-11对应的区域,则该第一目标区域的字符偏移量为:位置1的“A”字符与位置8的“A”字符之间的字符数量,即该第一目标区域的字符偏移量为7。
如图6所示,若第一目标区域为位置13-19对应的区域,则该第一目标区域的字符偏移量为:位置6的“C”字符与位置13的“C”字符之间的字符数量,即该第一目标区域的字符偏移量为7。
上述的匹配长度为第一目标区域的首个待压缩字符与最后一个待压缩字符的之间的待压缩字符数。
这里的不匹配长度为从任一待压缩字符开始的、与待压缩数据中位于该待压缩字符之前的字符串中所有字符均匹配失败的字符串的长度。该字符不匹配长度用于记录第二目标区域的首个待压缩字符的不匹配长度,该第二目标区域为待压缩数据中采用不匹配模式的任意区域。
上述的原始字符为第二目标区域中的所有待压缩字符。
这里的动态规划算法是一种将待求解的问题分解为若干个子问题,按顺序求解子阶段,前一子问题的解,为后一子问题的求解提供了有用的信息。在求解任一子问题时,列出各种可能的局部解,通过决策保留那些有可能达到最优的局部解,丢弃其他局部解。依次解决各子问题,最后一个子问题就是初始问题的解的方法。
可以理解地,对于比较复杂的待压缩数据,待压缩数据中的待压缩字符的最长匹配长度对应的字符串之间可能会存在部分重叠。则对于这种情况下,需要根据该动态规划算法计算前一待压缩数据的最长匹配长度对应的字符串采用的压缩模式对后一待压缩数据的最长匹配长度对应的字符串采用的压缩模式产生的影响,并根据计算结果对待压缩数据中的区域进行划分,并确定每个区域对应的待压缩字符的最长匹配长度。
示例性地,如图6所示,图6中示出包括21个待压缩字符的待压缩数据。若此时被匹配待压缩字符为位置10处的“A”字符,则将该“A”字符开始的字符串(图6中示出,“A”字符开始的字符串包括:“A”、“AA”、“AAB”、“AABC”和“AABCD”)与该“A”字符前面的位置1-9中的字符串(图6中示出“A”、“AA”、“AAB”、“AABC”、“AABCD”、“AABCDC、“AABCDCD”…)进行匹配,则确定位置10处的“A”字符的最长匹配长度为5,对应的最长字符串为“AABCD”。而当被匹配待压缩字符为位置13处的“C”字符时,则将该“C”字符开始的字符串(图6中示出,“C”字符开始的字符串包括:“C”、“CD”、“CDA”、“CDAQ”、“CDAQA”、“CDAQAA”和“CDAQAAB”)与该“C”字符前面的位置1-12中的字符串(图6中示出“A”、“AA”、“AAB”、“AABC”、“AABCD”、“AABCDC、“AABCDCD”…)进行匹配,则确定位置13处的“C”字符的最长匹配长度为7,且对应的最长字符串为“CDAQAAB”。此时,以位置10处的“A”字符为起点的最长字符串和以位置13处的“C”字符为起点的最长字符串中存在重叠字符串“CD”,则该重叠字符串“CD”具体划分到以位置10处的“A”字符为起点的最长字符串还是以位置13处的“C”字符为起点的最长字符串中,可以通过动态规划算法计算出,该重叠字符串“CD”划分到哪一字符串的压缩效果更好,并根据计算结果对位置10-19重新划分区域。
在将待压缩数据中的所有待压缩字符进行区域划分后,每个区域中的首个待压缩字符到末尾待压缩字符形成的字符串为该区域对应的最长匹配长度。通过每个区域的最长匹配长度、动态规划和预设压缩模式确定每个区域的目标压缩模式。
在一些实施例中,若某一区域的目标压缩模式为匹配模式,则在对该区域进行压缩时,可以通过在该区域对应的控制字符中记录该区域的模式标识、字符偏移量和匹配长度,并对该控制字符进行压缩。
在一些实施例中,若某一区域的目标压缩模式为不匹配模式,则在对该区域进行压缩时,可以通过在该区域对应的控制字符中记录该区域的模式标识和不匹配长度,并在该控制字符后面接原始字符,进而对该控制字符和原始字符进行压缩。
在一些实施例中,若某一区域的目标压缩模式为混合模式,则在对该区域进行压缩时,可以通过在该区域中的对应的控制字符中记录该区域的模式标识字符偏移量、匹配长度和不匹配长度,并在该控制字符后面接不匹配长度对应的原始字符,进而对该控制字符和原始字符进行压缩。
步骤S203,通过目标压缩模式对相应区域的待压缩字符进行压缩。
在确定出每个区域的目标压缩模式后,分别对每个区域的待压缩字符采用相应的目标压缩模式进行压缩,以完成待压缩数据的压缩。
在上述实现过程中,通过确定出待压缩数据中的每个待压缩字符的最长匹配长度,基于每个待压缩字符的最长匹配长度对待压缩数据进行区域划分,并基于最长匹配长度确定每个区域对应的目标压缩模式。可以在对该待压缩数据进行压缩按照区域进行压缩,且可以直接通过前面区域出现过的该字符串来表示后面区域与前面相同的字符串,减少了待压缩数据压缩所需要的内存消耗,且可以提高压缩后的数据的传输效率。例如,待压缩数据为神经网络参数,由于神经网络参数中存在大量重复的字符,在对神经网络参数进行压缩时,采用上述方式进行可以极大的减少神经网络参数压缩所需的内存,进而提高模型参数的加载速度。
可以理解地,本申请中的待压缩数据不限于对神经网络参数。
在一种可能的实现方式中,步骤S202,包括:根据待压缩数据中的每个待压缩字符的最长匹配长度将待压缩数据划分为多个区域;根据待压缩字符的最长匹配长度、预设压缩模式和动态规划算法确定待压缩数据中每个所述区域的待压缩字符的目标压缩模式。
可以理解地,对于一些内存较大的芯片,或对于压缩速率要求不高的场景。在确定出待压缩数据中的每个待压缩字符的最长匹配长度后,可以直接根据该待压缩数据中的每个待压缩字符的最长匹配长度对该待压缩数据进行区域划分。
示例性地,若区域划分规则可以是按照待压缩字符出现的顺序进行划分。如图6所示,在对位置10处的“A”字符之后的区域进行划分时,位置10-14的字符串“AABCD”可以划分为一个区域,位置15-19的字符串“AQAAB”可以划分为一个区域。
在将待压缩数据按照上述方式划分为多个区域后,根据每个区域的首个待压缩字符的最长匹配长度、预设压缩模式和动态规划算法计算该区域的目标压缩模式。
在一些实施例中,若该待压缩数据中存在多个连续最长匹配长度为零的待压缩数据。还可以根据多个连续最长匹配长度为零的待压缩数据的数量与预设不匹配数量将该多个连续最长匹配长度为零的待压缩数据进行区域划分。
示例性地,如图5所示,图5中位置5出的字符“B”,从该字符“B”开始的位置4-7中的待压缩字符为4个连续最长匹配长度为零的待压缩字符。则可以根据预设不匹配数量对该位置4-7进行区域划分。若该预设不匹配数量为2个字符,则该位置4-7可以划分为位置4-5与位置6-7两个区域。若该预设不匹配数量为4个字符,则该位置4-7可以划分为一个区域。
在上述实现过程中,通过最长匹配长度将待压缩数据划分为多个区域,并将该待压缩数据按照每个区域确定相应的目标压缩模式,以使得每个区域可以采用每个区域对应的能够尽量减少压缩消耗的内存的压缩模式进行压缩,减少了各个区域的待压缩数据压缩所消耗的内存,提高了待压缩数据的压缩效率。
在一种可能的实现方式中,步骤S202,包括:根据待压缩数据中的每个待压缩字符的最长匹配长度将待压缩数据划分为多个初始区域;判断多个初始区域中的相邻区域中的待压缩字符的最长匹配长度对应的最长字符串是否部分重叠;若相邻初始区域中的待压缩字符的最长匹配长度对应的最长字符串部分重叠,则根据动态规划算法和预设压缩模式重新对相邻初始区域的进行区域划分;确定重新划分后的初始区域和未重新划分的初始区域为多个区域;根据每个区域的待压缩字符的最长匹配长度、预设压缩模式和动态规划算法确定待压缩数据中每个区域的所述待压缩字符的目标压缩模式。
这里的初始区域是指直接根据待压缩数据中的每个待压缩字符的最长匹配长度对待压缩数据进行划分后的区域。
示例性地,如图6所示,在对位置10处的“A”字符之后的区域进行划分时,位置10-14的字符串“AABCD”可以划分为一个区域,位置15-19的字符串“AQAAB”可以划分为一个区域。这里的“AABCD”和“AQAAB”所在区域可以认定为位置10-19的初始区域。
可以理解地,通常情况下,直接通过每个待压缩字符的最长匹配长度对待压缩数据直接进行区域划分,在前的匹配字符串对应的区域的划分会影响在后字符串对应的区域的划分。这样的划分方式对该待压缩数据整体来说,可能并不是更优的方式。
因而,在对待压缩数据进初步区域划分后,可以根据相邻区域的最长匹配长度对应的最长字符串之间是否存在重叠部分,来确定该相邻区域组成的大区域是否还存在不同的划分方式。若存在,则可以根据动态规划算法和预设压缩模式重新对相邻初始区域的进行区域划分,以对相邻初始区域进行较优划分。
示例性地,如图6所示,在对位置10处的“A”字符之后的区域进行划分时,位置10-14的字符串“AABCD”可以划分为一个区域,位置15-19的字符串“AQAAB”可以划分为一个区域。这里的“AABCD”和“AQAAB”所在区域可以认定为位置相邻的初始区域。在位置10-14的字符串“AABCD”中的待压缩字符“C”对应的最长匹配长度对应的最长字符串“CDAQAAB”与位置15-19的字符串“AQAAB”中位置15处的“A”字符的最长匹配长度对应的最长字符串“AQAAB”存在重叠的“AQAAB”部分。则可以确定“AABCD”和“AQAAB”所在区域可以重新划分。且该“AABCD”和“AQAAB”可以形成的最长字符串组合可包括:“AAB”和“CDAQAAB”,“AABCD”和“AQAAB”。则可以通过动态规划算法和预设压缩模式对这两组合的区域划分方式进行确定,选择这两种组合中区域划分方式在进行相应区域的待压缩字符压缩时,占用的字符相对更少的方式对该相邻初始区域的进行区域划分。
对于初始区域中的相邻区域中的待压缩字符的最长匹配长度对应的最长字符串不存在部分重叠的相邻初始区域,则不进行重新划分。
在上述实现过程中,对于相邻初始区域,若相邻初始区域中的待压缩字符对应的最长匹配字符对应的最长字符串存在部分重叠,说明该相邻区域组成的大区域还存在不同的划分方式,通过根据动态规划算法对相邻原始区域存在的多种划分方式计算,以确定占用的字符相对更少的方式对该相邻初始区域的进行区域划分,能够提高待压缩数据的区域划分的准确性。另外,重新根据每个区域的待压缩字符的最长匹配长度、预设压缩模式和动态规划算法确定每个区域的待压缩字符的目标压缩模式,由于动态规划算法能够将前一子问题的解为后一子问题的求解提供有用的信息。因而,通过该动态规划算法确定的每个区域对应的目标压缩模式,是该区域对应的占用字节最少的压缩模式,减少了待压缩数据压缩消耗的字节,提高了压缩效率。
在一种可能的实现方式中,步骤S201,包括:历遍待压缩字符,将目标位置处的待压缩字符与目标位置之前的预设数量待压缩字符进行匹配;若匹配成功,则将目标位置处的待压缩字符和目标位置的后一个位置处的待压缩字符组成的待压缩字符串与目标位置之前的预设数量待压缩字符中的字符串进行匹配;若匹配成功,则继续增加一个位置处的待压缩字符形成的待压缩字符串与目标位置之前的预设数量待压缩字符中的字符串进行匹配直到匹配失败;确定目标位置与匹配失败位置的前一位置之间的长度为目标位置处的待压缩字符的最长匹配长度。
这里的预设数量待压缩字符为提前设置的匹配范围。该预设数量待压缩字符可以根据解压芯片的内存确定。当然,该预设数量待压缩字符也可以根据经验确定,还可以通过深度学习等算法确定。
可以理解地,在将目标位置处的待压缩字符与目标位置之前的预设数量待压缩字符进行匹配时;若匹配失败,则确定该目标位置处的待压缩字符为不匹配字符,则确定该待压缩字符的最长匹配长度为零。
为了更方便理解,下面以图5为例,进一步说明步骤201的具体过程:
对于位置1处的“A字符”,该位置1处的“A字符”前面没有字符,则该位置1处的“A字符”匹配失败,该位置1处的“A字符”的最长匹配长度为0。
对于位置2处的“Q字符”,该位置2处的“Q字符”前面只有“A字符”,则该位置2处的“Q字符”与该位置之前的待压缩字符匹配失败,该位置2处的“Q字符”的最长匹配长度为0。
对于位置3处的“A字符”,该位置3处的“A字符”前面有“A字符、Q字符”,则该位置2处的“A字符”与该位置之前的位置1处的“A字符”匹配,该位置3处的“A字符”的匹配长度为1。
进一步,对于位置3处的“AB字符串”,该位置3处的“AB字符串”前面有“AQ字符串和QA字符串”,则该位置3处的“AB字符串”与该位置之前待压缩字符串匹配失败,则确定该位置3处的“A字符”的最长匹配长度为1。则继续对位置4的“B字符”进行匹配,匹配结果为:该位置4处的“B字符”的最长匹配长度为0。
一直对每个位置上的待压缩字符与该位置之前的待压缩字符进行匹配,位置5-7的待压缩字符的匹配方式和上述匹配方式相同这里不再赘述。
对于位置8处的“A字符”,该位置8处的“A字符”前面有“位置1的A字符和位置3的A字符”与其匹配,该位置8处的“A字符”的匹配长度为1。
进一步,对于位置8-9处的“AQ字符串”,该位置8-9处的“AQ字符串”前面有“位置1-2的AQ字符串”与其匹配,该位置8处的“A字符”的匹配长度为2。
对于位置8-10处的“AQA字符串”,该位置8-10处的“AQA字符串”前面有“位置1-3的AQA字符串”与其匹配,该位置8处的“A字符”的匹配长度为3。
对于位置8-11处的“AQAB字符串”,该位置8-11处的“AQAB字符串”前面有“位置1-4的AQAB字符串”与其匹配,该位置8处的“A字符”的匹配长度为4。
对于位置8-12处的“AQABB字符串”,该位置8-12处的“AQABB字符串”前面没有相应的字符串与其匹配,该位置8处的“A字符”的最长匹配长度为4。此时,继续对位置9处的“Q字符”进行匹配,该位置9处的“Q字符”前面有位置2处的“Q字符”与其匹配,该位置9处的“Q字符”的最长匹配长度为7。
对于位置9-10处的“QA字符串”,该位置9-10处的“QA字符串”前面有“位置2-3的QA字符串”与其匹配,该位置9处的“Q字符”的匹配长度为2。
对于位置9-11处的“QAB字符串”,该位置9-11处的“QAB字符串”前面有“位置2-4的QAB字符串”与其匹配,该位置9处的“Q字符”的匹配长度为3。
对于位置9-12处的“QABB字符串”,该位置9-12处的“QABB字符串”前面没有相应的字符串与其匹配,该位置9处的“Q字符”的最长匹配长度为3。
后面的待压缩字符的匹配方式和上述方式相同,这里不再赘述。
在上述实现过程中,通过历遍的方式确定出每个位置处待压缩字符的最长匹配长度,能够准确的确定出在后的每个待压缩字符以及待压缩字符串与在前的待压缩字符及待压缩字符串的匹配关系,进而保证能与在前待压缩字符及待压缩字符串匹配的每一个在后的待压缩字符或待压缩字符串均可以通过在前待压缩字符及待压缩字符串表示,能够极大的减少待压缩数据压缩占用的字节,减少压缩后的数据占用的内存。
在一种可能的实现方式中,步骤S201之前,还包括:将待压缩数据按照预设字节数分为多个字节组;计算每个字节组的哈希值,并将哈希值存储在哈希桶中;将目标位置处的待压缩字符与目标位置之前的所有待压缩字符进行匹配,包括:基于哈希桶将目标位置处的待压缩字符与目标位置之前的所有待压缩字符进行匹配。
这里的预设字节数为预先设置的用于确定最长匹配长度的字符串的字节数量。该预设字节数可以根据待压缩字符的偏移量和匹配长度占用的字节数来确定。例如,该预设字节数可以是2字节、4字节、8字节等。
可以理解地,对于能够与在前字符串匹配的字符串,在进行压缩时,可以通过记录该字符串中的首个待压缩字符的偏移量和匹配长度,直接压缩该偏移量字段和匹配长度字段实现该字符串的压缩,可以极大减少该字符串压缩占用的字节。由于偏移量字段和匹配长度字段会占用相应的字节,对于匹配长度较短的待压缩字符串来说,可能该偏移量字段和匹配长度字段会占用的字节和该字符串本身占用的字节相同,或者比该字符本身占用的字节还多,则可以不通过偏移量字段和匹配长度字段来代替该字符串的压缩。
通过设置预设字节数将待压缩数据分为多个组,则在将在后待压缩字符串与在前待压缩字符串匹配时,直接确定目标位置处向后预设字节数的待压缩字符为目标位置处的待压缩字符串,并将该待压缩字符串与在前字符串进行匹配。
示例性地,若该预设字节数为4,则确定目标位置处的待压缩字符及其后面3个待压缩字符为目标位置处的待压缩字符串,并将该待压缩字符串与在前待压缩字符串进行匹配。若匹配成功,则在该待压缩字符串的基础上增加该字符串后面的一个待压缩字符,形成新的待压缩字符串,并将该新的待压缩字符串与在前待压缩字符串进行匹配,直到确定出该目标位置出的待压缩字符的最长匹配长度。
在上述实现过程中,通过计算每个字节组的哈希值,由于哈希值可以用于检验信息是否相同,可以通过对比哈希值可以确定待压缩数据中的所有重复待压缩字符或待压缩字符串,可以很大程度上提高确定每个位置处的待压缩字符的最长匹配长度的准确性。另外,再基于哈希桶将目标位置处的待压缩字符与目标位置之前的所有待压缩字符进行匹配。由于哈希桶具有查找快等优点,因而基于该哈希桶将目标位置处的待压缩字符与目标位置之前的所有待压缩字符进行匹配,能够提高匹配效率。
在一种可能的实现方式中,该预设压缩模式包括:匹配模式和不匹配模式。
这里的匹配模式包括以下字段:模式标识字段、字符偏移量字段以及所述匹配长度字段。
其中,匹配模式的模式标识字段用于记录匹配模式的模式标识。字符偏移量字段用于记录:在待压缩数据中位于第一目标区域之前的部分中,与第一目标区域中的整个待压缩字符串匹配成功的字符串中的第一个待压缩字符,间隔第一目标区域待压缩字符串中的第一个待压缩字符的字符数量,第一目标区域为待压缩数据中采用匹配模式的任意区域。
这里的匹配长度字段用于记录第一目标区域的首个待压缩字符的匹配长度。
该不匹配模式包括以下字段:模式标识字段、不匹配长度字段和原始字符字段。
其中,不匹配模式的模式标识字段用于记录不匹配模式的模式标识。
这里的不匹配长度为从任一待压缩字符开始的、与待压缩数据中位于该待压缩字符之前的字符串中所有字符均匹配失败的字符串的长度,该字符不匹配长度字段用于记录第二目标区域的首个待压缩字符的不匹配长度,该第二目标区域为待压缩数据中采用不匹配模式的任意区域。
上述的原始字符字段用于记录第二目标区域中的待压缩字符的原始字符。
可以理解地,由于每个字符中能够使用的字段有限,对于匹配长度或不匹配长度较长的区域,使用一个控制字符不能完整的表示对应的待压缩字符串。因而,还可以根据匹配长度或不匹配长度进一步对该匹配模式和不匹配模式进行划分。
可选地,该不匹配模式可以进一步划分为长不匹配模式和短不匹配模式。例如,长不匹配模式通过14bit记录不匹配长度,后面跟着对应长度的原始字符。短不匹配模式通过6bit记录不匹配长度,后面跟着对应长度的原始字符。
该匹配模式可以进一步划分为长匹配模式和短匹配模式。例如,长匹配模式通过14bit记录偏移量,8bit记录匹配长度。短匹配模式通过8bit记录偏移量,4bit记录匹配长度。
在上述实现过程中,通过将压缩模式分为匹配模式和不匹配模式,进而可以根据匹配模式对匹配的待压缩字符或待压缩字符串进行压缩,根据不匹配模式对不匹配的待压缩字符或待压缩字符串进行压缩。使得待压缩字符或待压缩字符串可以根据其自身匹配情况采用相应的压缩模式进行压缩,在减少待压缩数据压缩占用的内存的同时,提高了压缩的准确性。
在一种可能的实现方式中,该预设压缩模式还包括:混合模式。
这里的混合模式包括以下字段:模式标识字段、字符偏移量字段、匹配长度字段、不匹配长度字段和原始字符字段。
其中,混合模式的模式标识字段用于记录匹配模式的模式标识。
可以理解地,对于一些内存较大的芯片,其能够支持的压缩字段较长,因而可以扩大划分的区域的长度。此时,某些区域中可能同时包括匹配的字符串或不匹配的字符串,这种情况下,该区域可以采用混合模式进行压缩。
示例性地,该混合模式通过14bit记录偏移量,4bit记录匹配长度,4bit记录不匹配长度,后面跟着对应长度的原始字符。
在上述实现过程中,对于一些内存要求较小,或一些特殊状态下的区域,可以通过采用匹配模式压缩和不匹配模式结合的混合模式进行压缩,能够使得该区域的压缩更加符合区域的实际情况,进而提高压缩的准确性。
请参阅图7,是本申请实施例提供的数据解压方法的流程图。下面将对图7所示的具体流程进行详细阐述。
步骤S301,获取每个区域的压缩数据。
这里的压缩数据通过上述数据压缩方法压缩获得。
上述的每个区域是指压缩数据的每个区域。
步骤S302,针对每个区域的压缩数据,根据该区域的压缩数据中的模式标识确定该区域采用的目标压缩模式,并根据目标压缩模式对该区域的压缩数据进行解压,得到解压结果中对应该区域的解压数据。
这里的每个目标压缩模式都有对应的解压方式。
可以理解地,在对每个区域的压缩数据进行解压时,可以解析该区域的压缩数据中的模式标识,以得到该区域对应的目标压缩模式,并确定对应的解压方式。
在对压缩数据解压时,按照每个区域的目标压缩模式,采用相应的解压方式对每个区域的压缩数据进行解压。
在上述实现过程中,在进行解压时,通过确定出每个区域的目标压缩模式对应的解压方式对该区域进行解压,使得每个区域都按照预设方式解压,提高了解压的准确性。
在一种可能的实现方式中,步骤S302,包括:解码不匹配模式中的字符不匹配长度字段,获得字符不匹配长度;将字符不匹配长度对应字符串的原始字符拷贝至解压结果中的当前解压位置。
其中,不匹配长度为从任一待压缩字符开始的、与待压缩数据中位于该待压缩字符之前的字符串中所有字符均匹配失败的字符串的长度。
在上述实现过程中,在对不匹配模式解压时,直接将不匹配长度对应字符串的原始字符拷贝到解压结果中的当前解压位置,解压过程简单、快速,能够有较高吞吐量,可以满足实时加载需求,进而提高芯片实时解压的效率。
在一种可能的实现方式中,步骤S302,包括:解码所述匹配模式中的字符偏移量字段以及匹配长度字段,获得字符偏移量;根据解析后的字符偏移量确定解压结果中的当前解压位置之前的解压数据中的复制起始位置;从复制起始位置开始复制相应匹配长度的字符至解压结果中的当前解压位置。
其中,字符偏移量为:在待压缩数据中位于第一目标区域之前的部分中,与第一目标区域中的整个待压缩字符串匹配成功的字符串中的第一个待压缩字符,间隔第一目标区域待压缩字符串中的第一个待压缩字符的字符数量,该第一目标区域为所述待压缩数据中采用匹配模式的任意区域。
在上述实现过程中,对于匹配模式,在解压时,直接解压出对应的字符偏移量和匹配长度,进而从在前的解压数据中确定出复制起始位置,并从复制起始位置开始复制相应匹配长度的字符至解压结果中的当前解压位置。整个解压过程十分简单、快速,能够有较高吞吐量,可以满足实时加载需求,进而提高芯片实时解压的效率。
在一种可能的实现方式中,步骤S302,包括:解码混合模式中的字符偏移量字段以及匹配长度字段,获得字符偏移量;根据解析后的字符偏移量确定解压结果中的当前解压位置之前的解压数据中的复制起始位置;从复制起始位置开始复制相应匹配长度的字符至解压结果中的当前解压位置;解码混合模式中的字符不匹配长度字段,获得字符不匹配长度;
其中,这里的字符偏移量为:在待压缩数据中位于第三目标区域之前的部分中,与第三目标区域中的整个待压缩字符串匹配成功的字符串中的第一个待压缩字符,间隔第三目标区域待压缩字符串中的第一个待压缩字符的字符数量,该第三目标区域为待压缩数据中采用所述混合模式的任意区域。
该不匹配长度为从任一待压缩字符开始的、与待压缩数据中位于该待压缩字符之前的字符串中所有字符均匹配失败的字符串的长度;将字符不匹配长度对应字符串的原始字符拷贝至解压结果中的当前解压位置。
在上述实现过程中,在对混合模式解压时,对于匹配的压缩数据直接使用匹配模式对应的解压方式进行解压,对于不匹配的压缩数据直接使用不匹配模式对应的解压方式进行解压。解压过程简单、快速,能够有较高吞吐量,可以满足实时加载需求,进而提高芯片实时解压的效率。
基于同一申请构思,本申请实施例中还提供了与数据压缩方法对应的数据压缩装置,由于本申请实施例中的装置解决问题的原理与前述的数据压缩方法实施例相似,因此本实施例中的装置的实施可以参见上述方法的实施例中的描述,重复之处不再赘述。
请参阅图8,是本申请实施例提供的数据压缩装置的功能模块示意图。本实施例中的数据压缩装置中的各个模块用于执行上述方法实施例中的各个步骤。数据压缩装置包括第一确定模块401、第二确定模块402、压缩模块403;其中,
第一确定模块401用于确定待压缩数据中每个待压缩字符的最长匹配长度,所述最长匹配长度为从每一所述待压缩字符开始的字符串与所述待压缩数据中位于该待压缩字符之前的字符串匹配成功的最长字符串的长度;其中,所述待压缩字符开始的字符串与所述待压缩数据中位于该待压缩字符之前的字符串不匹配时,该压缩字符的最长匹配长度为零。
第二确定模块402用于根据所述待压缩字符的最长匹配长度、预设压缩模式以及动态规划算法确定所述待压缩数据中每个区域的所述待压缩字符的目标压缩模式,所述区域包括一个或多个所述待压缩字符,所述目标压缩模式为所述预设压缩模式中的一种模式。
压缩模块403用于通过所述目标压缩模式对相应区域的所述待压缩字符进行压缩。
一种可能的实施方式中,第二确定模块402,还用于:根据所述待压缩数据中的每个所述待压缩字符的最长匹配长度将所述待压缩数据划分为多个区域;根据所述待压缩字符的最长匹配长度、所述预设压缩模式和所述动态规划算法确定所述待压缩数据中每个所述区域的所述待压缩字符的目标压缩模式。
一种可能的实施方式中,第二确定模块402,还用于:根据所述待压缩数据中的每个所述待压缩字符的最长匹配长度将所述待压缩数据划分为多个初始区域;判断所述多个初始区域中的相邻区域中的所述待压缩字符是否部分重叠;若所述相邻初始区域中的所述待压缩字符部分重叠,则根据所述动态规划算法和所述预设压缩模式重新对所述相邻初始区域的进行区域划分;确定重新划分后的初始区域和未重新划分的初始区域为所述多个区域;根据每个区域的所述待压缩字符的最长匹配长度、所述预设压缩模式和所述动态规划算法确定所述待压缩数据中每个所述区域的所述待压缩字符的目标压缩模式。
一种可能的实施方式中,第一确定模块401,还用于:历遍所述待压缩字符,将所述目标位置处的待压缩字符与所述目标位置之前的预设数量待压缩字符进行匹配;若匹配成功,则将所述目标位置处的待压缩字符和所述目标位置的后一个位置处的待压缩字符组成的待压缩字符串与所述目标位置之前的预设数量待压缩字符中的字符串进行匹配;若匹配成功,则继续增加一个位置处的待压缩字符形成的待压缩字符串与所述目标位置之前的预设数量待压缩字符中的字符串进行匹配直到匹配失败;确定所述目标位置与匹配失败位置的前一位置之间的长度为所述目标位置处的所述待压缩字符的最长匹配长度。
一种可能的实施方式中,该数据压缩装置还包括计算模块,用于将所述待压缩数据按照预设字节数分为多个字节组;计算每个所述字节组的哈希值,并将所述哈希值存储在哈希桶中。
一种可能的实施方式中,第一确定模块401,具体用于:基于所述哈希桶将目标位置处的待压缩字符与所述目标位置之前的所有待压缩字符进行匹配。
基于同一申请构思,本申请实施例中还提供了与数据解压方法对应的数据解压装置,由于本申请实施例中的装置解决问题的原理与前述的数据解压方法实施例相似,因此本实施例中的装置的实施可以参见上述方法的实施例中的描述,重复之处不再赘述。
请参阅图9,是本申请实施例提供的数据解压装置的功能模块示意图。本实施例中的数据解压装置中的各个模块用于执行上述方法实施例中的各个步骤。数据解压装置包括获取模块501、解压模块502;其中,
获取模块501用于获取每个区域的压缩数据,所述压缩数据通过上述数据压缩方法压缩获得。
解压模块502用于针对每个区域的所述压缩数据,根据该区域的所述压缩数据中的模式标识确定该区域采用的所述目标压缩模式,并根据所述目标压缩模式对该区域的所述压缩数据进行解压,得到解压结果中对应该区域的解压数据。
一种可能的实施方式中,解压模块502,具体用于:解码所述不匹配模式中的字符不匹配长度字段,获得字符不匹配长度;其中,所述不匹配长度为从任一所述待压缩字符开始的、与所述待压缩数据中位于该待压缩字符之前的字符串中所有字符均匹配失败的字符串的长度;将所述字符不匹配长度对应字符串的原始字符拷贝至解压结果中的当前解压位置。
一种可能的实施方式中,解压模块502,具体用于:解码所述匹配模式中的字符偏移量字段以及匹配长度字段,获得字符偏移量;其中,所述字符偏移量为:在所述待压缩数据中位于第一目标区域之前的部分中,与第一目标区域中的整个待压缩字符串匹配成功的字符串中的第一个待压缩字符,间隔所述第一目标区域待压缩字符串中的第一个待压缩字符的字符数量,所述第一目标区域为所述待压缩数据中采用所述匹配模式的任意区域;根据解析后的所述字符偏移量确定解压结果中的当前解压位置之前的解压数据中的复制起始位置;从所述复制起始位置开始复制相应匹配长度的字符至所述解压结果中的当前解压位置。
一种可能的实施方式中,解压模块502,具体用于:解码混合模式中的字符偏移量字段以及所述匹配长度字段,获得字符偏移量;其中,所述字符偏移量为:在所述待压缩数据中位于第三目标区域之前的部分中,与第三目标区域中的整个待压缩字符串匹配成功的字符串中的第一个待压缩字符,间隔所述第三目标区域待压缩字符串中的第一个待压缩字符的字符数量,所述第三目标区域为所述待压缩数据中采用所述混合模式的任意区域;根据解析后的所述字符偏移量确定解压结果中的当前解压位置之前的解压数据中的复制起始位置;从所述复制起始位置开始复制相应匹配长度的字符至所述解压结果中的当前解压位置;解码所述混合模式中的字符不匹配长度字段,获得字符不匹配长度;其中,所述不匹配长度为从任一所述待压缩字符开始的、与所述待压缩数据中位于该待压缩字符之前的字符串中所有字符均匹配失败的字符串的长度;将所述字符不匹配长度对应字符串的原始字符拷贝至所述解压结果中的当前解压位置。
此外,本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述方法实施例中所述的数据解压和/或数据压缩方法的步骤。
本申请实施例所提供的数据解压和/或数据压缩方法的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行上述方法实施例中所述的数据解压和/或数据压缩方法的步骤,具体可参见上述方法实施例,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (16)
1.一种数据压缩方法,其特征在于,包括:
确定待压缩数据中每个待压缩字符的最长匹配长度,所述最长匹配长度为从每一所述待压缩字符开始的字符串与所述待压缩数据中位于该待压缩字符之前的字符串匹配成功的最长字符串的长度;其中,所述待压缩字符开始的字符串与所述待压缩数据中位于该待压缩字符之前的字符串不匹配时,该压缩字符的最长匹配长度为零;
根据所述待压缩字符的最长匹配长度、预设压缩模式以及动态规划算法确定所述待压缩数据中每个区域的所述待压缩字符的目标压缩模式,所述区域包括一个或多个所述待压缩字符,所述目标压缩模式为所述预设压缩模式中的一种模式;
通过所述目标压缩模式对相应区域的所述待压缩字符进行压缩。
2.根据权利要求1所述的方法,其特征在于,所述根据所述待压缩字符的最长匹配长度、预设压缩模式以及动态规划算法确定所述待压缩数据中每个区域的所述待压缩字符的目标压缩模式,包括:
根据所述待压缩数据中的每个所述待压缩字符的最长匹配长度将所述待压缩数据划分为多个区域;
根据所述待压缩字符的最长匹配长度、所述预设压缩模式和所述动态规划算法确定所述待压缩数据中每个所述区域的所述待压缩字符的目标压缩模式。
3.根据权利要求1所述的方法,其特征在于,所述根据所述待压缩字符的最长匹配长度、预设压缩模式以及动态规划算法确定所述待压缩数据中每个区域的所述待压缩字符的目标压缩模式,包括:
根据所述待压缩数据中的每个所述待压缩字符的最长匹配长度将所述待压缩数据划分为多个初始区域;
判断所述多个初始区域中的相邻区域中的所述待压缩字符的最长匹配长度对应的最长字符串是否部分重叠;
若相邻初始区域中的所述待压缩字符的最长匹配长度对应的最长字符串部分重叠,则根据所述动态规划算法和所述预设压缩模式重新对所述相邻初始区域的进行区域划分;
确定重新划分后的初始区域和未重新划分的初始区域为多个区域;
根据每个区域的所述待压缩字符的最长匹配长度、所述预设压缩模式和所述动态规划算法确定所述待压缩数据中每个所述区域的所述待压缩字符的目标压缩模式。
4.根据权利要求1所述的方法,其特征在于,所述确定待压缩数据中每个待压缩字符的最长匹配长度,包括:
历遍所述待压缩字符,将目标位置处的待压缩字符与所述目标位置之前的预设数量待压缩字符进行匹配;
若匹配成功,则将所述目标位置处的待压缩字符和所述目标位置的后一个位置处的待压缩字符组成的待压缩字符串与所述目标位置之前的预设数量待压缩字符中的字符串进行匹配;
若匹配成功,则继续增加一个位置处的待压缩字符形成的待压缩字符串与所述目标位置之前的预设数量待压缩字符中的字符串进行匹配直到匹配失败;
确定所述目标位置与匹配失败位置的前一位置之间的长度为所述目标位置处的所述待压缩字符的最长匹配长度。
5.根据权利要求4所述的方法,其特征在于,所述历遍所述待压缩字符之前,所述方法还包括:
将所述待压缩数据按照预设字节数分为多个字节组;
计算每个所述字节组的哈希值,并将所述哈希值存储在哈希桶中;
所述将目标位置处的待压缩字符与所述目标位置之前的所有待压缩字符进行匹配,包括:
基于所述哈希桶将目标位置处的待压缩字符与所述目标位置之前的所有待压缩字符进行匹配。
6.根据权利要求1-5任意一项所述的方法,其特征在于,所述预设压缩模式包括:匹配模式和不匹配模式;
所述匹配模式包括以下字段:模式标识字段、字符偏移量字段以及匹配长度字段;
其中,所述匹配模式的模式标识字段用于记录所述匹配模式的模式标识;
所述字符偏移量字段用于记录:在所述待压缩数据中位于第一目标区域之前的部分中,与第一目标区域中的整个待压缩字符串匹配成功的字符串中的第一个待压缩字符,间隔所述第一目标区域待压缩字符串中的第一个待压缩字符的字符数量,所述第一目标区域为所述待压缩数据中采用所述匹配模式的任意区域;
所述匹配长度字段用于记录所述第一目标区域的首个所述待压缩字符的匹配长度;
所述不匹配模式包括以下字段:模式标识字段、不匹配长度字段和原始字符字段;
其中,所述不匹配模式的模式标识字段用于记录所述不匹配模式的模式标识;
所述不匹配长度为从任一所述待压缩字符开始的、与所述待压缩数据中位于该待压缩字符之前的字符串中所有字符均匹配失败的字符串的长度,所述字符不匹配长度字段用于记录第二目标区域的首个所述待压缩字符的不匹配长度,所述第二目标区域为所述待压缩数据中采用所述不匹配模式的任意区域;
所述原始字符字段用于记录所述第二目标区域中的待压缩字符的原始字符。
7.根据权利要求6所述的方法,其特征在于,所述预设压缩模式还包括:混合模式;
所述混合模式包括以下字段:模式标识字段、所述字符偏移量字段、所述匹配长度字段、所述不匹配长度字段和所述原始字符字段;
其中,所述混合模式的模式标识字段用于所述记录所述匹配模式的模式标识。
8.一种数据解压方法,其特征在于,包括:
获取每个区域的压缩数据,所述压缩数据通过权利要求1-7任一所述的方法压缩获得;
针对每个区域的所述压缩数据,根据该区域的所述压缩数据中的模式标识确定该区域采用的所述目标压缩模式,并根据所述目标压缩模式对该区域的所述压缩数据进行解压,得到解压结果中对应该区域的解压数据。
9.根据权利要求8所述的方法,其特征在于,若目标压缩模式为不匹配模式,所述根据所述目标压缩模式对该区域的所述压缩数据进行解压,包括:
解码所述不匹配模式中的字符不匹配长度字段,获得字符不匹配长度;其中,所述不匹配长度为从任一所述待压缩字符开始的、与所述待压缩数据中位于该待压缩字符之前的字符串中所有字符均匹配失败的字符串的长度;
将所述字符不匹配长度对应字符串的原始字符拷贝至解压结果中的当前解压位置。
10.根据权利要求8所述的方法,其特征在于,若目标压缩模式为匹配模式,所述根据所述目标压缩模式对该区域的所述压缩数据进行解压,包括:
解码所述匹配模式中的字符偏移量字段以及匹配长度字段,获得字符偏移量;其中,所述字符偏移量为:在所述待压缩数据中位于第一目标区域之前的部分中,与第一目标区域中的整个待压缩字符串匹配成功的字符串中的第一个待压缩字符,间隔所述第一目标区域待压缩字符串中的第一个待压缩字符的字符数量,所述第一目标区域为所述待压缩数据中采用所述匹配模式的任意区域;
根据解析后的所述字符偏移量确定解压结果中的当前解压位置之前的解压数据中的复制起始位置;
从所述复制起始位置开始复制相应匹配长度的字符至所述解压结果中的当前解压位置。
11.根据权利要求8所述的方法,其特征在于,若目标压缩模式为混合模式,所述根据所述目标压缩模式对该区域的所述压缩数据进行解压,包括:
解码混合模式中的字符偏移量字段以及匹配长度字段,获得字符偏移量;其中,所述字符偏移量为:在所述待压缩数据中位于第三目标区域之前的部分中,与第三目标区域中的整个待压缩字符串匹配成功的字符串中的第一个待压缩字符,间隔所述第三目标区域待压缩字符串中的第一个待压缩字符的字符数量,所述第三目标区域为所述待压缩数据中采用所述混合模式的任意区域;
根据解析后的所述字符偏移量确定解压结果中的当前解压位置之前的解压数据中的复制起始位置;
从所述复制起始位置开始复制相应匹配长度的字符至所述解压结果中的当前解压位置;
解码所述混合模式中的字符不匹配长度字段,获得字符不匹配长度;其中,所述不匹配长度为从任一所述待压缩字符开始的、与所述待压缩数据中位于该待压缩字符之前的字符串中所有字符均匹配失败的字符串的长度;
将所述字符不匹配长度对应字符串的原始字符拷贝至所述解压结果中的当前解压位置。
12.一种数据压缩装置,其特征在于,包括:
第一确定模块,用于确定待压缩数据中每个待压缩字符的最长匹配长度,所述最长匹配长度为从每一所述待压缩字符开始的字符串与所述待压缩数据中位于该待压缩字符之前的字符串匹配成功的最长字符串的长度;其中,所述待压缩字符开始的字符串与所述待压缩数据中位于该待压缩字符之前的字符串不匹配时,该压缩字符的最长匹配长度为零;
第二确定模块,用于根据所述待压缩字符的最长匹配长度、预设压缩模式以及动态规划算法确定所述待压缩数据中每个区域的所述待压缩字符的目标压缩模式,所述区域包括一个或多个所述待压缩字符,所述目标压缩模式为所述预设压缩模式中的一种模式;
压缩模块,用于通过所述目标压缩模式对相应区域的所述待压缩字符进行压缩。
13.一种数据解压装置,其特征在于,包括:
获取模块,用于获取每个区域的压缩数据,所述压缩数据通过权利要求1-7任一所述的方法压缩获得;
解压模块,用于针对每个区域的所述压缩数据,根据该区域的所述压缩数据中的模式标识确定该区域采用的所述目标压缩模式,并根据所述目标压缩模式对该区域的所述压缩数据进行解压,得到解压结果中对应该区域的解压数据。
14.一种电子设备,其特征在于,包括:处理器、存储器,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述机器可读指令被所述处理器执行时执行如权利要求1至7任一所述的方法的步骤。
15.一种芯片,其特征在于,包括:处理单元、缓存单元,所述缓存单元存储有所述处理单元可执行的机器可读指令,当芯片运行时,所述机器可读指令被所述处理单元执行时执行如权利要求8至11任一所述的方法的步骤。
16.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至11任一所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310477769.1A CN116192154B (zh) | 2023-04-28 | 2023-04-28 | 数据压缩及数据解压方法、装置、电子设备、芯片 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310477769.1A CN116192154B (zh) | 2023-04-28 | 2023-04-28 | 数据压缩及数据解压方法、装置、电子设备、芯片 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116192154A true CN116192154A (zh) | 2023-05-30 |
CN116192154B CN116192154B (zh) | 2023-06-27 |
Family
ID=86442625
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310477769.1A Active CN116192154B (zh) | 2023-04-28 | 2023-04-28 | 数据压缩及数据解压方法、装置、电子设备、芯片 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116192154B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116634029A (zh) * | 2023-07-21 | 2023-08-22 | 众科云(北京)科技有限公司 | 基于区块链的用工平台数据快速传输方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB9624357D0 (en) * | 1994-09-30 | 1997-01-08 | Ricoh Kk | Apparatus for decoding data |
CN1388443A (zh) * | 2001-05-28 | 2003-01-01 | 佳能株式会社 | 用于数据压缩的方法、装置、计算机程序和存储介质 |
CN101809997A (zh) * | 2007-07-02 | 2010-08-18 | Lg电子株式会社 | 广播接收机和广播信号处理方法 |
CN103023511A (zh) * | 2012-12-05 | 2013-04-03 | 云之朗科技有限公司 | 一种应用的压缩编码方法及装置 |
CN103236847A (zh) * | 2013-05-06 | 2013-08-07 | 西安电子科技大学 | 基于多层哈希结构与游程编码的数据无损压缩方法 |
CN104734722A (zh) * | 2013-12-23 | 2015-06-24 | 深圳市国微电子有限公司 | 数据压缩方法及数据解压缩装置 |
-
2023
- 2023-04-28 CN CN202310477769.1A patent/CN116192154B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB9624357D0 (en) * | 1994-09-30 | 1997-01-08 | Ricoh Kk | Apparatus for decoding data |
CN1388443A (zh) * | 2001-05-28 | 2003-01-01 | 佳能株式会社 | 用于数据压缩的方法、装置、计算机程序和存储介质 |
CN101809997A (zh) * | 2007-07-02 | 2010-08-18 | Lg电子株式会社 | 广播接收机和广播信号处理方法 |
CN103023511A (zh) * | 2012-12-05 | 2013-04-03 | 云之朗科技有限公司 | 一种应用的压缩编码方法及装置 |
CN103236847A (zh) * | 2013-05-06 | 2013-08-07 | 西安电子科技大学 | 基于多层哈希结构与游程编码的数据无损压缩方法 |
CN104734722A (zh) * | 2013-12-23 | 2015-06-24 | 深圳市国微电子有限公司 | 数据压缩方法及数据解压缩装置 |
Non-Patent Citations (1)
Title |
---|
马巧梅等人: "基于LZ77算法的文本压缩软件的实现", 《电脑开发与应用》, vol. 21, no. 5, pages 41 - 42 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116634029A (zh) * | 2023-07-21 | 2023-08-22 | 众科云(北京)科技有限公司 | 基于区块链的用工平台数据快速传输方法 |
CN116634029B (zh) * | 2023-07-21 | 2023-09-29 | 众科云(北京)科技有限公司 | 基于区块链的用工平台数据快速传输方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116192154B (zh) | 2023-06-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20180196609A1 (en) | Data Deduplication Using Multi-Chunk Predictive Encoding | |
US20240022648A1 (en) | Systems and methods for data deduplication by generating similarity metrics using sketch computation | |
CN107046812B (zh) | 一种数据保存方法和装置 | |
CN107682016B (zh) | 一种数据压缩方法、数据解压方法及相关*** | |
RU2629440C2 (ru) | Устройство и способ для ускорения операций сжатия и распаковки | |
US8189912B2 (en) | Efficient histogram storage | |
CN116192154B (zh) | 数据压缩及数据解压方法、装置、电子设备、芯片 | |
CN106788468B (zh) | 一种纠删码更新方法及装置,电子设备 | |
EP3051700A1 (en) | Hardware efficient fingerprinting | |
US11899624B2 (en) | System and method for random-access manipulation of compacted data files | |
US11550756B2 (en) | System and method for error-resilient data reduction | |
US11995050B2 (en) | Systems and methods for sketch computation | |
CN116594572B (zh) | 浮点数流式数据压缩方法、装置、计算机设备及介质 | |
CN114764557A (zh) | 一种数据处理方法、装置、电子设备及存储介质 | |
CN111274245B (zh) | 一种用于优化数据存储的方法和装置 | |
US20210191640A1 (en) | Systems and methods for data segment processing | |
US10496703B2 (en) | Techniques for random operations on compressed data | |
US9455742B2 (en) | Compression ratio for a compression engine | |
CN109947776B (zh) | 一种数据压缩、解压方法及装置 | |
US20130226941A1 (en) | System and method for classifying signals using the bloom filter | |
CN113497627A (zh) | 一种数据压缩和解压缩方法、装置及*** | |
US20220199202A1 (en) | Method and apparatus for compressing fastq data through character frequency-based sequence reordering | |
Lu et al. | G-Match: a fast GPU-friendly data compression algorithm | |
EP3051699B1 (en) | Hardware efficient rabin fingerprints | |
US11748307B2 (en) | Selective data compression based on data similarity |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |