CN111130558A - 一种基于统计概率的编码表压缩方法 - Google Patents

一种基于统计概率的编码表压缩方法 Download PDF

Info

Publication number
CN111130558A
CN111130558A CN201911408980.8A CN201911408980A CN111130558A CN 111130558 A CN111130558 A CN 111130558A CN 201911408980 A CN201911408980 A CN 201911408980A CN 111130558 A CN111130558 A CN 111130558A
Authority
CN
China
Prior art keywords
information
file
condition
codes
coding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911408980.8A
Other languages
English (en)
Inventor
杨兴荣
胡勇
杨兴海
廖毅
朱恒
刘洋
邓孔祥
王芳
王龙
漆国强
刘冬洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shijihengtong Technology Co ltd
Original Assignee
Shijihengtong Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shijihengtong Technology Co ltd filed Critical Shijihengtong Technology Co ltd
Priority to CN201911408980.8A priority Critical patent/CN111130558A/zh
Publication of CN111130558A publication Critical patent/CN111130558A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/40Conversion to or from variable length codes, e.g. Shannon-Fano code, Huffman code, Morse code
    • H03M7/42Conversion to or from variable length codes, e.g. Shannon-Fano code, Huffman code, Morse code using table look-up for the coding or decoding process, e.g. using read-only memory
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/70Type of the data to be coded, other than image and sound
    • H03M7/707Structured documents, e.g. XML

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开了一种基于统计概率的编码表压缩方法,该方法通过计算文件中不同信息的概率情况,将计算出的结果作为对比条件,筛选出满足条件的信息作为自定义编码,灵活的拆分出重复的信息,将文件压缩,在保留信息不丢失的情况下,能大幅降低编码数据存储所需要的开销;基于改变对应信息的编码,将原有的一些高位编码,转化为位数较小的低位字节编码,从而达到压缩文件大小的目的。与现有的一些压缩技术相比局有灵活型性、无损耗性,当其也有一些受限的地方,如对多媒体等数字文件压缩表现不明显。

Description

一种基于统计概率的编码表压缩方法
技术领域
本发明属于计算机领域的文件压缩领域,具体涉及一种基于统计概率的编码表压缩方法。
背景技术
伴随大数据时代的来临,数据的规模不断增加,存储数据的开销也日益扩大。如何有效的利用有限的存储资源,降低存储成本,成了当下一个重要的问题。
当下在信息***式的增长情况下,半结构化和非结构化的数据也不断增加,压缩技术作为有效降低存储开销,也越来越被更多企业重视。
发明内容
发明目的:本发明提供一种灵活编码,不受文本大小的限制;能大幅降低信息重复度较高的文件数据的基于统计概率的编码表压缩方法。
技术方案:一种基于统计概率的编码表压缩方法,首先统计原始文件每种信息的频数,并且统计单种信息频率,具体步骤为:
步骤1,基于文件整体的不同信息概率值计算;
步骤2,基于信息概率的比较,筛选出排名靠前的信息,同时不会因为概率的阈值较低而导致误入编码表;
步骤3,存储临编码表是半结构化数据表;
信息频数总÷信息总量,之后计算满足置信区间95%的信息,计算执行度的公式如下:
Figure BDA0002349464920000011
其中:
Figure BDA0002349464920000012
为信息的均值,α为95%的置信度,S为信息的标准差;
将置信度满足条件的作为构建编码表条件,统计满足条件的信息数量从0开始增加,并用移位操作补全编码位数,保证编码的连续性,在保证信息不丢失的情况下减少编码的位数;再用压缩程序将文件里对应的编码替换为编码表里低位的编码,再将编码表和压缩后的文件组合成一个新的文件,由于动态的生成编码,使得编码表具有高扩展型,同时又不会受到数据的离散的影响。
具体地,所述解压压缩文件的规则为,将压缩文件分解为数据文件和编码表文件,通过逆向转换将已改变的编码还原为原始编码,由于编码满足置信阈为95%的条件,因此在解压的过程中不会出现因编码表过大而导致的额外的计算开销。
有益效果:与现有技术相比,本发明的优点在于:能有效减少数据存储的统计概率的编码表压缩方法能比较好的处理半结构化和非结构的数据,灵活编码,不受文本大小的限制;能大幅降低信息重复度较高的文件数据;基于改变对应信息的编码,将原有的一些高位编码,转化为位数较小的低位字节编码,从而达到压缩文件大小的目的。与现有的一些压缩技术相比局有灵活型性、无损耗性,当其也有一些受限的地方,如对多媒体等数字文件压缩表现不明显。
附图说明
图1是本发明的***结构图。
具体实施方式
下面结合附图和具体实施方式,进一步阐明本发明。
如图1所示,一种基于统计概率的编码表压缩方法,能灵活处理重复信息的文本压缩技术,由于许多文件都会存在信息重复的情况,而这些文件重复信息概率常常又趋近于正态分布,因此如果将重复的信息定义一些规则,便可将这些重复数据利用起来,达到减少重复编码带来的存储消耗;
该方法通过计算文件中不同信息的概率情况,将计算出的结果作为对比条件,筛选出满足条件的信息作为自定义编码,灵活的拆分出重复的信息,将文件压缩,在保留信息不丢失的情况下,能大幅降低编码数据存储所需要的开销。基于统计概率的编码表压缩方法包括以下几个特点:
1、基于文件整体的不同信息概率值计算。
2、基于信息概率的比较,筛选出排名靠前的信息,同时不会因为概率的阈值较低而导致误入编码表。
存储临编码表是半结构化数据表;
统计原始文件每种信息的频数,并且统计单种信息频率,使用的方法为:信息频数总÷信息总量,之后计算满足置信区间95%的信息,计算执行度的公式如下:
Figure BDA0002349464920000031
其中:
Figure BDA0002349464920000032
为信息的均值,α为95%的置信度,S为信息的标准差。
将置信度满足条件的作为构建编码表条件,统计满足条件的信息数量从0开始增加,并用移位操作补全编码位数,保证编码的连续性,这样在保证信息不丢失的情况下减少编码的位数。之后用压缩程序将文件里对应的编码替换为编码表里低位的编码,再将编码表和压缩后的文件组合成一个新的文件,这里由于动态的生成编码,使得编码表具有高扩展型,同时又不会受到数据的离散的影响。
解压压缩文件的规则为,将压缩文件分解为数据文件和编码表文件,通过逆向转换将已改变的编码还原为原始编码,由于编码满足置信阈为95%的条件,因此在解压的过程中不会出现因编码表过大而导致的额外的计算开销。

Claims (2)

1.一种基于统计概率的编码表压缩方法,其特征在于:首先统计原始文件每种信息的频数,并且统计单种信息频率,具体步骤为:
步骤1,基于文件整体的不同信息概率值计算;
步骤2,基于信息概率的比较,筛选出排名靠前的信息,同时不会因为概率的阈值较低而导致误入编码表;
步骤3,存储临编码表是半结构化数据表;
信息频数总÷信息总量,之后计算满足置信区间95%的信息,计算执行度的公式如下:
Figure FDA0002349464910000011
其中:
Figure FDA0002349464910000012
为信息的均值,α为95%的置信度,S为信息的标准差;
将置信度满足条件的作为构建编码表条件,统计满足条件的信息数量从0开始增加,并用移位操作补全编码位数,保证编码的连续性,在保证信息不丢失的情况下减少编码的位数;再用压缩程序将文件里对应的编码替换为编码表里低位的编码,再将编码表和压缩后的文件组合成一个新的文件,由于动态的生成编码,使得编码表具有高扩展型,同时又不会受到数据的离散的影响。
2.根据权利要求1所述的一种基于统计概率的编码表压缩方法,其特征在于:所述解压压缩文件的规则为,将压缩文件分解为数据文件和编码表文件,通过逆向转换将已改变的编码还原为原始编码,由于编码满足置信阈为95%的条件,因此在解压的过程中不会出现因编码表过大而导致的额外的计算开销。
CN201911408980.8A 2019-12-31 2019-12-31 一种基于统计概率的编码表压缩方法 Pending CN111130558A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911408980.8A CN111130558A (zh) 2019-12-31 2019-12-31 一种基于统计概率的编码表压缩方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911408980.8A CN111130558A (zh) 2019-12-31 2019-12-31 一种基于统计概率的编码表压缩方法

Publications (1)

Publication Number Publication Date
CN111130558A true CN111130558A (zh) 2020-05-08

Family

ID=70506288

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911408980.8A Pending CN111130558A (zh) 2019-12-31 2019-12-31 一种基于统计概率的编码表压缩方法

Country Status (1)

Country Link
CN (1) CN111130558A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113987556A (zh) * 2021-12-24 2022-01-28 杭州趣链科技有限公司 数据处理方法和装置、电子设备、存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5884269A (en) * 1995-04-17 1999-03-16 Merging Technologies Lossless compression/decompression of digital audio data
CN101282121A (zh) * 2007-04-05 2008-10-08 安凯(广州)软件技术有限公司 一种基于条件概率的哈夫曼解码的方法
CN101465724A (zh) * 2009-01-06 2009-06-24 中国科学院软件研究所 一种加密的Huffman编码方法,及其解码方法
CN102150369A (zh) * 2008-09-12 2011-08-10 汤姆森特许公司 无损压缩前缀后缀码的方法、解压缩在压缩的前缀后缀码中编码的表示整数或码元的比特序列的方法、和载有压缩的前缀后缀码的存储介质或信号
CN105379283A (zh) * 2013-07-09 2016-03-02 索尼公司 数据编码和解码
CN110175047A (zh) * 2019-04-22 2019-08-27 中国科学院信息工程研究所 处理器指令编码的自动生成方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5884269A (en) * 1995-04-17 1999-03-16 Merging Technologies Lossless compression/decompression of digital audio data
CN101282121A (zh) * 2007-04-05 2008-10-08 安凯(广州)软件技术有限公司 一种基于条件概率的哈夫曼解码的方法
CN102150369A (zh) * 2008-09-12 2011-08-10 汤姆森特许公司 无损压缩前缀后缀码的方法、解压缩在压缩的前缀后缀码中编码的表示整数或码元的比特序列的方法、和载有压缩的前缀后缀码的存储介质或信号
CN101465724A (zh) * 2009-01-06 2009-06-24 中国科学院软件研究所 一种加密的Huffman编码方法,及其解码方法
CN105379283A (zh) * 2013-07-09 2016-03-02 索尼公司 数据编码和解码
CN110175047A (zh) * 2019-04-22 2019-08-27 中国科学院信息工程研究所 处理器指令编码的自动生成方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
祖渊: ""基于图形处理器的高速并行算法研究"" *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113987556A (zh) * 2021-12-24 2022-01-28 杭州趣链科技有限公司 数据处理方法和装置、电子设备、存储介质
CN113987556B (zh) * 2021-12-24 2022-05-10 杭州趣链科技有限公司 数据处理方法和装置、电子设备、存储介质

Similar Documents

Publication Publication Date Title
CN101501999B (zh) 数据编码
CN110518917B (zh) 基于Huffman编码的LZW数据压缩方法及***
US20110181448A1 (en) Lossless compression
CN112953550B (zh) 数据压缩的方法、电子设备及存储介质
CN101630323B (zh) 确定自动机的空间压缩方法
CN112003625A (zh) 一种霍夫曼编码方法、***及设备
US12010352B2 (en) Coding method and related device
CN116506073A (zh) 一种工业计算机平台数据快速传输方法及***
CN113300715B (zh) 一种数据处理方法、装置、硬件压缩设备以及介质
CN104125475A (zh) 一种多维量子数据压缩、解压缩方法及装置
CN112152634B (zh) 分块压缩编码方法、装置、计算机设备及可读存储介质
CN114222129A (zh) 图像压缩编码方法、装置、计算机设备和存储介质
CN111130558A (zh) 一种基于统计概率的编码表压缩方法
US20100321218A1 (en) Lossless content encoding
CN113612483A (zh) 一种工业实时数据无损编码压缩方法
CN116033034B (zh) 一种无线收发平台用数据处理***
CN101657973A (zh) 具有采用位精度进行编码和解码的程序的记录介质及其装置
CN111371461B (zh) 一种适用于智能电表的原码与反码混合式数据压缩方法
CN115913248A (zh) 一种直播软件开发数据智能管理***
KR100359118B1 (ko) 균일 엔트로피 데이터에 대한 비손실 압축방법
CN113824449A (zh) 一种静态霍夫曼并行编码方法、***、存储介质及设备
CN111371459B (zh) 一种适用于智能电表的多操作高频替换式数据压缩方法
CN113643389B (zh) 一种基于分割的图像无损压缩方法
CN116979972B (zh) 一种针对模数转换器采集数据的压缩及解压缩方法
US20240080478A1 (en) Point cloud encoding and decoding method and apparatus, computer, and storage medium

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination