CN1536768A - 2字节字符数据的压缩方法 - Google Patents

2字节字符数据的压缩方法 Download PDF

Info

Publication number
CN1536768A
CN1536768A CNA2003101242211A CN200310124221A CN1536768A CN 1536768 A CN1536768 A CN 1536768A CN A2003101242211 A CNA2003101242211 A CN A2003101242211A CN 200310124221 A CN200310124221 A CN 200310124221A CN 1536768 A CN1536768 A CN 1536768A
Authority
CN
China
Prior art keywords
byte
character
data
code word
code
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2003101242211A
Other languages
English (en)
Other versions
CN100474781C (zh
Inventor
赵s衍
赵畇衍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Pan Thai Co ltd
Original Assignee
Pantech Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Pantech Co Ltd filed Critical Pantech Co Ltd
Publication of CN1536768A publication Critical patent/CN1536768A/zh
Application granted granted Critical
Publication of CN100474781C publication Critical patent/CN100474781C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/38Transceivers, i.e. devices in which transmitter and receiver form a structural unit and in which at least one part is used for functions of transmitting and receiving
    • H04B1/40Circuits

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明提供了一种在终端机的信息处理模块中,以2字节字符(朝鲜字符、汉语)为单位对信息进行压缩后再存储,从而可以减少存储空间的2字节字符数据的压缩方法。本发明的2字节字符数据的压缩方法的特征在于包括:根据频率数生成多个可压缩代码字,存储在基本词典表中,将登记的表示下一个代码字的变量初始化的步骤;识别输入的信息数据是否是2字节字符,并接收的输入步骤;比较输入的数据是否包含在该可压缩代码字中,当包含在该可压缩的代码字中时,从该词典表中经过映射过程搜索符合代码并输出,当词典中没有该符合代码时,将其登记在词典中的步骤;判断是否是数据的尾数,当数据没有输入完时,返回依次输入信息数据的输入步骤;以及当是数据的尾数时,进行清除过程的步骤,当编码该可压缩代码字得到的符合代码的位数比该可压缩代码字可以降低位的临界值小时,以log2(C1+1)-1位输出,当符合代码字比临界值大时,以log2(C1+1)位输出,该C1是当前被赋值的代码字数。

Description

2字节字符数据的压缩方法
技术领域
本发明涉及一种2字节字符数据的压缩方法,更具体地说,涉及一种为了减少移动通信终端机中的SMS(Short Message Service)和EMS(Enhanced Messaging Service)的信息存储空间,利用2字节字符压缩算法的2字节字符数据的压缩方法。
背景技术
一般情况下,客户利用移动通信终端机的信息发送接收功能(SMS、EMS),进行各式各样的信息交换。大部分的移动通信终端机几乎不对这种信息进行压缩,进行部分压缩的终端机也只是利用适合英文字母的压缩算法。
不过,当采用这种压缩算法时,象朝鲜字符和汉语这样的语言,因为大多具有冗长性的特点,所以相对地压缩效率低,并且需要更多的内存,存在不能有效地降低存储空间的问题。
[专利文献1]  日本特開平2-255977(日本专利第1990-255977号公告)
[专利文献2]  日本特開平9-069785(日本专利第1997-069785号公告)
发明内容
本发明克服了上述不足,其目的在于提供一种在终端机的信息处理模块中,以2字节字符(朝鲜字符、汉语)为单位对信息进行压缩并存储,从而可以减少存储空间的2字节字符数据的压缩方法。
为了实现上述目的,本发明的2字节字符数据的压缩方法的特征在于包括:根据频率数生成多个可压缩代码字,并存储在基本词典表中,将登记的表示下一个代码字的变量初始化的步骤;识别输入的信息数据是否是2字节字符,并接收的输入步骤;比较输入的数据是否包含在该可压缩代码字中,当包含在该可压缩的代码字中时,从该词典表中经过映射过程搜索符合代码并输出,当词典中没有该符合代码时,将其登记在词典中的步骤;判断是否是数据的尾数,当数据没有输入完时,返回依次输入信息数据的输入步骤;以及当是数据的尾数时,进行清除过程的步骤,当将该可压缩代码字编码得到的符合代码的位数比该可压缩代码字可以降低位的临界值小时,以log2(C1+1)-1位输出,当符合代码字比临界值大时,以log2(C1+1)位输出,该C1是当前被赋值的代码字的数。
本发明的的有益效果是,在终端机的信息处理模块中,通过压缩2字节字符(朝鲜字符、汉语等)的信息并进行存储,可以减少存储空间。也就是说,利用本发明的方法压缩英语和朝鲜字符混合的文本文件时,与现有的压缩方法相比,平均压缩率具有大约22%左右的改善效果。
附图说明
图1是本发明一个实施例中的2字节字符数据的压缩方法的操作流程图。
图2是对在本发明的一个实施例的2字节字符数据的压缩方法中,从该词典表中经过映射过程搜索符合代码并输出的步骤(压缩步骤)进行详细说明的操作流程图。
图3是对在本发明的一个实施例的2字节字符数据的压缩方法中管理该符合代码词典的词典生成/管理步骤进行详细说明的操作流程图。
具体实施方式
为了方便说明,本发明的2字节字符数据的压缩方法以韩国语为例进行说明。但同样适用于诸如汉语、日语等的以2字节标记的语言。因此,在本实施例中,仅对韩国语的压缩情况进行说明,但本发明并不仅限于韩国语,这对本领域的技术人员来说是显而易见的。
以下对照附图对本发明的实施例进行说明。
图1是本发明的一个实施例中的2字节字符数据的压缩方法的操作流程图,以下将对与此相关的情况进行说明。
首先,初始化最大字符串数(N7)、代码字数(N2)、初始词典条目号码(N5)等,将频率数高的字符收藏在基本词典表中,并将登记的表示下一个代码字的变量C1初始化(S101),用于字符压缩的代码字的构成如下表所述。这里,为了找到字符压缩所需要的代码字,从朝鲜字符和英语混合文件中找出完成型朝鲜字符2350个字的出现频率后,将其排列并观察,将其中2%经常使用的470个字作为代码字登记。这种情况下,该2%的470个字符整体出现频率达到85%以上。因此,该变量C1的初始化值能够为471。
表1:
    0~255     ASCII(美国信息交换标准码)
    256~725     朝鲜字符代码(470个字)
    726~1023     10位编码
    1024~2047     11位编码
    2048~4095     12位编码
接着,对照被初始化的变量,将追加的可压缩的代码字存储在包含该基本词典表在内的附加词典表中,重新初始化登记的表示下一个代码字的变量C1(S102)。在此,编码可压缩代码字的符合代码的位数取决于下面的公式。
公式1:(C1+lim)≤2log(C1+1)-1
公式2:lim=C3-C1-1
公式3:C3=2log(C1+1)
在此,该C1是指当前被赋值的代码字数,lim是指代码字能降低位的临界值。因此,将代码字转换为位列的时候,如果代码字比所确定的临界值(lim)小,则以log2(C1+1)-1位输出,如果符合代码字比临界值大,则以log2(C1+1)位输出。
例如,该C1为750时,lim=(1024-750-1)=273,所以,压缩时代码字位于0至273之间,以9位编码输出,如果压缩时代码字位于274至749之间,各代码字再加上274,以10位编码输出
解除压缩时,以9位读出代码字位,如果该读出的值比274小,则将其值作为代码字代码读取,如果该读出的值比274大,则重新以10位读出,将减去274的值作为代码字代码读出。下列的表2以上述的方式表示本发明的词典表构造。
表2:
    可压缩代码字     被编码的代码     10进制
    0     000000000     0
    1     000000001     1
    2     000000010     2
    .       .     .
    .       .     .
    273     100010001     273
    274     1000100100     548(274+274)
    275     1000100101     549(274+275)
    .       .     .
    .       .     .
    749     1111111111     1023(274+749)
其后,依次输入信息数据。比较输入的数据是否包含在该可压缩的代码字中,当包含在该可压缩的代码字中时,从该词典表中经过映射过程,搜索符合代码并输出(S103)。然后,确认该符合代码是否存在于词典中,当词典中没有时,进行在词典中登记的词典生成步骤(S104)。
之后,判断是否是数据的尾数,当不是数据的尾数时,返回到依次输入信息数据的步骤(S105)。
如果是数据的尾数,则进行清除过程(Flush)(S106)。在此,所说的该清除过程是指在存储器存储方法中,以8位或16位存储数据,但为了被压缩了的数据具有可变长度的位数,当最后存储的数据不是8位或16位的时候,将最后剩下的位用0填满的过程。
图2是对在本发明的一个实施例中的2字节字符数据的压缩方法中,从该词典表中经过映射过程,搜索符合代码并输出的步骤(压缩步骤)进行详细说明的操作流程图,与此相关的说明如下所述。
首先读出输入数据的第一个字节(S201)。
其后判断该第一个字节是否在第1赋值范围内(S202)。这里,当是完成型朝鲜字符的时候,因为第一个字节赋有从16进制的B0到C8的25个数字,所以该第1赋值范围可以是从16进制的B0到C8。
如果该第一个字节位于第1赋值范围内,读出输入数据的第二个字节(S203)。
另一方面,如果该第一个字节不在第1赋值范围内,因为不是完成型的朝鲜字符,所以确定是美国信息交换标准码中的字符(S207)。
其后判断该第二个字节是否在第2赋值范围内(S204)。这里,当是完成型朝鲜字符的时候,因为第二个字节赋有从16进制的A1到FE的94个数字,所以该第2赋值范围可以是从16进制的A1到FE。
如果该第二个字节位于该第2赋值范围内,判断输入数据是否包含在该词典表中(S205)。
另一方面,如果该第二个字节不在第2赋值范围内,因为不是完成型的朝鲜字符,所以确定是美国信息交换标准码中的字符(S207)。
如果输入的数据包含在该词典表中,确定是符合代码值(S206)。
另一方面,如果输入的数据没有包含在该词典表中,因为不是出现频率高的朝鲜字符,所以确定是美国信息交换标准码中的字符(S207)。
图3是对在本发明的一个实施例的2字节字符数据的压缩方法中检查该符合代码是否存在于词典中,如果词典中没有就登记在词典中,并除去登记在词典中的不经常使用的代码的词典管理步骤进行详细说明的操作流程图,与此相关的说明如下所述。
首先判断该代码字的字符串(长度)是否超过最大字符串数(N7),如果该代码字的字符串超过最大字符串数(N7)则终止词典管理步骤(S301)。
如果该代码字的字符串没有超过最大字符串数(N7),则判断是否存在于该词典表中,当存在该词典表中时,则终止词典管理步骤(S302)。
如果词典表中不存在,向新变量C1赋值该字符串(S303)。
接着,新变量C1为了被接着生成的字符串的代码字赋值而增加其值(S304)。
接着,判断增加的变量C1是否大于代码字数(N2)(S305)。
如果增加的变量C1大于代码字数(N2),向增加的变量C1赋值词典条目号码(N5),如果增加的变量C1小于代码字数(N2)时,不向其赋值词典条目号码(N5)(S306)。
然后,判断赋值给增加的新变量C1的节点是否是作为表示字符串末尾字符的节点的叶(leaf)节点或是否是不被使用的节点(C1==NULL),当赋值给增加的新变量的节点不是表示词典条目中字符串末尾字符的节点的叶(leaf)节点或不是不被使用的节点时,返回到新变量C1为了被接着生成的字符串的代码字赋值而增加其值的步骤(S307)。
如果赋值给增加的变量C1的节点是表示字符串末尾字符的节点的叶(leaf)节点或是不被使用的节点时,则从词典条目中除去变量C1,准备赋值新的字符串的代码字(S308)。
本发明并不限于上述实施例所公开的范围。在本发明的技术主题内可以进行各种改进、变更,这些改进、变更也从属于本发明的技术范畴,受本发明保护。

Claims (9)

1.一种2字节字符数据的压缩方法,其特征在于包括:
根据频率数生成多个可压缩代码字,存储在基本词典表中,将登记的表示下一个代码字的变量初始化的步骤;
识别输入的信息数据是否是2字节字符,并接收的输入步骤;
比较输入的数据是否包含在所述可压缩代码字中,当包含在所述可压缩的代码字中时,从所述词典表中经过映射过程搜索符合代码并输出,当词典中没有所述符合代码时,将其登记在词典中的步骤;
判断是否是数据的尾数,当数据没有输入完时,返回依次输入信息数据的输入步骤;以及
当是数据的尾数时,进行清除过程的步骤,
当编码所述可压缩代码字得到的符合代码的位数比所述可压缩代码字可以降低位的临界值小时,以log2(C1+1)-1位输出,当符合代码字比临界值大时,以log2(C1+1)位输出,所述C1是当前被赋值的代码字数。
2.根据权利要求1所述的2字节字符数据的压缩方法,其特征在于还包括:
参照被初始化了的变量,将追加的可压缩代码字存储在包含所述基本词典表在内的附加词典表中,将登记的表示下一个代码字的变量重新初始化的步骤。
3.根据权利要求1所述的2字节字符数据的压缩方法,其特征在于:
为了找到所述可压缩代码字,从2字节字符和1字节字符的混合文件中找到完成型的所述2字节字符的出现频率后,将其排列并分析,将其中经常使用的字符作为代码字登记。
4.根据权利要求1所述的2字节字符数据的压缩方法,其特征在于:
从利用2字节以上的组合表现的字符开始测量频率数,仅将经常使用的字符作为基本代码字登记在词典中。
5.根据权利要求3所述的2字节字符数据的压缩方法,其特征在于:
所述2字节字符是汉语,所述1字节字符是英文字符。
6.根据权利要求3所述的2字节字符数据的压缩方法,其特征在于:
所述2字节字符是韩国语,所述1字节字符是英文字符。
7.根据权利要求1所述的2字节字符数据的压缩方法,其特征在于:
从所述词典表中经过映射过程搜索符合代码并输出的步骤包括:
读出输入数据第一个字节的步骤;
判断所述第一个字节是否位于第1赋值范围的步骤;
当所述第一个字节位于第1赋值范围时,读出输入数据的第二个字节的步骤;
当所述第一个字节没有位于所述第1赋值范围时,因为不是完成型的朝鲜字符,所以确定是美国信息交换标准码中的字符的步骤;
判断所述第二个字节是否位于第2赋值范围的步骤;
当所述第二个字节位于所述第2赋值范围时,判断输入的数据是否包含在所述词典表中的步骤;
当所述第二个字节没有位于所述第2赋值范围时,因为不是完成型的朝鲜字符,所以确定是美国信息交换标准码中的字符的步骤;
当输入数据包含在所述词典表中时,确定是符合代码值的步骤;以及
当输入数据没有包含在所述词典表中时,因为不是出现频率高的朝鲜字符,所以确定是美国信息交换标准码中的字符的步骤。
8.根据权利要求5所述的2字节字符数据的压缩方法,其特征在于:
所述第1赋值范围是从16进制的B0到C8。
9.根据权利要求5所述的2字节字符数据的压缩方法,其特征在于:
所述第2赋值范围是从16进制的A1到FE。
CNB2003101242211A 2003-04-08 2003-12-31 2字节字符数据的压缩方法 Expired - Fee Related CN100474781C (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR1020030021924 2003-04-08
KR10-2003-0021924A KR100494876B1 (ko) 2003-04-08 2003-04-08 2바이트 문자 데이터 압축 방법
KR10-2003-0021924 2003-04-08

Publications (2)

Publication Number Publication Date
CN1536768A true CN1536768A (zh) 2004-10-13
CN100474781C CN100474781C (zh) 2009-04-01

Family

ID=34374057

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2003101242211A Expired - Fee Related CN100474781C (zh) 2003-04-08 2003-12-31 2字节字符数据的压缩方法

Country Status (2)

Country Link
KR (1) KR100494876B1 (zh)
CN (1) CN100474781C (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101751451B (zh) * 2008-12-11 2012-04-25 高德软件有限公司 一种中文数据压缩及解压缩方法及相关设备
CN106354699A (zh) * 2015-07-13 2017-01-25 富士通株式会社 编码方法、编码装置、解码方法以及解码装置
CN106471743A (zh) * 2014-06-20 2017-03-01 甲骨文国际公司 普通ascii数据流的编码
CN104054316B (zh) * 2011-11-15 2017-04-12 思杰***有限公司 用于对sms中心进行负载平衡和建立虚拟专用网络的***和方法
CN112416315A (zh) * 2020-06-16 2021-02-26 上海哔哩哔哩科技有限公司 Css代码的压缩方法、电子设备和存储介质

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100755533B1 (ko) * 2005-07-25 2007-09-06 주식회사 팬택 캐릭터 셋 생성 방법 및 그 장치
KR101386169B1 (ko) * 2007-08-09 2014-04-17 삼성전자주식회사 문자 메시지를 압축 및 복원하는 장치 및 그 방법
KR102633001B1 (ko) * 2023-03-27 2024-02-05 주식회사 무브먼츠 Qr코드와 nfc 데이터 복합 처리 방식을 이용한 지하시설물 오프라인 ar 구현 방법

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101751451B (zh) * 2008-12-11 2012-04-25 高德软件有限公司 一种中文数据压缩及解压缩方法及相关设备
CN104054316B (zh) * 2011-11-15 2017-04-12 思杰***有限公司 用于对sms中心进行负载平衡和建立虚拟专用网络的***和方法
CN106471743A (zh) * 2014-06-20 2017-03-01 甲骨文国际公司 普通ascii数据流的编码
CN106354699A (zh) * 2015-07-13 2017-01-25 富士通株式会社 编码方法、编码装置、解码方法以及解码装置
CN106354699B (zh) * 2015-07-13 2021-05-18 富士通株式会社 编码方法、编码装置、解码方法以及解码装置
CN112416315A (zh) * 2020-06-16 2021-02-26 上海哔哩哔哩科技有限公司 Css代码的压缩方法、电子设备和存储介质
CN112416315B (zh) * 2020-06-16 2024-05-14 上海哔哩哔哩科技有限公司 Css代码的压缩方法、电子设备和存储介质

Also Published As

Publication number Publication date
KR20040087503A (ko) 2004-10-14
KR100494876B1 (ko) 2005-06-14
CN100474781C (zh) 2009-04-01

Similar Documents

Publication Publication Date Title
Kreft et al. On compressing and indexing repetitive sequences
US6747582B2 (en) Data compressing apparatus, reconstructing apparatus, and its method
US6778103B2 (en) Encoding and decoding apparatus using context
US8497788B1 (en) Efficient techniques for aligned fixed-length compression
EP0729237A2 (en) Adaptive multiple dictionary data compression
US20030074183A1 (en) Method and system for encoding and accessing linguistic frequency data
EP0584992A2 (en) Text compression technique using frequency ordered array of word number mappers
EP1891545B1 (en) Compressing language models with golomb coding
US7973680B2 (en) Method and system for creating an in-memory physical dictionary for data compression
US7738717B1 (en) Systems and methods for optimizing bit utilization in data encoding
JPH0869370A (ja) データ圧縮方法およびシステム
KR20120137235A (ko) 유전자 데이터를 압축하는 방법 및 장치
US9236881B2 (en) Compression of bitmaps and values
CN101751451B (zh) 一种中文数据压缩及解压缩方法及相关设备
CN1536768A (zh) 2字节字符数据的压缩方法
US7864085B2 (en) Data compression method and apparatus
JPS6356726B2 (zh)
CN108880559B (zh) 数据压缩方法、数据解压缩方法、压缩设备及解压缩设备
US6122402A (en) Pattern encoding and decoding method and encoder and decoder using the method
CN116827354B (zh) 一种文件数据分布式存储管理***
CN103618554B (zh) 基于字典的内存页面压缩方法
CN112506876B (zh) 一种支持sql查询的无损压缩查询方法
CN101729076B (zh) 一种基于非完备码表解析码长的哈夫曼解码方法
US5708431A (en) Method for compression coding of potentially unbounded integers
Guthrie et al. Efficient Minimal Perfect Hash Language Models.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1070189

Country of ref document: HK

C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: WD

Ref document number: 1070189

Country of ref document: HK

C41 Transfer of patent application or patent right or utility model
C56 Change in the name or address of the patentee
CP01 Change in the name or title of a patent holder

Address after: Seoul, South Kerean

Patentee after: Pantech property management Co.

Address before: Seoul, South Kerean

Patentee before: PANTECH Co.,Ltd.

TR01 Transfer of patent right

Effective date of registration: 20161026

Address after: Seoul, South Kerean

Patentee after: PANTECH CO.,LTD.

Address before: Seoul, South Kerean

Patentee before: Pantech property management Co.

TR01 Transfer of patent right

Effective date of registration: 20200609

Address after: Seoul, South Kerean

Patentee after: Pan Thai Co.,Ltd.

Address before: Seoul, South Kerean

Patentee before: Pantech Co.,Ltd.

TR01 Transfer of patent right
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20090401