CN101470708B - 一种编码压缩方法和装置 - Google Patents

一种编码压缩方法和装置 Download PDF

Info

Publication number
CN101470708B
CN101470708B CN2007103050568A CN200710305056A CN101470708B CN 101470708 B CN101470708 B CN 101470708B CN 2007103050568 A CN2007103050568 A CN 2007103050568A CN 200710305056 A CN200710305056 A CN 200710305056A CN 101470708 B CN101470708 B CN 101470708B
Authority
CN
China
Prior art keywords
chinese character
phrase
dictionary
clauses
subclauses
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2007103050568A
Other languages
English (en)
Other versions
CN101470708A (zh
Inventor
何斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Konka Group Co Ltd
Original Assignee
Konka Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Konka Group Co Ltd filed Critical Konka Group Co Ltd
Priority to CN2007103050568A priority Critical patent/CN101470708B/zh
Publication of CN101470708A publication Critical patent/CN101470708A/zh
Application granted granted Critical
Publication of CN101470708B publication Critical patent/CN101470708B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开一种编码压缩方法和装置,其中,该方法包括:A.扫描整串汉字,从数据库中找出在词组词库中出现的条目,用词组词库的条目序号替代原来的汉字词组,其中,所述数据库将汉字、汉字词组和标点符号分成普通词库和词组词库,词库中每个条目都表示了一个汉字或一个汉字词组或一个标点符号;B.将剩下的汉字在普通词库中寻找出相应匹配的条目序号,以普通词库的条目序号替代原来的汉字。通过本发明的压缩编码方法和装置,仅仅需要很少的压缩编码信息,就可以将一段汉字进行比较大的压缩,提高汉字的压缩率。

Description

一种编码压缩方法和装置
技术领域
本发明涉及通信领域,尤其涉及移动通讯领域手机短信的压缩技术。
背景技术
在移动通讯领域中,需要进行短信的传输,但短信传输的内容有限,这是因为短信传输的字数比较少。
目前,汉字手机短信在进行编码时是采用国际通用的UCS2标准方式进行,每个汉字(或标点符号)占用16位存储空间。而每条短信正文的有效载荷为140个字节,所以对于普通短信,每条最多容纳70个汉字(或标点符号),如果超过了70个,则就必须拆分成多条短信进行发送。
所以,目前短信传输的内容有限,如有能有种方法,能使短信传输更多的内容,将是不错之设计。
发明内容
有鉴于此,本发明提供一种编码压缩装置和方法,可以将一段汉字进行比较大的压缩,提高汉字的压缩率。
一种编码压缩装置,其中,该编码压缩装置包括存储单元、检测单元和编码压缩单元,其中,
存储单元,用于存储汉字、汉字词组和标点符号,并将汉字、汉字词组和标点符号分成普通词库和词组词库,词库中每个条目都表示了一个汉字或一个汉字词组或一个标点符号;
检测单元,用于扫描一段文字的整串汉字,从存储单元找出在词组词库中出现的条目;
编码压缩单元,用于将词组词库的条目序号替代原来的汉字词组,将剩下的汉字在普通词库中寻找出相应匹配的条目序号,以普通词库的条目序号替代原来的汉字。
所述存储单元中的词库每个条目都表示了一个汉字或一个汉字词组或一个标点符号,采用16位编码来表示。
一种编码压缩方法,其中,该方法包括:
A,扫描整串汉字,从数据库中找出在词组词库中出现的条目,用词组词库的条目序号替代原来的汉字词组,其中,所述数据库将汉字、汉字词组和标点符号分成普通词库和词组词库,词库中每个条目都表示了一个汉字或一个汉字词组或一个标点符号;
B,将剩下的汉字在普通词库中寻找出相应匹配的条目序号,以普通词库的条目序号替代原来的汉字。
所述数据库的词库每个条目都表示了一个汉字或一个汉字词组或一个标点符号,采用16位编码来表示。
与现有技术相比,通过本发明的压缩编码方法和装置,仅仅需要很少的压缩编码信息,就可以将一段汉字进行比较大的压缩,提高汉字的压缩率。适用于手机短信等小段信息传送的应用中。例如,如果在手机短信发送和接收中采用本发明的方法,则可以在一条普通短信中传输比原来的多很多的汉字。
附图说明
图1为本发明较佳实施方式的一种编码压缩装置示意图。
图2为本发明较佳实施方式的一种编码压缩方法的流程示意图。
具体实施方式
为使本发明之目的、技术方案、优点更加明确、清楚,以下结合具体实施方式、附图对本发明之技术方案作进一步详细的说明。
本发明提出一种编码压缩方法,可以较好的压缩汉字、汉字词组和标点符号,使手机发送的短信内容更多,可以在一条普通短信中传输比原来的多很多的汉字。
本发明提供一种编码压缩方法,采用词库的方式,将汉字、汉字词组和标点符号分成普通词库和词组词库。词库中每个条目都表示了一个汉字或一个汉字词组或一个标点符号,采用16位编码来表示。
本发明提供一种编码压缩装置,如图1所示,该编码压缩装置包括存储单元101、检测单元102和编码压缩单元103,该编码压缩装置采用词库的方式,将汉字、汉字词组和标点符号分成普通词库和词组词库。词库中每个条目都表示了一个汉字或一个汉字词组或一个标点符号,采用16位编码来表示。
存储单元101,用于存储汉字、汉字词组和标点符号,并将汉字、汉字词组和标点符号分成普通词库和词组词库。词库中每个条目都表示了一个汉字或一个汉字词组或一个标点符号,采用16位编码来表示。
检测单元102,用于扫描一段文字的整串汉字,从存储单元找出在词组词库中出现的条目。
编码压缩单元103,用于将词组词库的条目序号替代原来的汉字词组,将剩下的汉字在普通词库中寻找出相应匹配的条目序号,以普通词库的条目序号替代原来的汉字。
对于汉字数量的统计,据统计,1000个常用字能覆盖约92%的书面资料,2000字可覆盖98%以上,3000字时已到99%,简体与繁体的统计结果相差不大。
为进行信息交换,各汉字使用地区都制订了一系列汉字字符集标准。国标码(“国标”是中华人民共和国国家标准的简称)在中国大陆使用。GB2312收录6763个汉字,GBK收录20912个汉字,最新的GB18030收录27533个汉字。
所以,如果以16位来表示一个汉字的话,可以表示65536个。但是,实际上即使采用GB18030标准,还有65536-27533=38003个条目可以来表示其他的东西。
在本发明中,将这剩余的38003个条目(条目序号从27534-65536)称为词组词库,而条目序号0-27533则称为普通词库(包括了GB18030所有的汉字)。
下面是普通词库的样例,如表1:
表1,普通词库
序号 对应汉字和标点符号
0
1
2
3
4
5
6
...
27533
下面是词组词库的样例,如表2
表2,词组词库
序号 对应的汉字词组
27534 你好吗
27535 起床
27536 睡觉
27537 好热
27538 累死了
27539 不行
...
65536 保留
压缩编码时,扫描整串汉字,从中找出在词组词库中出现的条目,用词组词库的条目序号替代原来的汉字词组;接着,将剩下的汉字在普通词库中寻找出相应匹配的条目序号,以普通词库的条目序号替代原来的汉字。这样就完成了压缩编码过程。
解压过程正好相反,按照每16位,来搜索的词组词库和普通词库,如果找到了相应的条目,则用词库中的汉字或汉字词组或标点符号来替代相应的编码。
举例,如图2所示,一种编码压缩方法的流程图,假设有以下文字:
“你现在下班了吗?待会去哪里吃饭。我同事刚刚和我推荐了一家餐馆,好像听他说挺不错的,就在南油那里,离家挺近的。是湘菜馆。你觉得怎么样?请速回复”,则该一种编码压缩方法包括如下的步骤。
步骤201,扫描整串汉字,从数据库中找出在词组词库中出现的条目,用词组词库的条目序号替代原来的汉字词组;
其中,数据库存储汉字、汉字词组和标点符号,并将汉字、汉字词组和标点符号分成普通词库和词组词库。词库中每个条目都表示了一个汉字或一个汉字词组或一个标点符号,采用16位编码来表示,可以参考表1,表2。
假设在词组词库找到了以下词组:“现在”“下班了”“待会”“”“哪里”“吃饭”“同事”“刚刚”“推荐”“一家”“餐馆”“好像”“挺不错”“那里”“”“湘菜馆”“觉得”“怎么样”“请速回复”,其条目序号分别为27601(“现在”),27600(“下班了”),27655(“待会”),27666(“”),27667(“哪里”),28000(“吃饭”),28111(“同事”),27111(“刚刚”),27101(“推荐”),33333(“一家”),45666(“餐馆”),46661(“好像”),49566(“挺不错”),29555(“那里”),55555(“”),56666(“湘菜馆”),58888(“觉得”),59999(“怎么样”),60000(“请速回复”)。
则第一次编码后,这段文字变为:
“你27601 27600了吗?27655 27666去27667 28000。我28111 27111和我27101了33333 45666,46661听他说49566的,就在南油29555,离55555家挺近的。是56666。你58888 59999 ? 60000”
步骤202,将剩下的汉字在普通词库中寻找出相应匹配的条目序号,以普通词库的条目序号替代原来的汉字。
假设剩下的汉字在普通词库对应的条目序号为:11(你),33(了),99(吗),101(?),666(去),999(。),12(我),3888(和),6661(听),14(他),19(说),20(的),21(就),22(在),55(南),187(油),9555(,),10000(离),58(家),124(挺),126(近),1232(是),59(?)。
则最后编码出来的信息就是:
“11 27601 27600 33 99 59 27655 27666 666 27667 28000 999 12 2811127111 3888 12 27101 33 33333 45666 9555 46661 6661 14 19 49566 20  955521 22 55 187 29555 9555 10000 55555 58 124 12620 999 1232 56666 999 1158888 59999 59 60000”
一共占用了48*2=96个字节。
而原始的信息则一共占用了74*2=148个字节,本发明所述的方法相对UCS的压缩率为64%。
假如采用原始的信息用UCS2方式发送短信,则需要使用两条短信才能发送。而使用本发明的压缩方法,则只需要一条短信即可。
虽然本发明已参照当前的较佳实施方式进行了描述,但本技术领域的普通技术人员应当认识到,上述较佳实施方式仅用来说明本发明,并非用来限定本发明的保护范围,任何在本发明的精神和原则范围之内,所做的任何修饰、等效替换、改进等,均应包含在本发明的权利保护范围之内。

Claims (4)

1.一种编码压缩装置,其特征在于,该编码压缩装置包括存储单元、检测单元和编码压缩单元,其中,
存储单元,用于存储汉字、汉字词组和标点符号,并将汉字、汉字词组和标点符号分成普通词库和词组词库,普通词库对应汉字和标点符号,词组词库对应汉字词组,词库中每个条目都表示了一个汉字或一个汉字词组或一个标点符号;
检测单元,用于扫描一段文字的整串汉字,从存储单元找出在词组词库中出现的条目;
编码压缩单元,用于将词组词库的条目序号替代原来的汉字词组,将剩下的汉字在普通词库中寻找出相应匹配的条目序号,以普通词库的条目序号替代原来的汉字。
2.如权利要求1所述的编码压缩装置,其特征在于,所述存储单元中的词库每个条目都表示了一个汉字或一个汉字词组或一个标点符号,采用16位编码来表示。
3.一种编码压缩方法,其特征在于,该方法包括:
A,扫描整串汉字,从数据库中找出在词组词库中出现的条目,用词组词库的条目序号替代原来的汉字词组,其中,所述数据库将汉字、汉字词组和标点符号分成普通词库和词组词库,普通词库对应汉字和标点符号,词组词库对应汉字词组,词库中每个条目都表示了一个汉字或一个汉字词组或一个标点符号;
B,将剩下的汉字在普通词库中寻找出相应匹配的条目序号,以普通词库的条目序号替代原来的汉字。
4.如权利要求3所述编码压缩方法,其特征在于,所述数据库的词库每个条目都表示了一个汉字或一个汉字词组或一个标点符号,采用16位编码来表示。
CN2007103050568A 2007-12-26 2007-12-26 一种编码压缩方法和装置 Active CN101470708B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2007103050568A CN101470708B (zh) 2007-12-26 2007-12-26 一种编码压缩方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2007103050568A CN101470708B (zh) 2007-12-26 2007-12-26 一种编码压缩方法和装置

Publications (2)

Publication Number Publication Date
CN101470708A CN101470708A (zh) 2009-07-01
CN101470708B true CN101470708B (zh) 2011-08-31

Family

ID=40828185

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2007103050568A Active CN101470708B (zh) 2007-12-26 2007-12-26 一种编码压缩方法和装置

Country Status (1)

Country Link
CN (1) CN101470708B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107153637A (zh) * 2017-05-16 2017-09-12 中国人民解放军重庆通信学院 应用于低速率应急通信的混合汉字编码方法
CN117313657B (zh) * 2023-11-30 2024-03-19 深圳市伟奇服装有限公司 一种校服设计数据编码压缩方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101047733A (zh) * 2006-06-16 2007-10-03 华为技术有限公司 短信处理方法以及装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101047733A (zh) * 2006-06-16 2007-10-03 华为技术有限公司 短信处理方法以及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JP特开2004-158926A 2004.06.03

Also Published As

Publication number Publication date
CN101470708A (zh) 2009-07-01

Similar Documents

Publication Publication Date Title
CN100425081C (zh) 短信收发的编码转换方法及其应用的网络设备
CN108228710B (zh) 一种针对url的分词方法及装置
CN103970913B (zh) Utf‑8与ansi编码识别方法以及装置
CN101470708B (zh) 一种编码压缩方法和装置
CN101345952B (zh) 客户身份识别卡的数据存储、读取方法、装置及***
CN102567406B (zh) 拼音搜索方法
CN105528345A (zh) 终端、服务器和补字方法
EP2442256A1 (en) Method of encoding and decoding text on a matrix code symbol
Goldsmith et al. UTF-7 A Mail-Safe Transformation Format of Unicode
WO2018226221A1 (en) Context-dependent shared dictionaries
US9143163B2 (en) Method and system for text compression and decompression
CN108108267B (zh) 数据的恢复方法和装置
Robert et al. Simple lossless preprocessing algorithms for text compression
Jrai et al. Improving LZW Compression of Unicode Arabic Text Using Multi-Level Encoding and a Variable-Length Phrase Code
Grabowski Text preprocessing for Burrows-Wheeler block sorting compression
CN110298017B (zh) 一种编码数据处理方法、装置及计算机存储介质
CN101742441A (zh) 压缩手机短信的通讯方法、短信发送终端和短信接收终端
Klein et al. Random Access to Fibonacci Codes.
Shanmugasundaram et al. Text preprocessing using enhanced intelligent dictionary based encoding (EIDBE)
Kaufman et al. Semi-lossless text compression
Bossard et al. Refining the Unrestricted Character Encoding for Japanese.
Arif et al. An enhanced static data compression scheme of Bengali short message
CN112818378B (zh) 一种基于“火星文”生成的文本隐写方法
CN101141679A (zh) 一种群发短信的***和方法
Begović et al. On Entropy and Source Encoding of Written Language: A South Slavic Example

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant