CN101470708B

CN101470708B - 一种编码压缩方法和装置

Info

Publication number: CN101470708B
Application number: CN2007103050568A
Authority: CN
Inventors: 何斌
Original assignee: Konka Group Co Ltd
Current assignee: Konka Group Co Ltd
Priority date: 2007-12-26
Filing date: 2007-12-26
Publication date: 2011-08-31
Anticipated expiration: 2027-12-26
Also published as: CN101470708A

Abstract

本发明公开一种编码压缩方法和装置，其中，该方法包括：A.扫描整串汉字，从数据库中找出在词组词库中出现的条目，用词组词库的条目序号替代原来的汉字词组，其中，所述数据库将汉字、汉字词组和标点符号分成普通词库和词组词库，词库中每个条目都表示了一个汉字或一个汉字词组或一个标点符号；B.将剩下的汉字在普通词库中寻找出相应匹配的条目序号，以普通词库的条目序号替代原来的汉字。通过本发明的压缩编码方法和装置，仅仅需要很少的压缩编码信息，就可以将一段汉字进行比较大的压缩，提高汉字的压缩率。

Description

一种编码压缩方法和装置

技术领域

本发明涉及通信领域，尤其涉及移动通讯领域手机短信的压缩技术。

背景技术

在移动通讯领域中，需要进行短信的传输，但短信传输的内容有限，这是因为短信传输的字数比较少。

目前，汉字手机短信在进行编码时是采用国际通用的UCS2标准方式进行，每个汉字(或标点符号)占用16位存储空间。而每条短信正文的有效载荷为140个字节，所以对于普通短信，每条最多容纳70个汉字(或标点符号)，如果超过了70个，则就必须拆分成多条短信进行发送。

所以，目前短信传输的内容有限，如有能有种方法，能使短信传输更多的内容，将是不错之设计。

发明内容

有鉴于此，本发明提供一种编码压缩装置和方法，可以将一段汉字进行比较大的压缩，提高汉字的压缩率。

一种编码压缩装置，其中，该编码压缩装置包括存储单元、检测单元和编码压缩单元，其中，

存储单元，用于存储汉字、汉字词组和标点符号，并将汉字、汉字词组和标点符号分成普通词库和词组词库，词库中每个条目都表示了一个汉字或一个汉字词组或一个标点符号；

检测单元，用于扫描一段文字的整串汉字，从存储单元找出在词组词库中出现的条目；

编码压缩单元，用于将词组词库的条目序号替代原来的汉字词组，将剩下的汉字在普通词库中寻找出相应匹配的条目序号，以普通词库的条目序号替代原来的汉字。

所述存储单元中的词库每个条目都表示了一个汉字或一个汉字词组或一个标点符号，采用16位编码来表示。

一种编码压缩方法，其中，该方法包括：

A，扫描整串汉字，从数据库中找出在词组词库中出现的条目，用词组词库的条目序号替代原来的汉字词组，其中，所述数据库将汉字、汉字词组和标点符号分成普通词库和词组词库，词库中每个条目都表示了一个汉字或一个汉字词组或一个标点符号；

B，将剩下的汉字在普通词库中寻找出相应匹配的条目序号，以普通词库的条目序号替代原来的汉字。

所述数据库的词库每个条目都表示了一个汉字或一个汉字词组或一个标点符号，采用16位编码来表示。

与现有技术相比，通过本发明的压缩编码方法和装置，仅仅需要很少的压缩编码信息，就可以将一段汉字进行比较大的压缩，提高汉字的压缩率。适用于手机短信等小段信息传送的应用中。例如，如果在手机短信发送和接收中采用本发明的方法，则可以在一条普通短信中传输比原来的多很多的汉字。

附图说明

图1为本发明较佳实施方式的一种编码压缩装置示意图。

图2为本发明较佳实施方式的一种编码压缩方法的流程示意图。

具体实施方式

为使本发明之目的、技术方案、优点更加明确、清楚，以下结合具体实施方式、附图对本发明之技术方案作进一步详细的说明。

本发明提出一种编码压缩方法，可以较好的压缩汉字、汉字词组和标点符号，使手机发送的短信内容更多，可以在一条普通短信中传输比原来的多很多的汉字。

本发明提供一种编码压缩方法，采用词库的方式，将汉字、汉字词组和标点符号分成普通词库和词组词库。词库中每个条目都表示了一个汉字或一个汉字词组或一个标点符号，采用16位编码来表示。

本发明提供一种编码压缩装置，如图1所示，该编码压缩装置包括存储单元101、检测单元102和编码压缩单元103，该编码压缩装置采用词库的方式，将汉字、汉字词组和标点符号分成普通词库和词组词库。词库中每个条目都表示了一个汉字或一个汉字词组或一个标点符号，采用16位编码来表示。

存储单元101，用于存储汉字、汉字词组和标点符号，并将汉字、汉字词组和标点符号分成普通词库和词组词库。词库中每个条目都表示了一个汉字或一个汉字词组或一个标点符号，采用16位编码来表示。

检测单元102，用于扫描一段文字的整串汉字，从存储单元找出在词组词库中出现的条目。

编码压缩单元103，用于将词组词库的条目序号替代原来的汉字词组，将剩下的汉字在普通词库中寻找出相应匹配的条目序号，以普通词库的条目序号替代原来的汉字。

对于汉字数量的统计，据统计，1000个常用字能覆盖约92％的书面资料，2000字可覆盖98％以上，3000字时已到99％，简体与繁体的统计结果相差不大。

为进行信息交换，各汉字使用地区都制订了一系列汉字字符集标准。国标码(“国标”是中华人民共和国国家标准的简称)在中国大陆使用。GB2312收录6763个汉字，GBK收录20912个汉字，最新的GB18030收录27533个汉字。

所以，如果以16位来表示一个汉字的话，可以表示65536个。但是，实际上即使采用GB18030标准，还有65536-27533＝38003个条目可以来表示其他的东西。

在本发明中，将这剩余的38003个条目(条目序号从27534-65536)称为词组词库，而条目序号0-27533则称为普通词库(包括了GB18030所有的汉字)。

下面是普通词库的样例，如表1：

表1，普通词库

序号	对应汉字和标点符号
		0	令
1	转
		2	义
3	符
		4	一
5	二
		6	而
...
		27533	保

下面是词组词库的样例，如表2

表2，词组词库

序号	对应的汉字词组
		27534	你好吗
27535	起床
		27536	睡觉
27537	好热
		27538	累死了
27539	不行
		...
65536	保留

压缩编码时，扫描整串汉字，从中找出在词组词库中出现的条目，用词组词库的条目序号替代原来的汉字词组；接着，将剩下的汉字在普通词库中寻找出相应匹配的条目序号，以普通词库的条目序号替代原来的汉字。这样就完成了压缩编码过程。

解压过程正好相反，按照每16位，来搜索的词组词库和普通词库，如果找到了相应的条目，则用词库中的汉字或汉字词组或标点符号来替代相应的编码。

举例，如图2所示，一种编码压缩方法的流程图，假设有以下文字：

“你现在下班了吗？待会去哪里吃饭。我同事刚刚和我推荐了一家餐馆，好像听他说挺不错的，就在南油那里，离家挺近的。是湘菜馆。你觉得怎么样？请速回复”，则该一种编码压缩方法包括如下的步骤。

步骤201，扫描整串汉字，从数据库中找出在词组词库中出现的条目，用词组词库的条目序号替代原来的汉字词组；

其中，数据库存储汉字、汉字词组和标点符号，并将汉字、汉字词组和标点符号分成普通词库和词组词库。词库中每个条目都表示了一个汉字或一个汉字词组或一个标点符号，采用16位编码来表示，可以参考表1，表2。

假设在词组词库找到了以下词组：“现在”“下班了”“待会”“”“哪里”“吃饭”“同事”“刚刚”“推荐”“一家”“餐馆”“好像”“挺不错”“那里”“”“湘菜馆”“觉得”“怎么样”“请速回复”，其条目序号分别为27601(“现在”)，27600(“下班了”)，27655(“待会”)，27666(“”)，27667(“哪里”)，28000(“吃饭”)，28111(“同事”)，27111(“刚刚”)，27101(“推荐”)，33333(“一家”)，45666(“餐馆”)，46661(“好像”)，49566(“挺不错”)，29555(“那里”)，55555(“”)，56666(“湘菜馆”)，58888(“觉得”)，59999(“怎么样”)，60000(“请速回复”)。

则第一次编码后，这段文字变为：

“你27601 27600了吗？27655 27666去27667 28000。我28111 27111和我27101了33333 45666，46661听他说49566的，就在南油29555，离55555家挺近的。是56666。你58888 59999 ？ 60000”

步骤202，将剩下的汉字在普通词库中寻找出相应匹配的条目序号，以普通词库的条目序号替代原来的汉字。

假设剩下的汉字在普通词库对应的条目序号为：11(你)，33(了)，99(吗)，101(？)，666(去)，999(。)，12(我)，3888(和)，6661(听)，14(他)，19(说)，20(的)，21(就)，22(在)，55(南)，187(油)，9555(，)，10000(离)，58(家)，124(挺)，126(近)，1232(是)，59(？)。

则最后编码出来的信息就是：

“11 27601 27600 33 99 59 27655 27666 666 27667 28000 999 12 2811127111 3888 12 27101 33 33333 45666 9555 46661 6661 14 19 49566 20 955521 22 55 187 29555 9555 10000 55555 58 124 12620 999 1232 56666 999 1158888 59999 59 60000”

一共占用了48*2＝96个字节。

而原始的信息则一共占用了74*2＝148个字节，本发明所述的方法相对UCS的压缩率为64％。

假如采用原始的信息用UCS2方式发送短信，则需要使用两条短信才能发送。而使用本发明的压缩方法，则只需要一条短信即可。

虽然本发明已参照当前的较佳实施方式进行了描述，但本技术领域的普通技术人员应当认识到，上述较佳实施方式仅用来说明本发明，并非用来限定本发明的保护范围，任何在本发明的精神和原则范围之内，所做的任何修饰、等效替换、改进等，均应包含在本发明的权利保护范围之内。

Claims

1.一种编码压缩装置，其特征在于，该编码压缩装置包括存储单元、检测单元和编码压缩单元，其中，

存储单元，用于存储汉字、汉字词组和标点符号，并将汉字、汉字词组和标点符号分成普通词库和词组词库，普通词库对应汉字和标点符号，词组词库对应汉字词组，词库中每个条目都表示了一个汉字或一个汉字词组或一个标点符号；

2.如权利要求1所述的编码压缩装置，其特征在于，所述存储单元中的词库每个条目都表示了一个汉字或一个汉字词组或一个标点符号，采用16位编码来表示。

3.一种编码压缩方法，其特征在于，该方法包括：

A，扫描整串汉字，从数据库中找出在词组词库中出现的条目，用词组词库的条目序号替代原来的汉字词组，其中，所述数据库将汉字、汉字词组和标点符号分成普通词库和词组词库，普通词库对应汉字和标点符号，词组词库对应汉字词组，词库中每个条目都表示了一个汉字或一个汉字词组或一个标点符号；

4.如权利要求3所述编码压缩方法，其特征在于，所述数据库的词库每个条目都表示了一个汉字或一个汉字词组或一个标点符号，采用16位编码来表示。