CN102880703A - 中文网页数据编码、解码方法及*** - Google Patents

中文网页数据编码、解码方法及*** Download PDF

Info

Publication number
CN102880703A
CN102880703A CN201210361682XA CN201210361682A CN102880703A CN 102880703 A CN102880703 A CN 102880703A CN 201210361682X A CN201210361682X A CN 201210361682XA CN 201210361682 A CN201210361682 A CN 201210361682A CN 102880703 A CN102880703 A CN 102880703A
Authority
CN
China
Prior art keywords
web page
page data
chinese web
unicode
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201210361682XA
Other languages
English (en)
Other versions
CN102880703B (zh
Inventor
梁捷
俞永福
何小鹏
朱顺炎
田文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Guangzhou Dongjing Computer Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Dongjing Computer Technology Co Ltd filed Critical Guangzhou Dongjing Computer Technology Co Ltd
Priority to CN201210361682.XA priority Critical patent/CN102880703B/zh
Publication of CN102880703A publication Critical patent/CN102880703A/zh
Application granted granted Critical
Publication of CN102880703B publication Critical patent/CN102880703B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种中文网页数据编码方法,包括:从当前处理的中文网页数据的第一个字符开始,根据预先设置的词库进行分词处理,以确定是否存在与预先设置的词库中的词匹配的以该第一个字符开始的分词;在存在匹配的以该第一个字符开始的分词时,利用与该分词匹配的词的对应Unicode编码替换该分词,或者在不存在匹配的以该第一个字符开始的分词时,利用该第一个字符的Unicode编码替换该第一个字符;以及从当前处理的中文网页数据中去除已经被替换成Unicode编码的部分,作为下一当前处理的中文网页数据,重复执行上述处理,直到中文网页数据被完全替换为Unicode编码流。利用该方法,可以节省编码后的数据流的占用空间,由此减少中文网页数据的存储空间以及数据传输流量。

Description

中文网页数据编码、解码方法及***
技术领域
本发明涉及移动通信领域,更为具体地,涉及一种中文网页数据编码方法及装置,一种具有该中文网页数据编码装置的服务器,一种中文网页数据解码方法及装置,以及一种具有该中文网页数据解码方法的移动终端。
背景技术
为了节省用户上网流量,在将网页内容从服务器传输到移动终端的浏览器客户端时,浏览器后台服务器会在网页传输前对网页进行压缩。当前服务器采用的通常是以Lz77为基础的压缩算法,比如Lz77压缩算法、Lzma压缩算法等,这些算法采用gzip、7zip等压缩格式。网页http://en.wikipedia.org/wiki/LZ77示出了Lz77压缩算法的相关描述。网页http://en.wikipedia.org/wiki/Lempel–Ziv–Markov_chain_algorithm示出了Lzma压缩算法的相关描述。在此将这些网页公开的内容通过引用的方式并入本申请中。
上述压缩算法的基本原理是在文本中寻找重复的字符串,建立一个重复字串的“词典”文件,并在输出中用词典的索引代替该字符串。词典无需与字符串编码一起传输,解压缩装置能够根据算法的逆过程重建原始字符串。
图1示出了LZW的压缩算法的流程图。
如图1所示,首先,初始化词典包含所有长度为1的字符串(步骤S110)。接着,找出与当前输入匹配的词典中最长字符串W(步骤S120)。然后,在输出中将W替换为词典索引,同时在输入中删除W(步骤S130),并且将W连同输入中的位于W之后的后续字符加入词典(步骤S140),然后回到步骤S120,重复执行上述处理,直到输入中包含的字符为空。
LZW算法对语言透明,由于该算法是在字节级别定义重复模式,因此它可以有效地应用于中文网页的压缩,但同时也因此不能有效利用语言本身的特性,比如中文从语义上讲其实是由一个个相对固定的‘词’组成的,但该算法不会考虑中文的这个特性。从压缩方法上讲,该压缩算法依赖于文本中的重复模式,如果某文本中不存在重复模式或者字符串重复较少,则该算法会失效或者压缩效率不高。同时,由于重复模式是在扫描文本的过程中逐渐识别,初步只能识别较短的模式,逐步才能识别较长的重复模式,这意味着文档的初始部分压缩率很低,这就对较短长度的网页压缩不利。根据对新闻类网页的初步统计,中文网页中的正文内容的压缩率在60~90%之间(压缩率越小表示压缩越好),压缩效果明显不及由英文组成的js文件、css文件、html标签等。
发明内容
鉴于上述问题,本发明的一个目的是提供一种中文网页数据编码方法及装置,该方法及装置利用为预先设置的词库中的每个词分配的Unicode码位空间的私有空间或保留空间中的Unicode码位,对中文网页内容进行编码,从而提高中文网页数据的压缩效率。
本发明的另一目的在提供一种具有上述中文网页数据编码装置的中间服务器。
本发明的另一目的在于提供一种中文网页数据解码方法及装置,该方法及装置能够对如上编码的Unicode流进行解码,以恢复原始中文网页数据。
本发明的另一目的在于提供一种具有上述中文网页数据解码装置的移动终端。
根据本发明的一个方面,提供了一种中文网页数据编码方法,包括:从所获取的要被压缩的中文网页数据的第一个字符开始,重复执行下述过程,直到该所获取的中文网页数据全部替换成Unicode编码为止:从当前处理的中文网页数据的第一个字符开始,根据预先设置的词库,对该中文网页数据进行分词处理,以确定是否存在与预先设置的词库中的词匹配的以该第一个字符开始的分词;在存在与预先设置的词库中的词匹配的以该第一个字符开始的分词时,在当前要被压缩的中文网页数据中,利用与该分词匹配的词的对应Unicode编码替换该分词,或者在不存在与预先设置的词库中的词匹配的以该第一个字符开始的分词时,在当前要被压缩的中文网页数据中,利用该第一个字符的Unicode编码替换该第一个字符;以及从当前处理的中文网页数据中去除已经被替换成Unicode编码的部分,作为下一当前处理的中文网页数据。
在上述方面的一个或多个示例中,所述词库中的每个词被预先分配Unicode码位空间中的私有空间或保留空间中的一个Unicode编码
在上述方面的一个或多个示例中,所确定出的与词库中的词匹配的以当前处理的中文网页数据中的第一个字符开始的分词是以该第一个字符开始的能够与词库中的词匹配的最长分词。
在上述方面的一个或多个示例中,所述词库中的词按照词频进行排列,并且按照排列顺序为所述词分配Unicode编码,其中,所述词优先分配所述私有空间中的Unicode编码,以及在所述私有空间中的Unicode编码被全部分配后,分配所述保留空间中的Unicode编码。
在上述方面的一个或多个示例中,所述私有空间包括一个位于基本平面的私有空间以及两个位于补充平面的私有空间,位于基本平面的私有空间的Unicode编码占用三个字节,以及位于补充平面的私有空间的Unicode编码占用四个字节,所述词优先分配位于基本平面的私有空间中的Unicode编码,以及只有在所述位于基本平面的私有空间的Unicode编码被全部分配后,才分配所述位于补充平面的私有空间中的Unicode编码。
在上述方面的一个或多个示例中,所述保留空间中的Unicode编码按照从后至前的顺序分配。
在上述方面的一个或多个示例中,所述中文网页数据采用UTF-8格式传输。
根据本发明的另一方面,提供了一种中文网页数据编码装置,包括:分词处理单元,用于从当前处理的中文网页数据的第一个字符开始,根据预先设置的词库,对该中文网页数据进行分词处理,以确定是否存在与预先设置的词库中的词匹配的以该第一个字符开始的分词;编码单元,用于在存在与预先设置的词库中的词匹配的以该第一个字符开始的分词时,在当前要被压缩的中文网页数据中,利用与该分词匹配的词的对应Unicode编码替换该分词,或者在不存在与预先设置的词库中的词匹配的以该第一个字符开始的分词时,在当前要被压缩的中文网页数据中,利用该第一个字符的Unicode编码替换该第一个字符;以及当前处理数据更新单元,用于从当前处理的中文网页数据中去除已经被替换成Unicode编码的部分,作为下一当前处理的中文网页数据,其中,从所获取的要被压缩的中文网页数据的第一个字符开始,重复执行所述分词处理单元、编码单元和当前处理数据更新单元的处理过程,直到该所获取的中文网页数据全部替换成Unicode编码为止。
根据本发明的另一方面,提供了一种中间服务器,包括如上所述的中文网页数据编码装置。
根据本发明的另一方面,提供了一种中文网页数据解码方法,包括:从中间服务器接收按照如上所述的中文网页数据编码方法编码后的Unicode编码流;以及根据移动终端中预先设置的词库,将所接收的Unicode编码流解码为对应的中文网页数据,所述移动终端中预先设置的词库与中间服务器中预先设置的词库相同。
根据本发明的另一方面,提供了一种中文网页数据解码装置,包括:接收单元,用于从中间服务器接收按照如上所述的中文网页数据编码方法编码后的Unicode编码流;以及解码单元,用于根据中文网页数据解码装置中的预先设置的词库,将所接收的Unicode编码流解码为对应的中文网页数据,所述中文网页数据解码装置中的预先设置的词库与中间服务器中预先设置的词库相同。
根据本发明的另一方面,一种移动终端,包括如上所述的中文网页数据解码装置。
根据本发明的中文网页数据编码方法,可以利用预先设置的一个词库,使用为词库中的每个词分配的Unicode码位空间的私有空间或保留空间中的Unicode码位,对中文网页内容进行编码,从而节省编码后的数据流所占用的空间,由此减少中文网页数据的存储空间以及数据传输流量。
为了实现上述以及相关目的,本发明的一个或多个方面包括后面将详细说明并在权利要求中特别指出的特征。下面的说明以及附图详细说明了本发明的某些示例性方面。然而,这些方面指示的仅仅是可使用本发明的原理的各种方式中的一些方式。此外,本发明旨在包括所有这些方面以及它们的等同物。
附图说明
根据下述参照附图进行的详细描述,本发明的上述和其他目的、特征和优点将变得更加显而易见。在附图中:
图1示出了基于LZW压缩算法的压缩过程的流程图;
图2示出了根据本发明的中文网页数据编码过程的流程图;
图3示出了根据本发明的对要处理的中文网页数据进行分词处理的一个示例的流程图;
图4示出了根据本发明的中文网页数据编码过程的一个示例的进行编码处理前的中文网页数据的示图;
图5示出了针对图4中的中文网页数据进行分词处理的示图;
图6示出了经过上述分词处理后得到的结果的示图;
图7示出了根据本发明的中文网页数据编码装置的方框示意图;
图8示出了根据本发明的中间服务器的方框示意图;
图9示出了根据本发明的中文网页数据解码方法的流程图;
图10示出了根据本发明的中文网页数据解码装置的方框示意图;和
图11示出了根据本发明的移动终端的方框示意图。
在所有附图中相同的标号指示相似或相应的特征或功能。
具体实施方式
下面描述本公开的各个方面。应该明白的是,本文的教导可以以多种多样形式具体体现,并且在本文中公开的任何具体结构、功能或两者仅仅是代表性的。基于本文的教导,本领域技术人员应该明白的是,本文所公开的一个方面可以独立于任何其它方面实现,并且这些方面中的两个或多个方面可以按照各种方式组合。例如,可以使用本文所阐述的任何数目的方面,实现装置或实践方法。另外,可以使用其它结构、功能、或除了本文所阐述的一个或多个方面之外或不是本文所阐述的一个或多个方面的结构和功能,实现这种装置或实践这种方法。此外,本文所描述的任何方面可以包括权利要求的至少一个元素。
在进行根据本发明的实施例的描述之前,首先对本发明中使用的Unicode进行简要说明。
术语“Unicode”也称为统一码、万国码、单一码、标准万国码,是计算机科学领域里的一项业界标准。它对世界上大部分的文字***进行了整理、编码,使得电脑可以用更为简化的方式来呈现和处理文字。
在关于Unicode的规范中,Unicode在0~0x10FFFF之间定义了1,114,112个编码空间(即,1,114,112个编码),这些空间分为17个平面,分别编号为0~16,其中0号平面称为基本平面,范围为0000-FFFF,而1~16号平面称为辅助平面,范围为10000-10FFFF。
此外,根据Unicode标准规定的使用方法,Unicode码位区分为公共空间、私有空间和保留空间。公共空间已经由规范针对各国文字进行编码,私有空间可供私人组织自行利用,而保留空间是指暂时未使用的空间。
根据Unicode标准,私有空间共分为三段,分别是:基本平面的私有空间:Private Use Area:U+E000..U+F8FF(6,400个字符);补充平面的私有空间:Supplementary Private Use Area-A:U+F0000..U+FFFFD(65,534个字符);补充平面的私有空间:Supplementary Private Use Area-B:U+100000..U+10FFFD(65,534个字符)。此外,根据Unicode标准,Unicode基本平面(0000-FFFF)的编码占用3个字符,辅助平面(10000-10FFFF)的编码占据4个字节。
保留空间的大小为:Unassigned:30000-DFFFF(720,896个字符)。
下面将参照附图描述本发明的各个实施例。
图2示出了根据本发明的中文网页数据编码过程的流程图,该编码过程由中间服务器执行。所述中间服务器可以是任何类型的服务器。
如图2所示,在中间服务器获取要被压缩的中文网页数据后,首先,在步骤S210,将所获取的要被压缩的中文网页数据作为当前要处理的中文网页数据,开始进行中文网页数据编码过程。
接着,在步骤S220,从当前处理的中文网页数据的第一个字符开始,根据预先设置的词库,对该中文网页数据进行分词处理,以确定中文网页数据中是否存在与预先设置的词库中的词匹配的以该第一个字符开始的分词。在本发明的一个优选示例中,所述词库中的每个词被预先分配Unicode码位空间中的私有空间或保留空间中的一个Unicode编码。
在为所述词库中的词预先分配Unicode码位空间中的Unicode编码时,首先按照词频对所述词库中的词进行排列,然后按照排列顺序进行分配。对于排列顺序在前的词,也即使用频率高的词,优先分配所述私有空间中的Unicode编码。由于私有空间的总大小仅为137,468,对容纳大的词库来讲可能不够。在这种情况下,还可以使用部分的保留空间。在为词条分配Unicode编码时,一般在所述私有空间的Unicode编码被全部分配后,才分配所述保留空间中的Unicode编码。
而且,为了尽量避免和未来的规范冲突,在使用保留空间(即,分配保留空间中的Unicode编码)时,可以采用从后往前的方式进行,所占用的保留空间的大小取决于词库的大小减去私有空间的大小。
另外,所述私有空间包括一个位于基本平面的私有空间以及两个位于补充平面的私有空间,位于基本平面的私有空间的Unicode编码占用三个字节,以及位于补充平面的私有空间的Unicode编码占用四个字节。在为词分配私有空间中的Unicode编码时,优先分配位于基本平面的私有空间中的Unicode编码。一般在所述位于基本平面的私有空间的Unicode编码被全部分配后,才分配位于补充平面的私有空间中的Unicode编码。
从当前处理的中文网页数据的第一个字符开始,根据预先设置的词库,对该中文网页数据进行分词处理,可以采用多种方式进行。优选地,在本发明的一个示例中,所采用的分词处理方式是使得所确定出的与词库中的词匹配的以当前处理的中文网页数据中的第一个字符开始的分词是当前处理的中文网页数据中的以该第一个字符开始的能够与词库中的词匹配的最长分词。图3示出了根据本发明的对要处理的中文网页数据进行分词处理的一个示例的流程图。
在图3示出的示例中,词库中的词条以TRIE索引树的形式存储为中文字典。该中文字典包括首字散列表和TRIE索引树节点。
词条的首字散列函数根据汉字Unicode码给出。通过一次哈希运算,即可直接定位汉字在首字散列表中的序号。首字散列表的第一个单元包含两项内容:入口项个数(2字节):以该字为首字的词的个数;以及第一入口项指针(4字节):对应汉字TRIE索引树的根节点。
TRIE索引树节点是以下述结构为单元的、按关键字排序的数组:关键字(2字节):单一汉字,以该汉字的Unicode编码排序;子树大小(2字节):以从根节点到当前单元的关键字组成的子串为前缀、且后续字不同的词的个数;字树指针(4字节):字树大小非零时,指向字树;否则指向叶子。
图3示出了基于TRIE树查询任何一个词W[n]的过程,其中n是指该词中所包含的字符个数。
如图3所示,首先,在步骤S310中,将i设置为i=1。接着,在步骤S320,根据首字散列表得到w[1]的TRIE的索引树根节点,设为P。然后,在步骤S330中,将i的值增加1,随后进行到步骤S340。
在步骤S340中,在P的关键字节点中对w[i]进行二分查找。接着,在步骤S350中,确定在节点P的关键字中是否存在与w[i]匹配的关键字。如果节点P的某个关键字与w[i]匹配成功,则将P设置为该关键字单元对应的子树根节点,并且返回到步骤S330。否则,认为P是叶子节点,并且进行到步骤S360。
在步骤S360,确定i是否大于n。如果i大于n,则认为查询成功,w[n]为词典中的一个词条。如果i<n,则认为查询失败,将w[n-1]确定为是词典中的一个词条。
如上参照图3对分词处理过程进行了一个描述,但是上述示例仅仅是本发明的一个例示,分词处理过程还可以采用本领域中公知的其它方式进行。
回到图2,在步骤S220中对当前要处理的中文网页数据进行分词处理后,在步骤S230中,判断当前要处理的中文网页数据中是否存在与预先设置的词库中的词匹配的以该第一个字符开始的分词。在存在与预先设置的词库中的词匹配的以该第一个字符开始的分词时,即,步骤S230的判断结果为是时,在步骤S240,在当前要被压缩的中文网页数据中,利用与该分词匹配的词的对应Unicode编码替换该分词。
在不存在与预先设置的词库中的词匹配的以该第一个字符开始的分词时,即,步骤S230的判断结果为否时,在步骤S250中,在当前要被压缩的中文网页数据中,利用该第一个字符的Unicode编码替换该第一个字符。
然后,在步骤S260中,从当前处理的中文网页数据中去除已经被替换成Unicode编码的部分,作为下一当前处理的中文网页数据。随后,在步骤S270中,判断经过上述替换处理后得到的下一当前处理的中文网页数据是否为空。
如果下一当前处理的中文网页数据为空,则流程结束。如果下一当前处理的中文网页数据不为空,则返回到步骤S220,针对该下一当前处理的中文网页数据进行循环处理,直到所获取的中文网页数据全部替换为Unicode编码为止。
在本发明中,中文网页数据通常采用UTF-8格式进行传输。在本发明的其它实施例中,中文网页数据也可以采用其它格式传输,比如UTF-16。在UTF-8格式中,每个中文字符将占3个字节,如果将词作为基本传输单元的话,每个词也仅占三个或者四个字节。下面以UTF-8格式进行文本传输为例,对根据本发明的编码过程所获得的有益效果进行说明。
图4示出了根据本发明的中文网页数据编码过程的一个示例的进行编码处理前的中文网页数据的示图。
图4中示出了从新浪新闻中摘取的一段中文网页数据,在该段中文网页数据中,包含78个字符,由于每个字符占用3个字节,因此总大小为78×3=234个字节。
接着,按照图5中所示的方式,针对图4中的中文网页数据进行分词处理的示图。如图5所示,在分词过程中,首先可以识别出“菲律宾”这个词,然后将其替换为59500(0xe68c),这样就将三个字所占的空间9个字节节省为4个字节。与此类似,当分析到“专属经济区”时,可以将其替换为20745(0x328c5),这样就将15个字节替换为4个字节。依此类推,对图4中的中文网页数据进行分词处理。
图6示出了经过上述分词处理后得到的结果的示图。在图6中示出的结果中,词与词之间以空格分隔。从图6中可以看出,经过根据本发明的中文网页数据编码处理后,图4中的78个字符被分解为41个词。由于在UTF-8格式中,每个词仅占三个或者四个字节。在这种情况下,经过如上编码后得到的文本的大小最大为41×4=164。由此可以计算出,节省比例为(234-164)/234=30%。此外,这里要说明的是,在本发明的中文网页数据编码中,采用的是边分词边编码的处理方式,也就是说,在得到一个分词后,就将该分词替换为Unicode编码。因此,在完成所有的分词处理后,得到的应该是Unicode编码流,而不是图6中示出的结果。图6中的示图仅仅是为了更好地理解本发明而将Unicode编码用分词代替而形成的。
从上可以看出,与现有技术中直接对原始中文网页进行压缩后进行传输相比,在利用根据本发明的编码方法对原始中文网页进行重新编码后再进行压缩后传输,可以使得要传输的文本大小更小,由此可以减少数据传输量。
图7示出了根据本发明的中文网页数据编码装置700的方框示意图。如图7所示,中文网页数据编码装置700包括分词处理单元710、编码单元720和当前处理数据更新单元730。
分词处理单元710用于从当前处理的中文网页数据的第一个字符开始,根据预先设置的词库,对该中文网页数据进行分词处理,以确定该中文网页数据中是否存在与预先设置的词库中的词匹配的以该第一个字符开始的分词。在本发明的一个优选实施例中,所述词库中的每个词被预先分配Unicode码位空间中的私有空间或保留空间中的一个Unicode编码。
编码单元720用于在中文网页数据中存在与预先设置的词库中的词匹配的以该第一个字符开始的分词时,在当前要被压缩的中文网页数据中,利用与该分词匹配的词的对应Unicode编码替换该分词,或者在中文网页数据中不存在与预先设置的词库中的词匹配的以该第一个字符开始的分词时,在当前要被压缩的中文网页数据中,利用该第一个字符的Unicode编码替换该第一个字符。
当前处理数据更新单元730用于从当前处理的中文网页数据中去除已经被替换成Unicode编码的部分,作为下一当前处理的中文网页数据。
在利用根据本发明的中文网页数据编码装置700对所获取的要被压缩的中文网页数据进行编码时,从所获取的要被压缩的中文网页数据的第一个字符开始,重复执行所述分词处理单元710、编码单元720和当前处理数据更新单元730的处理过程,直到该所获取的中文网页数据全部替换成Unicode编码为止。
图8示出了根据本发明的中间服务器10的方框示意图。如图8所示,中间服务器10包括图7中所示的中文网页数据编码装置700。
图9示出了根据本发明的中文网页数据解码方法的流程图。
如图9所示,在步骤S910,移动终端从中间服务器接收按照如上所述的中文网页数据编码方法编码后的Unicode编码流。在接收到所述Unicode编码流后,根据移动终端中预先设置的词库,将所接收的Unicode编码流解码为对应的中文网页数据,其中,所述移动终端中预先设置的词库与中间服务器中预先设置的词库相同。
图10示出了根据本发明的中文网页数据解码装置1000的方框示意图。如图10所示,中文网页数据解码装置1000包括接收单元1010和解码单元1020。
所述接收单元1020从中间服务器接收按照如上所述的中文网页数据编码方法编码后的Unicode编码流。在接收到所述Unicode编码流后,解码单元1020根据移动终端中预先设置的词库,将所接收的Unicode编码流解码为对应的中文网页数据,其中,所述移动终端中预先设置的词库与中间服务器中预先设置的词库相同。例如,当如图5所示进行分词编码后,当在移动终端(浏览器客户端)上接收到的Unicode编码流中包含“0xe68c”时,将其解码为“菲律宾”。
图11示出了根据本发明的移动终端20的方框示意图。如图11所示,移动终端20包括图10中所示的中文网页数据解码装置1000。
利用根据本发明的中文网页数据编码方法,可以利用预先设置的一个词库,使用为词库中的每个词分配的unicode码位空间的私有空间或保留空间中的unicode码位,对中文网页内容进行编码,从而节省编码后的数据流所占用的空间,由此减少中文网页数据的存储空间以及数据传输流量。
此外,典型地,本发明所述的移动终端可为各种手持终端设备,例如手机、个人数字助理(PDA)等,因此本发明的保护范围不应限定为某种特定类型的移动终端。
此外,根据本发明的方法还可以被实现为由CPU执行的计算机程序。在该计算机程序被CPU执行时,执行本发明的方法中限定的上述功能。
此外,上述方法步骤以及***单元也可以利用控制器以及用于存储使得控制器实现上述步骤或单元功能的计算机程序的计算机可读存储设备实现。
此外,应该明白的是,本文所述的计算机可读存储设备(例如,存储器)可以是易失性存储器或非易失性存储器,或者可以包括易失性存储器和非易失性存储器两者。作为例子而非限制性的,非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦写可编程ROM(EEPROM)或快闪存储器。易失性存储器可以包括随机存取存储器(RAM),该RAM可以充当外部高速缓存存储器。作为例子而非限制性的,RAM可以以多种形式获得,比如同步RAM(DRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据速率SDRAM(DDR SDRAM)、增强SDRAM(ESDRAM)、同步链路DRAM(SLDRAM)以及直接RambusRAM(DRRAM)。所公开的方面的存储设备意在包括但不限于这些和其它合适类型的存储器。
本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性,已经就各种示意性组件、方块、模块、电路和步骤的功能对其进行了一般性的描述。这种功能是被实现为软件还是被实现为硬件取决于具体应用以及施加给整个***的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现所述的功能,但是这种实现决定不应被解释为导致脱离本发明的范围。
尽管前面公开的内容示出了本发明的示例性实施例,但是应当注意,在不背离权利要求限定的本发明的范围的前提下,可以进行多种改变和修改。根据这里描述的发明实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外,尽管本发明的元素可以以个体形式描述或要求,但是也可以设想多个,除非明确限制为单数。
虽然如上参照图描述了根据本发明的各个实施例进行了描述,但是本领域技术人员应当理解,对上述本发明所提出的各个实施例,还可以在不脱离本发明内容的基础上做出各种改进。因此,本发明的保护范围应当由所附的权利要求书的内容确定。

Claims (12)

1.一种中文网页数据编码方法,包括:
从所获取的要被压缩的中文网页数据的第一个字符开始,重复执行下述过程,直到该所获取的中文网页数据全部替换成Unicode编码为止:
从当前处理的中文网页数据的第一个字符开始,根据预先设置的词库,对该中文网页数据进行分词处理,以确定是否存在与预先设置的词库中的词匹配的以该第一个字符开始的分词;
在存在与预先设置的词库中的词匹配的以该第一个字符开始的分词时,在当前要被压缩的中文网页数据中,利用与该分词匹配的词的对应Unicode编码替换该分词,或者在不存在与预先设置的词库中的词匹配的以该第一个字符开始的分词时,在当前要被压缩的中文网页数据中,利用该第一个字符的Unicode编码替换该第一个字符;以及
从当前处理的中文网页数据中去除已经被替换成Unicode编码的部分,作为下一当前处理的中文网页数据。
2.如权利要求1所述的中文网页数据编码方法,其中,所述词库中的每个词被预先分配Unicode码位空间中的私有空间或保留空间中的一个Unicode编码。
3.如权利要求1所述的中文网页数据编码方法,其中,所确定出的与词库中的词匹配的以当前处理的中文网页数据中的第一个字符开始的分词是以该第一个字符开始的能够与词库中的词匹配的最长分词。
4.如权利要求1所述的中文网页数据编码方法,其中,所述词库中的词按照词频进行排列,并且按照排列顺序为所述词分配Unicode编码,
其中,所述词优先分配所述私有空间中的Unicode编码,以及在所述私有空间中的Unicode编码被全部分配后,分配所述保留空间中的Unicode编码。
5.如权利要求4所述的中文网页数据编码方法,其中,所述私有空间包括一个位于基本平面的私有空间以及两个位于补充平面的私有空间,位于基本平面的私有空间的Unicode编码占用三个字节,以及位于补充平面的私有空间的Unicode编码占用四个字节,所述词优先分配位于基本平面的私有空间中的Unicode编码,以及在所述位于基本平面的私有空间的Unicode编码被全部分配后,分配所述位于补充平面的私有空间中的Unicode编码。
6.如权利要求5所述的中文网页数据编码方法,其中,所述保留空间中的Unicode编码按照从后至前的顺序分配。
7.如权利要求1所述的中文网页数据编码方法,其中,所述中文网页数据采用UTF-8格式传输。
8.一种中文网页数据编码装置,包括:
分词处理单元,用于从当前处理的中文网页数据的第一个字符开始,根据预先设置的词库,对该中文网页数据进行分词处理,以确定是否存在与预先设置的词库中的词匹配的以该第一个字符开始的分词;
编码单元,用于在存在与预先设置的词库中的词匹配的以该第一个字符开始的分词时,在当前要被压缩的中文网页数据中,利用与该分词匹配的词的对应Unicode编码替换该分词,或者在不存在与预先设置的词库中的词匹配的以该第一个字符开始的分词时,在当前要被压缩的中文网页数据中,利用该第一个字符的Unicode编码替换该第一个字符;以及
当前处理数据更新单元,用于从当前处理的中文网页数据中去除已经被替换成Unicode编码的部分,作为下一当前处理的中文网页数据,
其中,从所获取的要被压缩的中文网页数据的第一个字符开始,重复执行所述分词处理单元、编码单元和当前处理数据更新单元的处理过程,直到该所获取的中文网页数据全部替换成Unicode编码为止。
9.一种中间服务器,包括如权利要求8所述的中文网页数据编码装置。
10.一种中文网页数据解码方法,包括:
从中间服务器接收按照权利要求1所述的中文网页数据编码方法编码后的Unicode编码流;以及
根据移动终端中预先设置的词库,将所接收的Unicode编码流解码为对应的中文网页数据,
其中,所述移动终端中预先设置的词库与中间服务器中预先设置的词库相同。
11.一种中文网页数据解码装置,包括:
接收单元,用于从中间服务器接收按照权利要求1所述的中文网页数据编码方法编码后的Unicode编码流;以及
解码单元,用于根据中文网页数据解码装置中的预先设置的词库,将所接收的Unicode编码流解码为对应的中文网页数据,所述中文网页数据解码装置中的预先设置的词库与中间服务器中预先设置的词库相同。
12.一种移动终端,包括如权利要求11所述的中文网页数据解码装置。
CN201210361682.XA 2012-09-25 2012-09-25 中文网页数据编码、解码方法及*** Active CN102880703B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210361682.XA CN102880703B (zh) 2012-09-25 2012-09-25 中文网页数据编码、解码方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210361682.XA CN102880703B (zh) 2012-09-25 2012-09-25 中文网页数据编码、解码方法及***

Publications (2)

Publication Number Publication Date
CN102880703A true CN102880703A (zh) 2013-01-16
CN102880703B CN102880703B (zh) 2016-03-16

Family

ID=47482029

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210361682.XA Active CN102880703B (zh) 2012-09-25 2012-09-25 中文网页数据编码、解码方法及***

Country Status (1)

Country Link
CN (1) CN102880703B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105528420A (zh) * 2015-12-07 2016-04-27 北京金山安全软件有限公司 文字编码和译码方法、装置及电子设备
CN105843854A (zh) * 2015-03-16 2016-08-10 国家计算机网络与信息安全管理中心 一种面向网络数据的专题文档快速识别***
CN108108267A (zh) * 2016-11-25 2018-06-01 北京国双科技有限公司 数据的恢复方法和装置
CN110601963A (zh) * 2014-02-23 2019-12-20 三星电子株式会社 消息处理方法以及支持该消息处理方法的电子设备
CN111178065A (zh) * 2019-12-12 2020-05-19 中国建设银行股份有限公司 分词识别词库构建方法、中文分词方法和装置
CN111178061A (zh) * 2019-12-20 2020-05-19 沈阳雅译网络技术有限公司 一种基于编码转换的多国语分词方法
CN112632909A (zh) * 2020-10-30 2021-04-09 中核核电运行管理有限公司 数据对象英文编码方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101013420A (zh) * 2006-12-31 2007-08-08 中国科学院计算技术研究所 一种识别中文文本编码形式的方法
CN101729075A (zh) * 2008-10-10 2010-06-09 英华达(上海)电子有限公司 一种数据压缩、解压缩的方法和装置
CN101751451A (zh) * 2008-12-11 2010-06-23 高德软件有限公司 一种中文数据压缩及解压缩方法及相关设备
CN102508824A (zh) * 2011-09-29 2012-06-20 苏州大学 一种微博信息的压缩编码和解码的方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101013420A (zh) * 2006-12-31 2007-08-08 中国科学院计算技术研究所 一种识别中文文本编码形式的方法
CN101729075A (zh) * 2008-10-10 2010-06-09 英华达(上海)电子有限公司 一种数据压缩、解压缩的方法和装置
CN101751451A (zh) * 2008-12-11 2010-06-23 高德软件有限公司 一种中文数据压缩及解压缩方法及相关设备
CN102508824A (zh) * 2011-09-29 2012-06-20 苏州大学 一种微博信息的压缩编码和解码的方法及装置

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110601963A (zh) * 2014-02-23 2019-12-20 三星电子株式会社 消息处理方法以及支持该消息处理方法的电子设备
US11582173B2 (en) 2014-02-23 2023-02-14 Samsung Electronics Co., Ltd. Message processing method and electronic device supporting the same
CN105843854B (zh) * 2015-03-16 2019-02-05 国家计算机网络与信息安全管理中心 一种面向网络数据的专题文档快速识别***
CN105843854A (zh) * 2015-03-16 2016-08-10 国家计算机网络与信息安全管理中心 一种面向网络数据的专题文档快速识别***
CN105528420A (zh) * 2015-12-07 2016-04-27 北京金山安全软件有限公司 文字编码和译码方法、装置及电子设备
CN108108267A (zh) * 2016-11-25 2018-06-01 北京国双科技有限公司 数据的恢复方法和装置
CN108108267B (zh) * 2016-11-25 2021-06-22 北京国双科技有限公司 数据的恢复方法和装置
CN111178065A (zh) * 2019-12-12 2020-05-19 中国建设银行股份有限公司 分词识别词库构建方法、中文分词方法和装置
CN111178065B (zh) * 2019-12-12 2023-06-27 建信金融科技有限责任公司 分词识别词库构建方法、中文分词方法和装置
CN111178061A (zh) * 2019-12-20 2020-05-19 沈阳雅译网络技术有限公司 一种基于编码转换的多国语分词方法
CN111178061B (zh) * 2019-12-20 2023-03-10 沈阳雅译网络技术有限公司 一种基于编码转换的多国语分词方法
CN112632909A (zh) * 2020-10-30 2021-04-09 中核核电运行管理有限公司 数据对象英文编码方法及装置
CN112632909B (zh) * 2020-10-30 2024-06-11 中核核电运行管理有限公司 数据对象英文编码方法及装置

Also Published As

Publication number Publication date
CN102880703B (zh) 2016-03-16

Similar Documents

Publication Publication Date Title
CN102880703B (zh) 中文网页数据编码、解码方法及***
US9223765B1 (en) Encoding and decoding data using context model grouping
CN101350624B (zh) 一种支持ansi编码的中文文本的压缩方法
CN107836083B (zh) 用于语义值数据压缩和解压缩的方法、设备和***
CN101783788B (zh) 文件压缩、解压缩方法、装置及压缩文件搜索方法、装置
US20130141259A1 (en) Method and system for data compression
CN106202172B (zh) 文本压缩方法及装置
CN104283567A (zh) 一种名称数据的压缩、解压缩方法及设备
US20230041067A1 (en) Systems and methods of data compression
US10735025B2 (en) Use of data prefixes to increase compression ratios
CN101534124B (zh) 一种用于短小自然语言的压缩算法
CN103546161A (zh) 基于二进制位处理的无损压缩方法
US10897270B2 (en) Dynamic dictionary-based data symbol encoding
CN115189696A (zh) 一种基于Huffman解码表的硬件压缩解压方法
CN100578943C (zh) 一种优化的霍夫曼解码方法和装置
CN109981108B (zh) 数据压缩方法、解压缩方法、装置及设备
CN103605730A (zh) 一种基于不定长标识码的xml的压缩方法和装置
US7023365B1 (en) System and method for compression of words and phrases in text based on language features
US8872679B1 (en) System and method for data compression using multiple small encoding tables
US9235610B2 (en) Short string compression
RU2437148C1 (ru) Способ сжатия и восстановления сообщений в системах обработки, передачи и хранения текстовой информации
CN105630870B (zh) 搜索请求处理方法及***
KR20040087503A (ko) 2바이트 문자 데이터 압축 방법
Shanmugasundaram et al. Text preprocessing using enhanced intelligent dictionary based encoding (EIDBE)
Arif et al. An enhanced static data compression scheme of Bengali short message

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200702

Address after: 310052 room 508, floor 5, building 4, No. 699, Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province

Patentee after: Alibaba (China) Co.,Ltd.

Address before: 2, 16, 301 rooms, 510665 Yun Yun Road, Tianhe District, Guangdong, Guangzhou

Patentee before: GUANGZHOU UCWEB COMPUTER TECHNOLOGY Co.,Ltd.