CN101816177B

CN101816177B - 文本图像编码

Info

Publication number: CN101816177B
Application number: CN2008801070273A
Authority: CN
Inventors: Y·鲁; F·吴; W·丁; S·李
Original assignee: Microsoft Corp
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2007-09-13
Filing date: 2008-09-12
Publication date: 2012-06-06
Anticipated expiration: 2028-09-12
Also published as: US20090074307A1; EP2198613A4; WO2009036255A2; WO2009036255A3; CN101816177A; US7903873B2; EP2198613A2

Abstract

文本图像编码涉及编码图像的文本部分。在一示例实施例中，将图像的文本块分解成多个基色和索引图，该索引图具有各个索引值，每一索引值参考一基色以表示该文本块。查明该索引图的一特定索引的一组邻近索引值。从多个上下文中生成匹配这些邻近索引值的上下文。该匹配上下文包括一组符号。基于该匹配上下文和该特定索引所对应的符号确定至少一个符号到值的映射。根据该符号到值的映射和该特定索引所对应的符号将该特定索引重新映射到特定值。

Description

文本图像编码

背景

当今，图像经常以电子格式进行存储、操纵和传送。特别是对于图像的存储和传送，电子图像的数据大小仍然是重要的。通常，电子图像的大小越小，它就越易于存储或传送。电子图像的数据大小可通过压缩该数据来减少。遗憾的是，明显的压缩通常是有损的，这意味着在压缩和解压缩循环期间信息丢失了。该损失的信息导致图像的视觉质量在解压缩之后被降级。

换言之，尽管较高的压缩促进了图像的存储和传输，但这样的压缩通常在解压缩之后降级了所得到的电子图像的视觉质量。因此，一般在所实现的压缩比与良好的视觉质量之间达到一种平衡。改进这种平衡的一种方式是改进应用于电子图像的压缩算法。如果改进了压缩算法，则可在不牺牲视觉质量的情况下得到较高的压缩比。本文在下面描述特别适用于具有文本部分的图像的新颖且高级的压缩算法。

概述

文本图像编码涉及编码图像的文本部分，该图像可具有文本部分和图形部分两者。在一示例实施例中，将图像的文本块分解成多个基色和索引图，其中该索引图具有各个索引值，每一索引值参考一个基色以表示该文本块。查明该索引图的一特定索引的一组邻近索引值。从多个预定上下文中生成匹配该组邻近索引值的上下文。该匹配上下文包括一组符号。基于该匹配上下文和该特定索引所对应的符号确定至少一个符号到值的映射，其中该符号到值的映射包括从相应符号到相应值的至少一个映射。根据该符号到值的映射和该特定索引所对应的符号来将该特定索引重新映射到特定值。在通过重新映射索引图的每一个索引来转换了该索引图之后，可编码经转换的索引图和各基色来压缩它们。

提供本概述以便用简化的形式介绍在下面的详细描述中进一步描述的一些概念。本概述不旨在标识所要求保护的主题的关键特征或必要特征，也不旨在用于帮助确定所要求保护的主题的范围。此外，本文描述了其他方法、***、方案、装置、设备、介质、过程、应用编程接口(API)、安排等实现。

附图简述

在各附图中使用相同的标号引用相同和/或对应的方面、特征和组件。

图1是其中可在具有文本部分的图像上实现文本图像编码的示例场景的框图。

图2是用于将图像的各块区分为文本块或图形块的示例标识过程的框图。

图3是将示例文本块分解成基色和索引图的框图。

图4是示出一种用于对图形块和文本块进行图像编码的方法的示例的流程图，该方法包括编码和解码。

图5是示出按上下文类别组织的、用于文本块的索引图编码的多种不同示例上下文的表格图。

图6是示出按符号的、用于文本块的编码的多种不同索引映射的表格图，其中这些映射是按上下文类别组织的。

图7是示出用于分别使用图5和图6的上下文和符号映射进行文本图像编码的方法的示例的流程图。

图8是可实现文本图像编码的示例图像编码器的框图。

图9是可实现文本图像解码的示例图像解码器的框图。

图10是示出用于对文本块进行编码的方法的示例的流程图。

图11是示出用于对文本块进行解码的方法的示例的流程图。

图12是可用于实现文本图像编码的示例设备的框图。

详细描述

文本图像编码的介绍

随着因特网的快速发展和富媒体应用的广泛采用，除自然图像之外还产生了复合图像。复合图像可包括但不限于网页、幻灯片、海报等等。复合图像包括文本部分和图形部分。文本部分包括例如由(例如位图化的)像素形成的各种字体的字母数字或其他字符或者当前不能作为单独的整体字符来识别的其他方面。图形部分包括例如自然图片。

对于自然图片，许多现有的图像和视频编码标准(例如，JPEG2000和H.264/AVC)已经展示出良好的编码性能。然而，它们在压缩复合图像时，特别是由于其中的任何文本部分而是不适当的。在一示例实施例中，区分复合图像的文本部分和图形部分。随后使用不同于图形部分的编码方法来编码这些文本部分。

图1是其中可在具有文本部分的图像上实现文本图像编码的示例场景100的框图。如所示的，场景100包括图像102和重构图像112。图像102包括至少一个文本部分104和至少一个图形部分106。重构图像112包括至少一个重构文本部分114和至少一个重构图形部分116。场景100还包括编码过程108、解码过程110和通信过程118。

对于一示例实施例，图像102由编码过程108编码。使用第一编码方法编码文本部分104，并且使用不同的第二编码方法编码图形部分106。随后经由通信过程118从一个设备将图像102的压缩版本通信传送至另一个设备和/或从一个存储器通信传送至另一个存储器。在本文下面特别参考图12来描述可用于实现文本图像编码的实施例的示例设备。

在通信过程118之后，将解码过程110应用于图像102的压缩版本以产生解压版本，它称为重构图像112。将第一解码方法应用于文本部分104的压缩版本以产生重构文本部分114。将第二解码方法应用于图形部分106的压缩版本以产生重构图形部分116。尽管图像102/112包括文本部分104/114和图形部分106/116两者，但如本文所述的发明原理还适用于仅包括文本部分104/114的图像102/112。

文本图像编码的示例实施例

图2是用于将图像102的各块区分为文本块202(T)或图形块202(G)的示例标识方法200的框图。因此，在该示例中使用基于块的方法。如所示的，标识方法200包括图像102、块202和块类型标识过程204。

对于一示例实施例，图像102被划分成多个块202并且因而包括这多个块。这些块202可以是任何大小、形状或比例。然而，这些块的一个示例值是16像素乘16像素。将块类型标识过程204应用于每个块202。从而将每个块202区分为文本块202(T)或图形块202(G)。

可使用任何技术来将各块标识为文本部分或图形部分。仅作为示例，可使用在2006年2月24日提交的、发明人为Feng Wu等、并转让给同一受让人(微软公司)的、标题为“Block-Based Fast Image Compression(基于块的快速图像压缩)”的共同待审的美国非临时专利申请第11/276,342号中所述的技术来实现块类型标识。尽管块202被区分为两种图像部分类型之一，但另选地可以存在多于两种可能的图像块类型。同样，图形块202(G)可细分为不同类型的图形块(例如，平滑、混合等)。每个相应的图像块类型可使用其自己的相应算法类型来编码。应当理解，对于已知仅具有文本部分的图像，可省略块类型标识过程204。

图3是将块分解成基色302和索引图304的示例文本块分解过程300的框图。如所示的，文本输入块202(T)被分解300成一个或多个基色302和至少一个索引图304。在该例中，输入块202(T)由图像的8像素乘8像素的部分形成。然而，输入块202(T)可以是不同的大小或者比例(例如它不必是正方形的)。

一般而言，输入块202(T)表示形成图像的文本部分的一个或多个字符的至少一部分的像素。输入块202(T)的每个像素颜色是由一个或两个字母如下表示的：LB＝淡蓝，DB＝深蓝，B＝黑，DY＝深黄，以及LY＝淡黄。因而，顶行包括8个像素，它们从左至右如下：淡蓝，淡蓝，深蓝，黑，深黄，淡黄，淡黄和淡黄。

在一示例实施例中，输入块202(T)被分解300成基色302和索引图304。基色302是从输入块202(T)提取的颜色。基色302的每种颜色与一个值(如数值)相关联。在所示示例中，淡蓝与0相关联，深蓝与1相关联，黑与2相关联，深黄与3相关联，以及淡黄与4相关联。输入块202(T)的像素颜色由索引图304表示为具有与各基色302相关联的数值的矩阵。

索引图304表示包含在输入块202(T)的各像素中的结构信息。索引图304因此具有与输入块202(T)相同的维度，在本例中为8乘8。索引图304的顶行包括8个索引值，它们从左至右如下：0，0，1，2，3，4，4和4。在一示例实施例中，将基色302和索引图304分开编码。为允许更有效的编码和有可能更高的压缩率，通过使用结构感知的范例基于多个上下文重新映射这些索引值来编码索引图304。在下面特别参考图5、6等进一步描述用于该重新映射的示例上下文和方法。

接下来，概括地描述用于文本图像编码的方案的示例实施例。如图3所示，使用多个基色和索引图在空间域中表示文本块。该索引图指示文本块的结构信息。为分解文本块，应用颜色量化算法来生成该表示，随后是进行结构感知的上下文自适应算术编码。

关于颜色量化，通常诸如向量量化和K-均值(K-means)等传统颜色量化方法被设计成最小化有限数量的颜色的显示失真。然而，颜色量化后的图像的熵可能会高，这使其难以压缩。在一示例的描述方法中，压缩的位数也在颜色量化期间得到考虑。因为基色比索引图所花费的位少得多，所以文本块的熵通常主要取决于索引图。为减少熵，限制索引图的多样性和无序性。为此，使用两步量化过程来实现比率和失真的折衷。

作为第一步，执行局部量化以将邻近的相似像素群集到一个组中。这确保或者至少增加邻近像素将会趋向于被量化成相同基色的概率。结果，减少了相关联的索引图的无序性。具体地，给出邻近像素之间所允许的最大失真，将距离在阈值之下的每个邻近像素群集到同一个组中，该组由它们的平均值来表示。

作为第二步，在局部量化之后将块进一步量化成多个基色。特别地，同一组中的各像素被量化成相同的颜色。给定块的基色的总数取决于内容。并非将每个块量化成固定数量的颜色，而是将所允许的最大失真设置为一个常数。仅作为示例，该常数可以等于q²/4，其中q是在H.264/高级视频编码(H.264/AVC)(即MPEG-4部分10)帧内编码中使用的量化步长。在该例中，16x16的宏块的基色数量可从1至8地变化。在实践中，可使用在其中将每个像素视为向量的树结构向量量化(TSVQ)方法。用TSVQ方法，最大失真可以是在TSVQ中拆分树的准则。

在一示例实施例中，关于文本块的熵编码，基色和索引图可用上下文自适应算术编码器来压缩。首先量化基色的YUV分量。索引图示出许多不同的文本块之间的相似模式。使用预定上下文和预定义的重新映射来利用这些相似模式以增强压缩。

在编码索引图时，以扫描行顺序安排这些索引。从要被编码的索引的邻近索引值推断出匹配该索引的预定上下文。随后根据其匹配的上下文和各邻近索引将当前索引值重新映射到一个符号，并且使用该上下文用算术编码器编码该符号。在本文下面特别参考图5描述示例预定上下文，并且在本文下面特别参考图6来描述示例预定义映射。

图4是示出用于涉及图形块和文本块的图像编码的一般方法的示例的流程图400。图像编码包括编码和解码两者。流程图400包括十一(11)个框402-422。在框402，接受具有图形部分和文本部分的图像作为输入。在框404，将图像的各块标识为图形块或文本块。流程图400的左边(例如框406和416)与图形块有关。流程图400的右边(例如，框408、410、418和420)与文本块有关。

在框406，编码每个图形块。在框408，将每个文本块分解成一个或多个基色和索引图。在框410，使用编码上下文和重新映射来编码每个被分解的文本块。本文在下面特别参考图5描述示例结构感知编码上下文。本文在下面特别参考图6描述示例预定义映射。在框412，从第一设备和/或存储器发送具有压缩图形块和压缩文本块的编码位流。

在框414，在第二设备和/或存储器处接收该编码位流。在框416，解码压缩图形块以产生重构图形块。以压缩形式接收到的每个分解文本块在框418处使用重新映射和编码上下文来解码。在框420，通过将解码的基色和解码的索引图组合成重构文本块来重组每个已经解码的分解文本块。在框422，通过将解码和重构图形块与解码和重构文本块合并来重构原始图像的一个版本。在重构了图像的全部或部分之后，可在包括屏幕、打印机等显示设备上呈现它。

图5是示出按上下文类别组织的用于索引图编码的多个不同示例上下文502的表格图500。如所示的，表格图500包括十五(15)个预定上下文502，它们被分成五(5)个上下文类别(a)-(e)。这15个上下文是根据最接近的邻近索引(或像素)定义的。一般而言，四个相邻的邻近索引定义每个上下文。

对于每个上下文，存在至多四种不同的可能符号或形状。每种形状表示一个邻近索引，而不同的形状指示不同的可能索引值。仅作为示例，所示的符号形状(或更一般地符号类型)是：圆形，正方形，三角形和六角形。在对应于符号的邻近索引足够靠近一个特定索引时将它们认为是最接近的，使得它们用作该特定索引的颜色/符号的概率预测器。

在一示例实施例中，这四个最接近的邻近索引是相邻的。这四个相邻的邻近索引包括沿基本方向(例如，左、右、上或下)的两个邻近索引和沿对角线方向(例如，左上、右上、左下或右下)的两个邻近索引。或者，可对上下文使用除四个以外的不同数量的邻近索引。更具体地，如所示的这四个相邻的邻近索引包括左索引、左上索引、上索引和右上索引。

左、右、上和下的定义是相对于扫描行模式的并且不必相对于图像的纹理(尽管可以这么定义它们)。换言之，正被扫描进行编码的块的第一行和该扫描的方向分别确定该块的上和左-右(或右-左)模式。换言之，对用于上下文的(例如四个)邻近索引的选择可基于在根据扫描行模式映射特定索引时知道哪些邻近索引。

任何给定类别(a)-(e)的上下文502各自具有相同数量的不同颜色索引，如由正在被重新映射的当前索引的邻近索引所确定的。上下文类别(a)的单个上下文502具有四个相同的邻近颜色索引。上下文类别(b)的上下文502恰好具有三个相同的邻近颜色索引。上下文类别(b)包括四种不同的上下文502以表示四个索引的四种可能的位置排列，其中有且只有一个索引不同于其它三个。

上下文类别(c)的上下文502具有两对相同的邻近颜色索引。上下文类别(c)包括三种不同的上下文。上下文类别(d)的上下文502恰好具有两个相同的邻近颜色索引。上下文类别(d)包括六种不同的上下文以表示四个索引的六种不同位置排列，其中两个索引相互不同并且还与该两个相同的索引不同。上下文类别(e)的单个上下文502没有相同的(即四个不同的)邻近颜色索引。

一般而言，索引图的由这些符号之一(例如，圆形、正方形、三角形或六角形)表示的这些索引值被重新映射。执行该重新映射是因为在相同的结构感知的上下文中索引的概率分布与邻近索引的真实值相关。一般而言，邻近像素的索引值比其他值具有更高概率来出现在正在被重新映射的当前特定索引中。

将具有高概率的索引重新映射到较小的值。将上下文类别(b)的上下文502作为示例，对应于圆形符号的索引值具有最高的出现概率。因此，将该索引值重新映射到0，这在将文本块作为整体进行压缩时使得当前索引的压缩在最后更有效率。定义表格图500的预定上下文502，以使得具有成为当前索引的最高概率的基色值基于其结构感知的上下文被使用符号(例如圆形符号)重新映射为零。在下面特别参考图6描述用于各上下文类别的每一个的示例预定义上下文映射。

表格图500的上下文502主要适用于内部索引。更具体地，它们不适用于顶行或外侧的列(例如，最左边和最右边的列)。然而，其它上下文可应用于其邻近索引至少部分不可用的边界索引。这些(例如二十二个)其它上下文可用于类似地编码边界索引。

图6是示出按符号的多个不同索引映射602的表格图600，其中这些映射是按上下文类别组织的。表格图600的五(5)个上下文类别(a)-(e)分别对应于(图5的)表格图500的五个上下文类别(a)-(e)。每个上下文类别包括将给定符号映射到其相关联的索引值的至少一个索引映射602。这些符号到索引值映射用于基于匹配当前索引的预定上下文502来重新映射当前索引。

在一示例实施例中，表格图500的上下文502得到仔细地安排，使得对于五个上下文类别(a)-(e)中的任何一个的相同符号映射到相同的索引值。(然而，每个上下文502的符号可不同地安排。)在表格图600中显而易见的是，对于上下文类别(a)-(e)中的每一个，圆形符号映射到索引值＝0。当存在时，对于上下文类别(b)-(d)中的每一个，正方形符号映射到索引值＝1。同样，对于上下文类别(d)和(e)中的每一个，三角形符号映射到索引值＝2，并且对于上下文类别(e)六角形映射到索引值＝3。

图7是示出用于分别使用图5和图6的预定上下文502和预定义符号映射602进行文本图像编码的方法的示例的流程图700。流程图700包括四(4)个框702-708。在框702，查明索引图的当前索引的一组邻近索引值。例如，可从索引图304查明与当前索引相邻的并且位于左、左上、上和右上位置处的四个邻近索引值。

在框704处，从多个预定上下文中生成匹配该组邻近索引值的上下文，该匹配的上下文包括一组符号。例如，如果存在三个相同的邻近颜色索引，则(图5的)具有四个符号(其中三个相同)的预定上下文502可从上下文类别(b)中生成以匹配所查明的邻近索引组。为进一步阐明所述实施例的某些原理，提供一个特定的像素颜色示例。对于此例，假定当前索引的邻近索引左索引为深蓝，左上索引为黑，上索引为深蓝，以及右上索引为深蓝。这对应于上下文类别(b)中的左边第二个上下文502。因此圆形符号对应于深蓝像素颜色，并且因此正方形符号对应于黑像素颜色。

在框706，基于匹配上下文确定符号到值的映射，该符号到值的映射包括从相应符号到相应值的至少一个映射。例如，参考(图6的)上下文类别(b)的索引映射602。对于深蓝像素颜色，圆形符号被映射到0，且对于黑像素颜色，正方形符号被映射到1。

在框708，根据符号到值的映射中的哪一个符号对应于当前索引，将当前索引重新映射到一个值。例如，如果当前索引是深蓝且因而对应于圆形符号，则使用索引映射602将当前索引重新映射到值0。如果当前索引是黑且因而对应于正方形符号，则将当前索引重新映射到值1。如果当前索引不匹配邻近索引值组中这些颜色之一(即，如果当前索引的颜色既不是深蓝也不是黑)，则当前索引的值不会被重新映射改变。

图8是可实现文本图像编码的示例图像编码器800的框图。图像编码器800可体现为软件、固件、硬件、固定逻辑电路、它们的某种组合等等。在左边的块标识开关802处输入图像，并且从在右边的多路复用器820输出压缩图像位流(例如，并且被通信传送到至图9的图像解码器900)。仅作为示例，图像编码器800可实现经修改的H.264/AVC帧内编码方案的编码侧。修改H.264/AVC帧内编码方案，以便使用此处所述的结构感知的上下文和索引映射来标识并编码文本块。

如所示的，图像解码器800一般包括面向图形的组件804-808和面向文本的组件810-818。更具体地，图像编码器800包括块标识开关802、离散余弦变换器(DCT)804、量化器806、熵编码器808和多路复用器820。图像编码器800还包括颜色量化器810、算术编码器812、上下文自适应算术编码器814、上下文生成器/索引重新映射器816和多路复用器818。

在一示例实施例的操作中，将图像输入到块标识开关802。块标识开关802区分图形块和文本块。将图形块转送到DCT 804，并且将文本块转送到颜色量化器810。DCT 804、量化器806和熵编码器808能以本领域已知的方式(例如根据H.264/AVC)运行以编码图形块。例如，DCT 804可将离散余弦变换应用于图形块。量化器806量化DCT系数，并且熵编码器808编码经量化的DCT***。另外，可另选地使用非熵编码。熵编码器808输出压缩图形位流。

颜色量化器/分解器810从块标识开关802接受文本块作为输入。颜色量化器810执行在上文针对两步量化过程所描述的步骤中的一个或两个。即，颜色量化器810执行局部量化以分组邻近像素。颜色量化器810还将分组像素的颜色量化成基色。之后，颜色量化器/分解器810将经颜色量化的文本块分解成基色和索引图。颜色量化器810输出基色和作为索引图的颜色索引。

算术编码器812从颜色量化器810接受这些基色作为输入并且编码它们以压缩它们的数据大小。另外，可另选地使用非算术编码方案。算术编码器812输出压缩基色作为位流并且将它们转送至多路复用器818。

上下文自适应算术编码器814从颜色量化器810接受具有颜色索引的索引图作为输入。在上下文自适应算术编码器814编码索引图之前，上下文生成器/索引重新映射器816重新映射其颜色索引。上下文生成器/索引重新映射器816有权访问邻近编码像素。例如，上下文生成器/索引重新映射器816可直接查明邻近编码像素。或者，可由另一个组件(例如，颜色量化器810和/或上下文自适应算术编码器814等)查明邻近编码像素并且将它们提供给上下文生成器/索引重新映射器816。

参考(图5的)表格图500，上下文生成器/索引重新映射器816的上下文生成器生成匹配所查明的邻近像素的上下文502。所生成的上下文502包括一个或多个符号并且属于相关联的上下文类别(a)-(e)。参考(图6的)表格图600，确定与同一上下文类别相关联的索引映射602。上下文生成器/索引重新映射器816的索引重新映射器随后使用所确定的索引映射602根据该索引图的每个特定像素对应的符号重新映射该特定像素。

在重新映射了索引图的每个索引像素之后，上下文自适应算术编码器814使用算术编码方案编码该重新映射的索引图。或者，可使用非算术的上下文自适应编码器。将编码基色从算术编码器812提供给多路复用器818，并且将编码(且重新映射)的索引图从上下文自适应算术编码器814提供给多路复用器818。多路复用器818将编码基色和编码索引图组合成压缩文本位流。

多路复用器820从熵编码器808接收压缩图形位流并从多路复用器818接收压缩文本位流。多路复用器820组合各压缩位流并且将组合的压缩位流转送到存储器以用于存储、转送到网络以用于传输等等。或者，可分开传递压缩图形和文本位流。

图9是可实现文本图像解码的示例图像解码器900的框图。图像解码器900可体现为软件、固件、硬件、固定逻辑电路、它们的某种组合等等。一般而言，在左边的多路分解器902处输入压缩图像位流(例如，来自图8的图像编码器800)，并且在右边从重构器920输出重构图像。仅作为示例，图像解码器900可实现经修改的H.264/AVC帧内编码方案的解码侧。修改H.264/AVC帧内编码方案，以使得文本块与图形块分开地进行标识和解码。文本块是使用本文所述的结构感知的上下文和索引映射来解码的。

如所示的，图像解码器900包括多路分解器902和图像重构器920。一般而言，图像解码器900包括面向图形的组件904-908和面向文本的组件910-918。面向图形的组件包括熵解码器904、解量化器906和逆DCT 908。面向文本的组件包括多路分解器910、算术解码器912、上下文自适应算术解码器914、上下文生成器/索引重新映射器916和重组器918。

在一示例实施例的操作中，将组合的压缩位流输入到多路分解器902。多路分解器902区分具有图形块的压缩图形位流和具有文本块的压缩文本位流。将图形位流的图形块转送到熵解码器904，并将文本位流的文本块转送到多路分解器910。

熵解码器904、解量化器906和逆DCT 908能以本领域已知的方式(例如根据H.264/AVC)运行以从图形位流解码图形块。例如，可由熵解码器904解码压缩图形位流。另外，可另选地使用非熵解码。由解量化器906解量化解码图形位流，并且用逆DCT 908将解量化的图形数据转换回空间域以产生解码图形块。将解码图形块转送到重构器920。

多路分解器910从多路分解器902接受具有文本块的压缩文本位流作为输入。多路分解器910从索引图的颜色索引中分离出基色并且将它们分开输出。将各基色转送到算术解码器912。算术解码器912解码这些基色。另外，可另选地使用非算术的解码方案。将解码基色转送到重组器918。

上下文生成器/索引重新映射器916有权访问特定像素的邻近解码像素。这些邻近解码像素可由上下文生成器/索引重新映射器916直接查明，或者它们可由一个或多个其它组件(例如，多路分解器910、上下文自适应算术解码器914等)查明并且被提供给上下文生成器/索引重新映射器916。上下文生成器/索引重新映射器916的上下文生成器从多个预定上下文502中生成匹配这些邻近解码像素的上下文。如在(图5的)表格图500中所示，所生成的上下文是一组符号。

上下文生成器/索引重新映射器916的索引重新映射器基于所生成的上下文使用(图6的)表格图600确定符号到值的映射602。符号到值的映射包括从相应符号到相应值的至少一个映射。索引重新映射器还根椐符号到值的映射中的哪个符号对应于特定像素来将该特定像素重新映射到特定值。上下文生成器/索引重新映射器916随后输出该特定像素的特定值。对于索引图的每个像素重复该过程。

上下文自适应算术解码器914从多路分解器910接受多个颜色索引并且从上下文生成器/索引重新映射器916接受每个特定像素的每个重新映射值。上下文自适应算术解码器914使用多个颜色索引和该特定像素的特定值解码索引图。例如，上下文自适应算术解码器914可逐像素地解码压缩索引图，同时由上下文生成器/索引重新映射器916重新映射解压索引图。另外，可另选地使用非算术的解码方案。应当理解，在上下文自适应算术解码器914用适当的解码方案解压了索引之后，上下文生成器/索引重新映射器916的索引重新映射器重新映射该解压索引。随后使用该重新映射索引来解压另一个(例如下一个)索引，因为当前索引的解压涉及使用解码的邻近索引。上下文自适应算术解码器914将解码索引图转送至重组器918。

重组器918从算术解码器912接受解码基色并从上下文自适应算术解码器914接受解码索引图并且将它们组合起来以重组文本块。重组器918将重组文本块转送至重构器920。因此，重构器920从逆DCT 908接收解码图形块并且从重组器918接收解码文本块。重构器920通过组合图形块和文本块来重构图像。

图10是示出用于对文本块进行编码的方法的示例的流程图。流程图1000包括十一(11)个框1002-1022。在框1002，将文本块输入到编码过程。在框1004，量化文本块的颜色以减少包含在该文本块中的不同颜色的总数。例如，可将上述两步量化过程的一个或两个步骤应用于文本块。

框1006和1012用于分解文本块。在框1006，查明量化文本块的基色。在框1012，响应于所查明的基色构建文本块的索引图。框1008和1010与基色有关。在框1008，(例如用算术方法)编码各基色。在框1010，通信传送(例如发送)文本块的编码基色。

框1014-1018与索引图的索引的编码(包括重新映射)有关。在框1014，对于索引图的一特定索引，基于最接近该特定索引的一个或多个邻近索引值并参考一组预定上下文(例如图5的表格图500的上下文)来生成匹配的编码上下文。

在框1016，响应于与该特定索引相对应并被包括在所生成的编码上下文中的符号，基于预定义的映射(例如图6的表格图600的映射)重新映射该特定索引的值。如果预定义的映射随着上下文类别变化，则可响应于与所生成的对应于该特定索引的编码上下文相关联的上下文类别来执行该特定索引的重新映射，其中该上下文类别包括一个或多个索引映射。每个索引映射将符号映射到值，其中该特定索引对应于这些符号之一。在框1018，对于索引图的每个索引重复框1014和1016的动作以将该索引图转换成重新映射的索引图。

在框1020，(例如用算术方法)编码经转换的索引图。在框1022，通信传送(例如发送)文本块的编码索引图。

图11是示出用于对文本块进行解码的方法的示例的流程图1100。流程图1100包括九(9)个框1102-1108。框1102-1104与解码基色有关，并且框1106-1114与解码索引图有关。在框1102，接收编码基色。在框1104，(例如用算术方法)解码编码基色。

在框1106，接收编码索引图。在框1108，(例如用算术方法)解码编码索引图。在框1110，对于解码索引图的一个特定索引，参考一组预定上下文(例如图5的表格图500的上下文)并且基于最接近该特定索引的一个或多个邻近索引值来生成匹配的编码上下文。

在框1112，响应于与该特定索引相对应并且被包括在该匹配的编码上下文中的符号，基于预定义的索引映射(例如图6的表格图600的映射)重新映射该特定索引的值。每个索引映射将符号映射到值，其中该特定索引对应于索引映射的各符号之一。在框1114，对于索引图的每个索引重复框1110和1112的动作以再现该索引图。

在框1116，组合解码基色和解码且重新映射的索引图以重组文本块。在框1118，输出重构文本块。在附图中，图4、7、10和11分别是流程图400、700、1000和1100。例如，这些流程图的实现可被实现为处理器可执行指令。处理器可执行指令可体现为软件、固件、硬件、固定逻辑电路、它们的某种组件等等。这些流程图的动作可在许多不同环境中、通过多种不同设备、和/或结合各种各样的不同编码标准来执行。因此，尽管某些框的描述及其动作参考了本文所述的其它元素，但它们仅作为示例才这样做的。描述这些方法的次序不旨在被解释为限制，并且可以组合、增加、重新排列和/或省略任何数量的所述框以实现相应的方法、或者实现与其等效的替换方法。

用于文本图像编码的示例设备实现

图12是可用于实现文本图像编码的示例设备1202的框图1200。如所示的，两个设备1202(1)和1202(d)能够经由网络1214参与通信，其中“d”表示整数。尽管两个设备1202是明确示出的，但可根据实现使用一个或多于两个设备1202。作为示例而非限制，网络1214可以是因特网、内联网、以太网、公用网络、专用网络、电缆网络、数字订户线(DSL)网络、电话网络、光纤网络、网格计算机网络、连接至这样的网络的途径、无线网络、网状网络、它们的某种组合等等。或者，可直接连接两个设备1202。

一般而言，设备1202可表示任何计算机或具有处理能力的设备，诸如服务器、台式、笔记本等计算机；工作站或其他通用计算机设备；数据存储仓库装置；个人数字助理(PDA)；移动电话；游戏平台；娱乐设备；路由器计算节点；网状或其它网络节点；无线接入点；它们的某种组合；等等。如所示的，设备1202包括一个或多个输入/输出(I/O)接口1204、至少一个处理器1206和一个或多个介质1208。介质1208包括处理器可执行指令1210。

在设备1202的一示例实施例中，I/O接口1204可包括(i)用于跨网络1214通信的网络接口，(ii)用于在显示屏幕上显示信息的显示设备接口，(iii)一个或多个人类设备接口，等等。(i)网络接口的示例包括网卡、调制解调器、一个或多个端口、网络通信栈、无线电等等。(ii)显示设备接口的示例包括图形驱动程序、图形卡、屏幕或监视器的硬件或软件驱动程序等等。(iii)人类设备接口的示例包括通过有线或者无线地通信传送至人类设备接口组件1212的那些接口(例如，键盘、遥控器、鼠标或其它图形定点设备等)。

一般而言，处理器1206能够执行、完成和/或以其它方式实现处理器可执行指令，如处理器可执行指令1210。介质1208包括一个或多个处理器可访问介质。换言之，介质1208可包括可由处理器1206执行以使设备1202完成功能执行的处理器可执行指令1210。处理器可执行指令可体现为软件、固件、硬件、固定逻辑电路、它们的某种组件等等。

因而，可在处理器可执行指令的一般上下文中描述文本图像编码的实现。一般而言，处理器可执行指令包括执行和/或启用特定任务和/或实现特定抽象数据类型的例程、程序、应用程序、编码、模块、协议、对象、组件、元数据及其定义、图像数据结构、面向上下文和映射的数据结构、其它数据结构、应用编程接口(API)等等。处理器可执行指令可位于分开的存储介质中，由不同的处理器执行，和/或通过各种传输介质传播或存在。

可使用任何可应用的具有处理能力的技术实现处理器1206，并且可以将它实现为通用处理器(例如中央处理单元(CPU)、微处理器、控制器等)、图形处理单元(GPU)、专用或特殊用途处理器、其派生物等等。介质1208可以是作为设备1202的一部分被包括的和/或可由设备1202访问的任何可用介质。它包括易失性和非易失性介质、可移动和不可移动介质、存储和传输介质(例如无线或有线通信信道)、硬编码逻辑介质、它们的组合等等。介质1208在体现为制品和/或合成物时是有形介质。例如，介质1208可包括用作处理器可执行指令1210的长期大容量存储的盘或闪存阵列、用作当前正在执行和/或以其它方式处理的指令的短期存储的随机存取存储器(RAM)、网络1214上的用于传输通信的链路等等。

如明确所示的，介质1208至少包括处理器可执行指令1210。一般而言，处理器可执行指令1210在由处理器1206执行时使设备1202能够执行本文所述的各种功能。这些功能包括但不限于：(i)在(分别在图4、7、10和11的)流程图400、700、1000和1100中所示的那些动作；(ii)在图1-3的不同地描述的过程、场景等中所示的那些动作；(iii)由图8和9的编码器800和解码器900分别实现的那些动作；(iv)分别涉及图5和6的上下文502和映射602的那些动作；本文所述的其它算法的那些动作；它们的组合；等等。

在划分成多个框或其它元素的各附图中示出了图1-12的设备、动作、方面、特征、功能、过程、模块、数据结构、技术、组件等等。然而，描述和/或示出图1-12的次序、互连、相互关系、布局等不旨在被解释为限制，并且能以实现用于文本图像编码的一个或多个***、方法、设备、过程、介质、装置、安排等的任何方式来修改、组合、重新安排、增加、省略任何数量的框和/或其它元素。

尽管已经以专用于结构、逻辑、算法和功能特征和/或附图的语言描述了***、介质、设备、方法、过程、装置、机制、方案、方式、进程、安排和其它示例实施例，但可以理解，在所附权利要求书中定义的发明不必受限于上述这些具体特征或动作。相反，上述这些具体特征和动作是作为实现所要求保护的发明的示例形式而公开的。

Claims

1.一种文本图像编码的方法，包括：

从图像的多个块中标识文本块；以及

通过对每个文本块实现下列动作来压缩所述文本块：

将所述文本块分解成基色和索引图，所述索引图具有多个索引值，每个索引值参考一基色以表示文本块的至少一部分；

通过对所述索引图的所述多个索引值的至少一部分实现下列动作来转换所述索引图：

基于所述索引图中最接近所述索引值的一个或多个其它索引值并且参考一组预定上下文来生成匹配所述索引值的编码上下文；以及

响应于与所述索引值相对应并且被包括在所述匹配的编码上下文中的符号，重新映射所述索引值；以及

编码所述经转换的索引图以产生压缩索引图。

2.如权利要求1所述的方法，其特征在于，所述压缩动作还包括下列动作：

编码每个文本块的基色；

发送所述编码基色和所述压缩索引图作为位流的一部分。

3.如权利要求2所述的方法，其特征在于，还包括：

从所述图像的所述多个块中标识图形块；

使用预定图像压缩算法来编码所述图形块；以及

发送所述编码图形块作为所述位流的一部分。

4.如权利要求3所述的方法，其特征在于，所述预定图像压缩算法与H.264/高级视频编码(H.264/AVC)标准一致。

5.如权利要求1所述的方法，其特征在于：

所述匹配的编码上下文包括多个符号；

所述生成动作包括基于所述匹配的编码上下文为所述一个或多个其它索引值的每个索引值建立索引值到符号的对应关系；以及

所述重新映射动作包括(i)使用所建立的索引值到符号的对应关系来确定对应于所述索引值的符号，以及(ii)用来自索引映射的映射索引值代替所述索引值，所述索引映射将对应于所述索引值的符号映射到所述映射索引值。

6.一种文本图像编码的方法，包括：

查明索引图的特定索引的一组邻近索引值，所述索引图具有各个索引值，每一索引值参考多个基色中的一个基色以表示文本块的至少一部分；

从多个预定上下文中生成匹配所述一组邻近索引值的上下文，所述匹配上下文包括一组符号；

基于所述匹配上下文和所述特定索引所对应的符号来确定至少一个符号到值的映射，所述符号到值的映射包括从相应符号到相应值的至少一个映射；以及

根据所述符号到值的映射和所述特定索引所对应的符号来将所述特定索引重新映射到特定值。

7.如权利要求6所述的方法，其特征在于，还包括：

将所述文本块分解成所述多个基色和所述索引图；

对所述索引图的每个索引值重复所述查明、生成、确定、和重新映射的动作以产生经转换的索引图；以及

编码所述经转换的索引图以压缩所述经转换的索引图的大小。

8.如权利要求6所述的方法，其特征在于，还包括：

解码所述多个基色；

解码所述索引图；

对所述索引图的每个索引值重复所述查明、生成、确定和重新映射的动作以产生重新映射的索引图；以及

组合所述多个基色和所述重新映射的索引图以重组所述文本块。

9.如权利要求6所述的方法，其特征在于，所述多个预定上下文中的每一个包括一种或多种符号类型的四个符号，每种相应的符号类型与由所述邻近索引值组所建立的相应基色相对应。

10.如权利要求9所述的方法，其特征在于，所述多个预定上下文包括：至少一个具有四个相同的邻近颜色索引的上下文，至少一个恰好具有三个相同的邻近颜色索引的上下文，至少一个具有两对相同的邻近颜色索引的上下文，至少一个恰好具有两个相同的邻近颜色索引的上下文，以及至少一个没有相同的邻近颜色索引的上下文。

11.如权利要求9所述的方法，其特征在于，所述邻近索引值组包括与所述特定索引相邻的索引值。

12.如权利要求6所述的方法，其特征在于，所述多个预定上下文中的每一个包括四个符号，其中的两个符号沿着相对于所述特定索引的至少一个基本方向，并且其中的两个符号沿着相对于所述特定索引的至少一个对角线方向。

13.如权利要求12所述的方法，其特征在于，所述四个符号包括左符号、左上符号、上符号和右上符号；所述左、左上、上和右上是相对于所述特定索引定义的。

14.如权利要求6所述的方法，其特征在于，还包括：

量化所述文本块的颜色以减少所述文本块的熵水平；以及

在所述量化动作之后，将所述文本块分解成所述多个基色和所述索引图。

15.如权利要求14所述的方法，其特征在于，所述量化动作包括下面的动作：

将邻近相似像素群集到各组中以在局部水平上执行量化。

16.如权利要求15所述的方法，其特征在于，所述量化动作还包括下面的动作：

将每个组中的像素量化成所述多个基色之一。

17.如权利要求16所述的方法，其特征在于，所述量化动作还包括下面的动作：

通过将所允许的最大失真设置为常数，根据所述文本块的内容来限制所述多个基色的总数。

18.一种文本图像编码的设备，包括：

多路分解器，所述多路分解器用于接受具有至少一个文本块的文本位流并且用于输出各基色和具有多个编码索引值的索引图，所述各基色和所述索引图表示所述文本块；

上下文自适应解码器，所述上下文自适应解码器用于从所述多路分解器接受所述索引图并用于解码所述索引图以产生多个索引值和解码的像素；

上下文生成器和索引重新映射器，所述上下文生成器和索引重新映射器有权访问所述文本块的每个特定索引值的邻近解码像素；所述上下文生成器从多个预定上下文中生成匹配所述邻近解码像素的上下文，所述匹配的上下文包括一组符号；所述索引重新映射器用于基于所述匹配的上下文来确定至少一个符号到值的映射，所述符号到值的映射包括从相应符号到相应值的映射；所述索引重新映射器还用于根据所述符号到值的映射中的哪个符号对应于一特定索引值来将所述特定索引值重新映射到一特定值；所述上下文生成器和所述索引重新映射器用于输出所述特定索引值的所述特定值；以及

其中，所述上下文自适应解码器用于从所述上下文生成器和所述索引重新映射器接受所述特定值作为所述特定索引值的解码像素。

19.如权利要求18所述的设备，其特征在于，还包括：

解码器，所述解码器用于从所述多路分解器接受所述基色并且用于解码所述基色以产生解码基色；以及

重组器，所述重组器用于从所述解码器接受所述解码基色和从所述上下文自适应解码器接受所述解码像素，所述重组器用于组合所述解码基色和所述解码像素以重组所述文本块来产生重构文本块。

20.如权利要求19所述的设备，其特征在于，还包括：

另一个多路分解器，所述另一个多路分解器用于接收组合的位流并且用于输出具有所述至少一个文本块的文本位流和具有至少一个图形块的图形位流；

熵解码器，所述熵解码器用于从所述另一个多路分解器接受所述图形位流并且用于解码所述图形块以产生解码图形块；

解量化器，所述解量化器用于解量化所述解码图形块以产生解量化图形块；

逆变换器，所述逆变换器用于变换所述解量化图形块以产生重构图形块；以及

重构器，所述重构器用于从所述重构文本块和所述重构图形块重构复合图像的至少一部分。

21.一种文本图像编码的***，包括：

用于从图像的多个块中标识文本块的装置；以及

用于通过对每个文本块实现下列动作来压缩所述文本块的装置：

用于将所述文本块分解成基色和索引图的装置，所述索引图具有多个索引值，每个索引值参考一基色以表示文本块的至少一部分；

用于通过对所述索引图的所述多个索引值的至少一部分实现下列动作来转换所述索引图的装置：

用于基于所述索引图中最接近所述索引值的一个或多个其它索引值并且参考一组预定上下文来生成匹配所述索引值的编码上下文的装置；以及

用于响应于与所述索引值相对应并且被包括在所述匹配的编码上下文中的符号，重新映射所述索引值的装置；以及

用于编码所述经转换的索引图以产生压缩索引图的装置。

22.一种文本图像编码的***，包括：

用于查明索引图的特定索引的一组邻近索引值的装置，所述索引图具有各个索引值，每一索引值参考多个基色中的一个基色以表示文本块的至少一部分；

用于从多个预定上下文中生成匹配所述一组邻近索引值的上下文的装置，所述匹配上下文包括一组符号；

用于基于所述匹配上下文和所述特定索引所对应的符号来确定至少一个符号到值的映射的装置，所述符号到值的映射包括从相应符号到相应值的至少一个映射；以及

用于根据所述符号到值的映射和所述特定索引所对应的符号来将所述特定索引重新映射到特定值的装置。