CN101147174A

CN101147174A - 用于管理图像数据的传送和/或存储的***和方法

Info

Publication number: CN101147174A
Application number: CNA2005800430579A
Authority: CN
Inventors: B·阿格拉亚阿卡斯; J·沃克; I·吉尔曼
Original assignee: Microsoft Corp
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2004-10-15
Filing date: 2005-10-17
Publication date: 2008-03-19
Anticipated expiration: 2025-10-17
Also published as: CN101147174B; EP1810249A2; JP4831071B2; WO2006052390A3; WO2006052390A9; WO2006052390A2; EP1810249A4; JP2008517540A

Abstract

公开了一种***和方法，它可包括在通信链路上建立第一计算机与第二计算机之间的通信，所述第二计算机具有以压缩图像数据的形式存储其中的图像集合；在该集合中选择多个图像以传送给所述第一计算机；以及在发送任一选定图像的全分辨率图像数据之前从第二计算机向第一计算机发送全部选定图像的低分辨率图像数据。

Description

用于管理图像数据的传送和/或存储的***和方法

背景技术

最近开发的诸如JPEG2000/JPIP等图像压缩和传输标准已使得大图像(即大小为千兆像素级)能在窄带宽信道上交互式显示。然而，这些新兴的标准和技术并不提供用于实现更为远大目标的手段：允许同时与极大量图像的灵活视觉交互，其中每一个图像也可能极大。因此，本领域中需要一种用于传送和/或存储图像数据的经改进***和方法。

发明概述

根据一方面，本发明提供了一种方法，该方法可包括在通信链路上建立第一计算机和第二计算机之间的通信，该第二计算机具有以经压缩图像数据的形式存储其中的图像集合；在该集合中选择多个图像以传送给所述第一计算机；以及在发送任一个选定图像的全分辨率图像数据之前将所有选定图像的低分辨率图像数据从第二计算机发送到第一计算机。

当结合附图在本文中对本发明优选实施例进行描述时，其它方面、特征、优点等将变得对本领域技术人员显而易见。

附图简述

为了说明本发明的各个方面，目前较佳的方面以附图形式示出，但可以理解，本发明并不限于所示的精确配置和手段。

图1是根据本发明一个或多个实施例的可相连以使得图像数据能在多个计算机之间传送的***的框图；

图2是根据本发明一个或多个实施例的其中具有至少两个感兴趣区域的图像的框图；

图3是根据本发明一个或多个实施例的采用在本文中公开的技术的多个方面的“虚拟书”的框图；

图4是根据本发明一个或多个实施例的图3虚拟书的三维版本的示图；

图5是根据本发明一个或多个实施例的用于管理一个或多个便携式设备与一个或多个其它计算机之间的图像数据通信的***的框图；

图6A示出采用一现有方法的不完全图像数据下载的结果；

图6B示出根据本发明一个或多个实施例的不完全图像数据下载的结果；

图7是根据本发明一个或多个实施例的可包括物理显示(屏幕)和两个虚拟显示的“共用空间”的框图；

图8示出根据本发明一个或多个实施例的压缩成一综合画(montage)的一千个以上图像的集合(各种大小的数字化地图的集合)；

图9示出根据本发明的一个或多个实施例的已被动态地重新排列成一随机配置的约三千个图像的快照；以及

图10是可适用于本发明的一个或多个实施例的计算机***的框图。

实现本发明的最佳方式

图1是根据本发明一个或多个实施例的可相连以使得图像数据能在多个计算机之间传送的***100的框图。***100较佳地包括与显示器104和数据存储设备106相连的客户机计算机102。***100较佳地还包括可与数据存储设备110相连的服务器计算机108。服务器计算机108还可与因特网112相连。

在一个或多个实施例中，图像数据可在多个计算机102、108之间传送，以便于允许使用其间相对较低的带宽连接来查看可能较大图像的较大集合。例如，存储在服务器计算机108上的图像的期望查看和导航可通过以可控的分辨率水平发送存储在服务器计算机108上的图像数据的选定部分来实现。对图像数据114的选择性可以是诸如选择高分辨率的特定图像、或甚至是高分辨率的特定图像的选定部分。

在本文中讨论了各个实施例，它们包括改变：用作客户机计算机102和服务器108的设备的类型、在其间传输的图像数据114的类型、以及以指定分辨率水平发送选定图像数据的能力的各种应用。

图2是根据本发明一个或多个实施例的其中具有至少两个感兴趣区域202、204的图像200的框图。图像200可以是图像数据114的一个子集。或者，取决于客户机计算机102请求了哪些图像数据，图像数据114可表示图像200的一个子集。

在一个或多个实施例中，图像200可以压缩形式存储在服务器计算机108上，或存储在存储设备110内。较佳地，当以此方式存储时，可存储图像200中各个区域的多个分辨率水平的数据，并可请求由客户机计算机102下载这些数据。

在一个或多个实施例中，一特定图像或图像的一特定部分存储在客户机计算机102上的分辨率水平可容易地提高或降低。当先前的下载导致区域或图像以第一分辨率水平(可低于全分辨率)存储时，该第一分辨率水平可通过添加表示下一更高水平分辨率的数据而提高(较佳地在不丢弃表示该第一分辨率的数据的情况下)，由此避免在此设想的图像数据通信的重复并提高其效率。相反，存储在客户机102上的一区域或图像的分辨率水平在不丢失与同一区域或图像的较低水平分辨率相对应的数据的情况下可通过丢弃存储其中的最高水平分辨率而降低。这种分辨率的降低可在客户机102上实现，以清除不同于丢弃其数据的区域或图像的一个或多个区域或图像所需的数据存储空间。

相关的图像压缩可通过例如使用JPEG2000或另一基于离散小波变换的图像压缩方案来提供。然而，本发明并不限于任何特定压缩格式或图像数据表示的使用。可采用其它格式，包括其字节大小实际上不比未经压缩的图像数据小的图像格式。只有选定图像格式容许图像数据的多级表示和存储才是较佳的。

在一个或多个实施例中，客户机计算机102可能想要下载图像200的一个或多个区域，其中这些区域可以是图像200的一部分。感兴趣的一个或多个区域202、204可以是客户机计算机102想要下载的唯一区域。或者，客户机计算机(客户机)102可能仅仅想要以比下载图像200的其余部分更高的分辨率来下载一个或多个选定区域。在任一情形中，客户机102可通过标识要下载的图像200的指定区域和将由服务器计算机(服务器)108提供的该指定区域的分辨率水平来请求一下载。

在图2的示例中，客户机102较佳地请求以低分辨率下载全部图像200。(下载大批量图像200的确切分辨率水平与本讨论无关。)然而，客户机102想要以更高分辨率、甚至全分辨率下载感兴趣的区域1202。因此，客户机102较佳地向服务器108指定感兴趣区域1 202的坐标和期望的分辨率水平。因而，除了以低分辨率下载大批量的图像200(包括在感兴趣区域1202之外的部分)之外，客户机102较佳地以指定的更高分辨率下载感兴趣区域1202。在其它情形中，客户机102会仅想下载感兴趣的(多个)区域并略去对图像200的其余部分的下载。

以此方式，客户机计算机102的用户可在不必以高分辨率下载图像200的全部的情况下以该高分辨率查看感兴趣区域1202。因而，客户机102和服务器108之间的相对较低带宽的数据通信链路可仍然发送图像200的全部，同时以高分辨率提供特别感兴趣的区域(在该情形中为感兴趣区域1202)，由此对于如果客户机102已经以高分辨率下载了图像200的全部就会出现的感兴趣区域，向查看者提供相同的查看体验，然而该后一选择需要显著更长的下载时间以及在客户机计算机102或数据存储设备106处的更多数据存储空间。

转换感兴趣区域

在一个或多个实施例中，客户机计算机102的用户可能想要在图像200上扫视。通常，从感兴趣区域202扫视到另一个感兴趣区域204将涉及在客户机102上以将要查看这些区域的分辨率水平下载这两个区域。此外，通常感兴趣区域1202和感兴趣区域2204之间的所有图像区域将被存储在客户机计算机102上以使所述扫视能够进行。如以下所描述的，在本发明的一个或多个实施例中，查看这些感兴趣区域202、204可通过下载比上述方法中少得多的数据、并使用客户机计算机102上更少的存储空间来实现。

在一个或多个实施例中，客户机102可从感兴趣区域1202转换到感兴趣区域2204的高分辨率查看。较佳地，与感兴趣区域2204的低分辨率表示相对应的图像数据已因为下载了图像200而在客户机计算机102中存在，如上所述。在该情形中，所需要的全部是用描述相关的较高分辨率水平的附加图像数据来补充感兴趣区域2204的现有图像数据，以在客户机计算机102上达到感兴趣区域2204的高分辨率表现。如果需要，表示感兴趣区域1202的较高分辨率水平的图像数据可被丢弃或重写，以在数据存储设备106中腾出空间或其它数据存储空间，用于对感兴趣区域2204下载的附加图像数据。

在一个或多个实施例中，从感兴趣区域1202到感兴趣区域2204的查看的转换可逐步实现，以向显示器104的查看者提供可精确地模拟在以高分辨率下载图像200的全部的计算机上的查看体验的查看体验。具体地，显示感兴趣区域1202的分辨率水平可逐步降低到表示图像200的大部分的分辨率水平。然后，显示器104上的视图可表示在感兴趣区域1202与感兴趣区域2204之间的低分辨率区上的逐步扫视。最后，在到达感兴趣区域2204时，在完成图像200上的扫视之后、或与该扫视操作的后半部分同时，显示器104上的视图可增至感兴趣区域2204的高分辨率表现。较佳地，在所述过程结束时，感兴趣区域2204可以高分辨率存储在客户机计算机102上，并可以该高分辨率在显示器104上显示。

图3是根据本发明一个或多个实施例的采用本文中所公开技术的多个方面的“虚拟书”300的框图。虚拟书300可包括显示器302、后向高速缓存304和前向高速缓存306。尽管高速缓存304、306各自示为其中存储了两个页面，但在高速缓存304、306的任一个中都可存储任何数量的页面。

在一个或多个实施例中，对于虚拟书300的特定情形，虚拟书302采用以可控分辨率水平提供选定图像数据的能力。在虚拟书300中，每一图像可以是虚拟书300的显示器302内的一页。显示器302可对应于图1的显示器104，或者可以是适用虚拟书300的特定特征的专用显示器。虚拟书3000可对应于图1的客户机计算机102，或者可以是实际上限于传送、存储和显示书的页面的专用计算机。

在一个或多个实施例中，虚拟书300可以只包括以全分辨率存储和/或显示的一个页面，而在所显示的一系列页面的前后的其它页面可以是各种其它分辨率。

在一个或多个实施例中，当前在显示器104上显示的页面(即活动页面)以全分辨率显示，该活动页面在图3中为“页面10”。在这些实施例中，随着页面距活动页面的距离增大，其它页面可以逐步降低的分辨率显示。更具体地，存储每一页面的分辨率可等于显示在显示器306中的活动页面的分辨率除以一个量，该量等于2的各存储页面和活动页面之间的页数次幂。因而，应用该方法，页面11(在前向高速缓存306中)和页面9(在后向高速缓存304中)可各自占据由显示器302中的活动页面所占的数据存储空间量的一半。继续用该方法，页面12(在前向高速缓存306中)和页面8(在后向高速缓存304中)可各自占据由显示器302中的活动页面所占的数据存储空间量的一半。

尽管在以上讨论中分配给每一页面的数据存储空间量相对于其直接相邻的页面相差2的倍数，但本领域技术人员可以理解，大于或小于2的值可被用作除法因数。此外，与活动页面的数据存储空间除以一常数不同的算术公式可被用来确定数据存储空间对存储在高速缓存304和306中的连续页面的分配。

在一个或多个实施例中，可选择一新的活动页面来替代图3所示的页面10。该新选定的页面可以是，但不必是紧邻页面10的页面(页面9或页面11)。即，从相关的书(或具有离散页面的任何其它类型的印刷物)中1到最后一页的任一页面都可以是新的活动页面。

在一个或多个实施例中，在选择新的活动页面之后，较佳地进行当前的活动页面和新的活动页面之间的转换。这种到新的活动页面的转换可包括获取该新的活动页面的附加图像数据，以使得新的活动页面能以全分辨率存储和/或显示。如果新的活动页面是“页面11”，并且采用上述“因数2”的实施例，则分配给页面11的数据存储空间量将较佳地为两倍。继续“因数2”实施例的应用，作为从页面10到页面11的转换的一部分，分配给页面10的数据存储空间最好变成一半作为活动页面。不包括在转换后页面10中的页面10的活动版本的数据可被丢弃(可包括其重写)。但是可选择地，页面10的该“剩余”数据可被存储在另一个高速缓存中。如果在从页面10转换出来之后很快(即在合理数量的页面转换内)进行向页面10的转换，则页面10的剩余数据的这种高速缓存可提供效率。

在一个或多个实施例中，从页面10向页面11(或其它新的活动页面)的转换可包括从页面10的逐步淡出和页面11的逐步淡入，以向虚拟书300的用户提供视觉上的愉悦体验和/或物理页面转换回忆的体验。可任选地，可提供显示旧活动页面的折页和翻页的一系列图像以使得虚拟页面转换看起来更像物理翻页的回忆。

图4是根据本发明一个或多个实施例的图3虚拟书的三维版本的示图。图4的实施例示出除红色、绿色和蓝色分量以外可将部分透明度(毛边)的α通道存储为图像信息的一种方法。尽管有如上所述的色彩分量，但为了方便起见本文中仅提供图4的图像的黑白再现。

在一个或多个实施例中，可采用硬件加速的纹理映射来支持α通道。可连同虚拟书的两维或三维实施例一起实现的另一个特征是图像的动态变形，例如在该书翻页时弯曲页面，如图4所示。

管理一个或多个便携式设备中的图像数据

在本节中，描述基于逐行和隔行视觉集合传输来存储数字图像并与之交互的多种机制。在本发明的一个或多个实施例中，对本文中公开的方法的变体允许：在台式计算机、移动设备或其它设备上接近即时地查看存储在第二移动设备上的一个大图像集合；为了查看图像而使用远程存储来增大移动设备的本地存储器；以及从移动设备浏览大图像集合。本发明一个或多个实施例所允许的各种变换可依赖于通用的客户机/服务器成像和集合表示架构。

本发明的一个或多个实施例可提供一种方法，它可包括：在服务器上提供数字图像或其它视觉对象的一个集合；在一客户机与所述服务器之间建立通信；以及允许通过客户机对驻留在服务器上的可视对象的收集的有效多级导航。

在本公开中，术语“数字图像数据”可包括数字照片、数字图像、可视文档、或其它形式的可视内容。在本文中，术语“图像”通常与术语“数字图像”相对应，并且这些术语中的任一个都可对应于“数字照片”。在本文中，术语“客户机”通常对应于术语“客户机方”和术语“客户机设备”。在本文中，术语“便携式设备”、“便携式相机设备”和“相机设备”通常指数字图像捕捉设备和/或数字图像存储设备。在本文中，“数字图像捕捉设备”可包括但不限于数码相机、启用了相机的移动电话(可称为启用相机的手机)、个人数字助理、和/或能记录数字静止图像的数字录影机。“数字图像捕捉设备”可包括能够通过直接光学地接收和记录这些数据(诸如用标准数码相机)来接收图像数据的设备，并且还可包括能通过有线或无线因特网或其它网络连接来接收图像数据的设备。

本文所述方法的一个或多个实施例可使用一种多分辨率方法来解决存储、同步、浏览和组织数字图像数据的集合(可以是可视文档)的问题。可以某分辨率表示为彩色像素阵列的数字照片(例如1024×768像素＝0.75百万像素，2592×1944像素＝约5百万像素等)是最终用户可使用数码相机、启用相机的移动电话和数字录像机以及其它设备来创建的一种通用可视文档类型。

本文所述的一种或多种方法还可应用于除图像之外的可视数据对象，诸如申请人参考文献489/17NP(序列号为11/082,556的美国专利申请)的道路地图或其它向量数据、或申请人参考文献489/13(序列号为60/617,485的美国临时专利申请)的文本数据等。(这两个文档在本文开始时更详细地标识，并且两个文档都通过引用结合于此)。

现有***用户所面对的问题是相机设备能快速创建大量的可能较大的可视文档。然而，这些设备通常没有足够的存储器或视觉浏览工具根据来允许这些文档的令人满意的存档、查看或组织。

存储在相机或其它便携式设备中的数字照片或其它数字图像数据通常周期性地下载到桌面或笔记本计算机、从相机的存储器中清除以允许拍摄更多图片、并且在桌面或笔记本计算机上组织和/或查看。然后，可通过将数字照片的选择贴到一个或多个因特网网站来与朋友们共享数字图片。

管理便携式设备上的图像数据的传统方法

当使用常规方法来管理便携式设备上的图像数据时可遵循以下步骤。首先，可以是数码相机或其它数字图像数据捕捉设备的移动设备拍摄图片。然后，可能在图片的某些精选之后，图片可被下载到相机用户的PC(个人计算机)并从该相机设备中删除。相机设备的本地存储是有限的，并且在该常规方法中仅瞬时地保存图像，直到它们被安全地存储在PC上。

该PC可在其存储器(例如硬盘驱动器或其它非易失性存储)中永久地保留数字照片的任何子集。用户可随后将那些图像的某些进一步精选子集(通常以降低分辨率)上传到由web照片发布服务所拥有的web服务器。所上传的图像可使用PC或其它设备上的web浏览器由任何第三方、或具有有限访问权限的那些用户的部分子集公开浏览。

现有方法的限制可包括从相机设备到PC的冗长下载时间。通常还有对相机设备上持久存储的较差管理。相机设备通常具有较小的彩色显示器，在这些彩色显示器上查看者理论上可查看与人们通常在皮夹中所带的类型相同(诸如家人和宠物)的永久存储图像，以及与PDA(个人数字助理)上的呼叫者或其它联系人相关联的照片。然而，对现有相机设备中持久存储的限制使得以上任务难以实现。

此外，现有的相机设备施加了其它限制。在现有相机设备中，对存储在相机设备中的图像的导航通常是难用和困难的。在现有相机设备中，缺少在相机设备或PC上都会带给用户一致体验的对图像集合的统一可视界面。现有相机设备往往在下载变成必需之前对可存储其上的图片数量施加极有限制性的限制。因而，当采用现有方法时，在使得图像对第三方可用时通常涉及一系列冗长的步骤。

根据本发明的一个或多个实施例管理图像数据

图5是根据本发明一个或多个实施例的用于管理一个或多个便携式设备512、522与一个或多个其它计算机之间的图像数据通信的***500的框图。***500可包括客户机方510和服务器方520。然而，在可选实施例中，图5所示的设备分组的客户机和服务器状态可相反。

在一个或多个实施例中，***500可包括便携式设备1512、便携式设备2522、个人计算机102(基本上与图1的客户机计算机102相同)、服务器108(基本上与图1的服务器计算机108相同)和/或附加计算机524。较佳地，设备512、522和计算机102、108和524的每一个都具有包括其中的存储器和一个或多个显示器。可选择地或除此之外，图5的设备和计算机可与存储器和/或显示器通信。

图5示出了根据本发明的一个或多个实施例可使用的各条可能路径。一个或多个实施例可使用比图5所示的全部数据路径少的路径。图5所示的可用数据路径可具有共同的以下特征的一个或多个：1)各数据路径可涉及服务器方520(图像数据的发起者)和客户机方510(图像数据的接收者)；2)双向数据路径(由两端有箭头的线示出)指示这些箭头指向的设备能以客户机或服务器能力服务；3)连接可采用硬接线网络(例如通用串行总线(USB)、火线或以太网)或无线网络(例如对于邻近设备为蓝牙，以及对于更远的连接为WiFi或无线广域联网协议)；和/或4)所示连接可以是或可以不是自组织(ad-hoc)的。

在一个或多个实施例中，客户机方510和服务器方520可包括一个或多个数字计算和/或存储设备，包括但不限于：相机设备、个人计算机、以及个人数字助理。

在一个或多个实施例中，客户机设备(客户机)可具有一个或多个显示器。客户机可使用申请人参考文献489/15P(题为“用于与具有大量可能较大图像的动态远程相册有效交互的方法”(“Method for Efficiently Interacting with Dynamic，Remote Photo Albums with Large Numbers of Potentially Large Images”)的序列号为60/619,118的美国临时申请，该申请通过引用结合于此)中所述的一种或多种有效多分辨率浏览方法来浏览驻留在服务器上的文档集合。这些方法允许大图像或其它可视图像的大集合能有效地在低带宽连接上导航。这些图像集合的缩放、扫视和动态重新排列在参考文献中描述。

在一个或多个实施例中，该导航方法的特性之一是当信息从服务器发送到客户机时显示内容可逐步聚焦。该信息聚焦的速率可根据连接带宽与显示像素之比来管理。当用户缩放、扫视或重新排列客户机方510上的文档使得新文档变得可见时，该内容再次显现为模糊、然后聚焦。

虚拟显示器

在一个或多个实施例中，客户机的“显示器”对于最终用户而言并非必需是物理的或可见的。在一个或多个实施例中，该显示器可以是“虚拟显示器”，即具有指定分辨率的显示器的抽象模型。这种“虚拟显示器”可表示为客户机存储器中的像素值阵列，而不管那些像素值是否会提交给屏幕。虚拟显示器可包括至少部分地描述一个或多个图像的小波数据。该小波数据较佳地能够以可能分辨率范围来表示一图像。在一个或多个实施例中，小波数据可对应于使用JPEG2000所采用的小波数据。在一个或多个实施例中，虚拟显示器可包括完整地描述一个或多个图像的足够的小波数据。

例如，如果期望设备以指定分辨率获取集合中所有图像的缩略图，则该设备可创建适当大小的“虚拟显示器”，建立与服务器的连接，并请求查看整个集合。然后缩略图全集可被发送并呈现在该“虚拟显示器”上。如果在所有相关数据从服务器发送到客户机之前传输中断，则客户机的虚拟显示器尚未使所有缩略图图像处于理想聚焦状态。然而全部所请求的缩略图较佳地以足够的分辨率存储在客户机的虚拟显示器内，以允许在屏幕上呈现这些图像的可见版本。以所述方式呈现的图像具有通常比图像的传输已无中断地结束的情形低的视觉质量。因而，一些图形退化可在使用来自不完整的、中断的传输的数据所呈现的图像中存在。

然而，所述退化对于在网络上发送缩略图集的现有技术方法而言仍然是较佳的，在该方法中各缩略图的完整图像依次发送。在该现有技术的方法中，连接的太早中断会导致一些缩略图全部可用(即以全分辨率)，并导致其它缩略图不完全可用。图6示出该区别。图6A示出采用现有方法的不完全图像数据下载的结果；而图6B示出根据本发明一个或多个实施例的不完全图像数据下载的结果。

图3A示出一现有技术情形，其中已接收到三个缩略图(示为方形)的所有数据，而根本没有接收到剩下的九个缩略图(示为X)。图3B示出采用本发明一个或多个实施例会发生的一种情形，其中已经以某分辨率水平接收到了所有的十二个缩略图(示为网状阴影线方形)，该分辨率水平较佳地对于查看是可接受的，但可能低于在完成完整且未中断的传输之后所将获得的分辨率。

在一个或多个实施例中，客户机可具有高速缓存最近查看的可视内容的客户机方高速缓存。标准的MRU(最近使用)高速缓存可针对本发明一个或多个实施例的缓存需要而采用。然而，通过引用结合于此的题为“有效数据高速缓存”(Efficient Data Cache)的序列号为11/141,958的美国专利申请(委托人参考文献489/10NP)中所公开的高速缓存可有利地用来允许更为复杂的客户机方高速缓存。在任一情形中，给定量的客户机方存储器可专用于高速缓存。因而，返回至最近查看图像的导航可允许使用存储在高速缓存中的图像数据，而无需该图像数据再次从服务器发送。

客户机可具有多个显示器。给定显示器可以是物理的或虚拟的。给定显示器可直接通过用户输入驱动，或者它可通过诸如计算机102等客户机计算机内的软件来用程序推动。所有显示器的以像素为单位的总尺寸可以是固定的或受某些限制的约束，并且该限制可限定可视内容所需的客户机方存储器的最小量。该客户机方存储器较佳地与分配给高速缓冲存储器的存储空间分开。

涉及物理显示器和虚拟显示器的一个实施例如下所述。较佳地，客户机设备内的物理显示器对用户可见，并允许对数字地存储的图像集合的缩放和扫视导航以及重新排列。用户还可从该集合中选择一个或多个图像，并将它们发送给可用作存储用户选定图像的地方的“保存笔(holding pen)”。该保存笔可以某方式在物理显示器上可视化。将图像添加到保存笔较佳地使图像被置于对用户不可见的虚拟显示器上。当图像被添加到保存笔时，表示保存笔的虚拟显示器逐步填满。

该虚拟显示器在尺寸(按像素数测量)上可增至某限制，然后其尺寸可保持固定为该限制。虚拟显示器可能会太小而不能以全分辨率显示保存笔上的所有图像。在该情形中，驻留在虚拟显示器中的图像所需的数据存储空间较佳地按需减小以使图像适应虚拟显示器。因此，屏幕外视图(虚拟显示器)较佳地在用户将可查看图像置入保存笔时即得到图像的补充。这种屏幕外视图的补充可对用户不可见地进行。

一种浏览方法在题为“用于在缩放用户界面中准确呈现的***和方法”(System and Method for Exact Rendering in a Zooming User Interface)的序列号为10/790,253的美国专利申请(申请人参考文献489/2NP)中公开，该申请通过引用结合于此。在该文献中公开的基于客户机视图确定信息从服务器发送到客户机的顺序的方法可针对多显示器情形而作更改。489/2NP文献公开了视觉信息可分成多个小块(tile)，其中每个小块以给定分辨率覆盖空间中的一个区域。然后低分辨率小块可占据大物理区域，而高分辨率小块可占据小物理区域，从而每一个小块的信息量基本上相同。

489/2NP文献公开了使用以下所述的准则对多个小块排序的方法。一种准则可以是显示器上的小块分辨率和小块位置。小块的排序可以是词典顺序的，从而较低分辨率小块总是在较高分辨率小块之前，且空间位置仅在解析分辨率内的顺序时起作用。 (词典顺序排序在此指推广的多元组含义一例如三元组集{(1，2，3)，(0，3，1)，(4，0，0)，(0，0，1)，(0，3，2)}的词典排序为(0，0，1)，(0，3，1)，(0，3,2)，(1，2，3)，(4，0，0)。)

或者，可采用非词典排序准则。例如，多个属性的线性组合可用来对多个小块排序。这些属性可包括但不限于：该小块的分辨率(可用对数单位表达)和该小块离显示器中心的距离。在本文中，术语“排序关键字”对应于术语“排序准则”。

在本实施例中，较低分辨率小块可优先于较高分辨率小块发送，并且靠近显示器中心的小块可优先于靠近周边的小块发送，但这些属性可彼此权衡。

较佳地，可实现最小的变化来适应以上对多显示器情形的方案。在一实施例中，显示器编号可被添加为额外的字典顺序排序关键字。因而，第一显示器可在任意小块相关于第二显示器发送之前(根据其它排序关键字)完全精细化(refine)。

在另一实施例中，显示器编号可以是线性组合中所包括的一个附加变量，从而允许显示器编号以某些方式与分辨率和到显示器中心的接近度权衡。在又一实施例中，显示器可共存于虚构的“共用空间”中，并且分辨率和与中心的接近度排序关键字可与前面一样使用。“共用空间”是建立多个显示器之间的虚构空间关系的概念空间，就像它们是单个更大显示器的区域一样。限定该虚构空间关系确定了区分多个显示器中多个小块的优先级所需的所有参数。

图7是根据本发明一个或多个实施例的可包括物理显示器(屏幕)702和两个虚拟显示器704、706的“共用空间”700的框图。物理显示器702较佳地以正常大小处于“共用空间”700的中心。虚拟显示器V1704和V2706较佳地在两侧，并且V2较佳地缩小，从而其像素较佳地是物理显示器的像素的线性大小的一半。这表示，假设小块的排序顺序是纯粹的字典顺序，则V1706中各分辨率水平的内容较佳地在物理显示器的相应分辨率之后从服务器发送到客户机(因为V1离开该空间的中心比物理显示器上的任一点都远)。V2706中的分辨率可在已经以两倍精细的分辨率发送了物理显示器702和V1704的所有小块之后发送。可以理解，“共用空间”700不必对应于任何真实的较大显示器或存储器地址空间。“共用空间”700仅仅是为了在概念上便于建立不同显示器上小块属性之间的关系。

显然许多权衡是可能的。这些权衡可具有与以上字典顺序示例一样的给予物理显示器702的精细化最高优先级的结果，同时使用使物理显示器聚焦所不需要的任何额外时间和带宽来继续精细化虚拟显示器704、706。权衡可替换地在物理显示器已大部分但尚未完全聚焦之后开始精细化虚拟显示器。在物理显示器702已大部分聚焦之后，物理和虚拟显示器704、706可共享带宽资源以协调地精细化。

如果集合中的图像是JPEG2000图像，则给定图像的任何数据子集本身可包括一个JPEG2000图像文件。在一图像的导航期间，客户机可从服务器逐步下载图像数据，从而补充客户机图像子集的质量，并给予客户机创建逐步精确地接近全图像的JPEG2000文件的能力。

如果客户机已导航了图像中的任一处，或者已经以全分辨率查看整个图像达足够长的时间以至于发送出所有图像数据，则客户机可对该图像重新创建整个原始JPEG2000文件。如果客户机仅靠近大图像的一部分缩放，则客户机仍然可创建JPEG2000文件，但除了客户机放大之处之外它将缺乏细节。JPEG2000的该属性也可被扩展到其它多分辨率文档类型。如果客户机不再放大到超过给定分辨率，则没有有关超过该给定分辨率的图像内容的信息可用。在该情形中，可由客户机创建和/或存储的JPEG2000图像的版本可具有比该图像的原始版本低的整体分辨率。

上述虚拟显示器情形的一个应用是改善对来自相机的图像下载时间较长的问题。在一个或多个实施例中，相机或启用相机的移动设备可作为服务器操作，并且PC可作为客户机操作。

在一个或多个实施例中，当相机和PC相连时，不启动全部图像向PC的耗时批量下载，而是PC可快速浏览相机上可用的图像全集。在导航期间，可选择一组图像并将其置入保存笔。注意，如果将相机上的所有图像全部下载到PC，则完成该传送所需的总时间保持为与现有技术相同。然而，对于缩略图发送的密切相关问题，本方法可提供优于图像的常规串行下载的许多优点，如以下所列示和讨论的。本发明并不限于以下所列示的特征。

相机或其他移动设备上的图像全集的图像下载和用户导航在使用带宽时可以是并发和协作的(实际上，导航仅仅影响各小块从服务器向客户机的发送顺序)。

如果PC的显示器比移动设备的显示器大，则可作出有关哪些图像要下载、哪些要保留在移动设备上、以及哪些图像要丢弃的较佳选择，而在判定之前不会引起全集下载的延迟。

分别在PC和移动设备(假设它还具有显示器)上浏览的体验较佳地是简单的、并且是实际上相似的，由此增加可使用性。

如果需要保存笔中图像的较低分辨率版本，则通过减小虚拟显示器上项的大小来适当地限制下载数据的细节是较为直接的。注意，用该方式减小图像大小可较大倍数地加快下载一即每放弃一分辨率水平加快4倍一并需要PC上较少的空间。

通过按需限制虚拟显示器的大小并减少其中图像的数量，可约束分配给PC上的照片的存储器的量。此外，可对不同的照片设置不同的约束，因此可基于新近性或一个或多个其它准则来分配空间。

在一个或多个实施例中，连接的太早中断导致要下载的部分或全部图像的质量退化，而不会从下载操作中完全去除部分图像。(注意，图像的成批数据量具有极高分辨率细节，其中一部分是相机噪声，并且全部细节对于普通查看而言不如更粗糙的图像结构重要。因此，较佳的是在已经全部发送全部图像的较低分辨率图像数据之后发送所有图像的高分辨率图像数据。)图像数据的混合优先排序也是可能的，例如赞成在精细化第二集到超过缩略图细节之前完整下载照片的子集。

在一个或多个实施例中，本文所公开的一种或多种方法适于间歇连接，因为任一JPEG2000对象都可在任何时刻持续增补附加信息，同时允许浏览已经接收到的任何可视数据并与之交互。

关于以上对a)减小物理显示器上项的大小，和b)约束分配给PC上的照片的存储器的量的引用，注意典型的家庭用户可能并不想丢弃任何他们的图像(在起初挑选了这些图像之后)。如果这些用户继续将足够的存储添加到其PC中，则当然没有必要丢弃任何内容。添加存储本身可增加虚拟显示器的最大尺寸。因此，如果可创建足够大的虚拟显示器(即如果有足够可用的客户机方存储)，则可略去以上(a)和(b)的特征。

因为客户机方用户并不清楚何时可完成下载“保存笔”图像，所以需要某种形式的完成视觉指示。作为示例，当图像完成下载时，可在它们旁边显现“√”或绿色点。当“保存笔”中的所有图像都包括绿色点时，连接可无损耗地中断。

诸如使用客户机计算机(可以是PC)请求相机丢弃部分其图像的操作可超过申请人参考文献489/15P中所预期的获益于从客户机到服务器的一些附加通信。在一个或多个实施例中，客户机方还可指示服务器方(可以是诸如数码相机或移动电话等移动设备)起动它自己的客户机方，并创建它自己的视图以接收来自PC的内容。

这类似于在万维网环境中开发的“推”(push)方法。PC可呈现PC上的内容的相机/移动电话“视图”，因而(例如)对从PC上传到相机的图像显示上述绿色完成点。图5的各个双向箭头可使用“推”或“拉”(pull)配置来实现。具体地，可从客户机方510(“拉”)或从服务器方520(“推”)控制视口设置、布置和其它导航设置。与一个设备交互的用户可互换地与另一个设备连接，由此使“拉”和“推”能同时进行。

现在枚举图5所示的可能的客户机-服务器连接，并简要描述可如何使用它们和为什么它们是有用的。

可以是相机或启用相机的移动电话的移动设备512可向用户的PC(个人计算机)102提供内容。该连接通常可替代USB电缆或蓝牙自组织无线网络。优点如上所述。

PC102可将内容返回提供给移动设备512。这可对以下应用等有用。

“皮夹照片”可从PC发送到相机或移动电话，即使那些照片并不是由该移动设备拍摄的。

PC可以是无显示器的家用电器，并且移动设备因此可被用作到存档可视材料的主要视觉接口。本环境中的移动设备可以是数码相机、启用相机的手机、PDA、或具有显示器的移动书写板PC。

第一移动设备可直接连接到另一个移动设备(“客机”)，或与之形成一个自组织网络。然后这两个移动设备可查看和共享彼此的照片。

PC可将图像上传(通过推)到远程服务器。该服务器可以是一照片共享服务，并且因此可实现在以上减小物理显示器上项的大小和约束分配给PC上的照片的存储器量的过程中预期的那类空间约束。远程服务器然后可将其集合提供给一个或多个附加PC。通常这会是一宽带连接。然而，也可采用其它连接类型。

远程服务器还可将集合提供给移动设备用户。通常这会是一个移动无线广域网。

移动设备可经由“推”(即，在移动设备的控制下)将其图像上传到远程服务器。在一个或多个实施例中，上传可以是自动化的，从而允许该移动设备通过免费地将内容传送给服务器并在传送完成后局域地删除它来透明地扩展其表观存储空间。

关于以上最后两项，注意移动设备512上的本地高速缓存可允许移动设备512仅使用本地存储来支持浏览极大的缩略图集合，即使该本地存储是有限的。如果相关信息仍然在该移动设备的本地高速缓存中，则放大最近查看的图像的细节也是可能的。

放大其细节仅在远程服务器上可用的图像可导致一模糊和无细节的图像。但是，如果移动设备在包括远程服务器108的网络上，则随着越来越多的详细图像数据被下载到移动设备512，模糊图像会逐步变得更加精细。如果移动设备不与可提供附加图像数据的网络相连，则不能向该图像提供比初始缩略图中可用的更多的细节。

低分辨率图像的综合画

本发明的一个或多个实施例可定义预计算步骤和交互式呈现算法，它们可用于各种配置以对各种应用实现以可控分辨率水平下载选定图像或图像区域。这些应用中的许多(诸如聚焦感兴趣的区域、虚拟书等)可涉及用户与图像“全域”的交互。

在一个或多个实施例中，预计算的起始点因此可以是引用各个图像的文件名、URL、或其它字符串的列表。当用户缩小到足够远以一次查看所有这些图像时，对于客户机或服务器而言一次遍历所有图像文件是不切实际的，因为有极大量的图像。例如，用单个图像在屏幕上占据2×2＝4个像素的方式，能看见数万或数十万个图像。即使这些图像支持有效的低分辨率访问，但仅仅打开和关闭10万个文件就涉及大的开销，并且在交互式时标上完成也是不切实际的。因此可能需要使用这些图像的低分辨率版本的高速缓存的表示，在本文中称为“综合画(montage)”。

在一个或多个实施例中，综合画可以是以低分辨率呈现并有效地填塞到一个矩形区域的所有图像的镶嵌或拼贴，如图8所示。可嵌入综合画图像文件或单独存储的辅助元数据可用一特定图像文件来标识该综合画图像上的矩形区域。

在一实施例中，综合画图像本身可使用缩放和扫视界面来导航。当用户放大到足够大以穷尽该综合画内的一个或多个图像的综合画版本中可用的分辨率时，该图像的元数据可向客户机提交一个或多个单个图像文件，并且客户机可使用根据这些图像文件的成像来以更高分辨率呈现这些图像。

在一个或多个实施例中，以像素为单位的综合画的总体尺寸被选择成使得其分辨率仅当放大到只可同时看到本文中称为图像“集”的少量图像的状态时才穷尽。因此，较佳地在任何给定时刻都不需要以高分辨率访问该少量以上数量的图像。在随后的缩放和扫视期间，图像流可按需打开和关闭以限制在任何给定时刻打开的高分辨率图像的数量。

导航许多高分辨率图像的以上方法产生一个限制：综合画布局较佳地是为填塞效率和设计的，但用户可能想要屏幕上图像的另一种排列。此外，用户可能想要能够在屏幕上动态地重新排列图像的布局。

在一个或多个实施例中，为了允许这样的重新排列，可使用称为“纹理映射”的图形呈现技术，该技术可用通常在现代个人计算机上经硬件加速的软件来实现。纹理映射允许“纹理”或源图像的一部分在显示器上绘制，从而可任选地重新缩放该图像、旋转它、和/或执行三维立体变换。常常支持其它经硬件加速的变换，包括色彩校正或变更、全或部分透明度、调光、遮挡和坐标重映射。综合画的低分辨率版本可被用作“纹理”，从而当用户缩小时综合画内的各个图像都可以任一方法动态地重新映射，如图9所示。可使用一个以上的纹理映射，在该情形中每一纹理映射可以是包含图像的一个子集的综合画。可使排列之间的转换变为或不变为动画。注意，当用户放大时可进行重新排列，但是因为该重新排列可导致先前不在屏幕上的图像的新的放大视图，所以新图像在开始时候会非常模糊。

在另一实施例中，纹理映射技术仅可在图像动态排列期间使用。当图像排列为静态时，可使用软件合成来组装屏幕上全部或部分的更高清晰度的重新排列综合画。该软件合成方法结合在序列号为10/790,253的美国专利申请(申请人参考文献489/2NP)中描述的多分辨率呈现技术是特别有价值的，这些技术稍早在本公开中标识。该方法可通过重新排列原始综合画的成像来有效地创建新的“显示综合画”。

纹理映射还可用来显示高分辨率图像，但在该情形中并不使用包含多个图像综合画的纹理，而是使用包含各个图像的小块的纹理。该技术还在序列号为10/790,253(申请人参考文献489/2NP)的美国专利申请中描述。

在一个或多个实施例中，综合画重新排列可用来在不求助于纹理映射的情况下支持图像的重新组织。

在一个或多个其它实施例中，纹理映射、软件呈现、或两者的任意组合可用来三维地而非在一维平面上呈现成像。三维的动态重新排列也是可能的。三维应用可包括虚拟画廊或其它走查环境、以及虚拟书。虚拟书在本文中描述，并进一步在序列号为60/619,053的临时专利申请中描述。

图10是适用于本发明一个或多个实施例的计算***1000的框图。在一个或多个实施例中，中央处理单元(CPU)1002可耦合到总线1004。此外，总线1004可耦合到随机存取存储器(RAM)1006、只读存储器(ROM)1008、输入/输出(I/O)适配器1010、通信适配器1022、用户接口适配器1006、以及显示适配器1018。

在一个或多个实施例中，RAM1006和/或ROM1008可保存用户数据、***数据和/或程序。I/O适配器1010可将诸如硬盘驱动器1012、CD-ROM(未示出)等存储设备或其它大容量存储设备连接到计算***1000。通信适配器1022可将计算***1000耦合到局域网、广域网或因特网1024。用户接口适配器1016可将诸如键盘1026和/或定位设备1014等用户输入设备耦合到计算***1000。此外，显示适配器1018可由CPU1002驱动以控制显示设备1020上的显示。CPU1002可以是任一通用CPU。注意，本文档中迄今为止和/或下面所述的方法和装置可使用诸如标准数字电路、模拟电路等任一公知技术、可用来执行软件和/或固件程序的任一公知处理器、可编程数字设备或***、可编程阵列逻辑器件、或以上的任意组合来实现。本发明的一个或多个实施例还可用存储于适当存储介质中并通过处理单元执行的软件程序来实现。

尽管在本文中已参考特定实施例描述了本发明，但可以理解这些实施例仅仅说明本发明的原理和应用。因此，可以理解可对说明性实施例进行许多更改，并且可设计其它配置而不背离本发明的由所附权利要求限定的精神和范围。

附录

标题：用于在缩放用户界面中进行精确呈现的***和方法

发明人：BLAISE HILARY AGUERA Y ARCAS

发明领域

本发明一般涉及计算机的图形缩放用户界面。更具体而言，本发明是一种用于以既在计算上高效又精确的方式来渐进地呈现可缩放可视内容的***和方法，计算上的高效能得到良好的用户响应性和高帧速率，而精确的意义在于向量图形、文本和其它非照相内容最终在不进行通常导致图像质量降低的重采样的前提下绘出。

发明背景

大多数当前的图形计算机用户界面(GUI)是使用固定空间比例的可视组件来设计的。然而，从计算机图形领域的诞生可以认识到，可视组件可以用使得它们在显示器上不具有固定空间比例，而是可被放大和缩小的方式来表示和处理。对可缩放组件的期望在许多应用领域中都是明显的；此处仅举几个例子：查看地图、浏览诸如报纸等大型的不同种类文本布局、查看数码照片的相册、以及用大数据集的可视化来工作。即使在查看诸如电子表格和报表等普通文档时，能够粗看一下文档概述，然后在感兴趣的区域上放大通常也是有用的。许多现代的计算机应用程序包括可缩放组件，诸如Microsoft_Word_和其它Office_产品(View(视图)菜单下的Zoom(缩放))、Adobe_Photoshop_、Adobe_Acrobat_、QuarkXPress_等等。在大多数情况下，这些应用程序允许对文档进行放大和缩小，但是无需对应用程序本身的可视组件进行放大和缩小。此外，缩放一般是用户与软件的交互的一个***方面，且缩放设置仅偶尔被更改。尽管对文档的连续扫视是标准(即，使用滚动条或光标来将所查看的文档向左、右、上或下平移)，但连续缩放的能力几乎总是不存在。在一种更一般化的缩放框架中，可缩放任何种类的可视内容，且缩放几乎与扫视一样是用户体验的一部分。遵循这些思路的概念使得甚至在早至1960年代¹的¹例如Stanley Kubrick在2001年的：ASpace Odyssey，Turner Entertainment公司，Time Warner公司的子公司(1968)。

电影中已经出现了未来派的计算机用户界面；而近期的电影延续了这一趋势²。从1970年代开始到现在³，已构思和/或开发了多种连续缩放界面。在1991年，这些概念中的某一些在纽约大学的Kenneth Perlin和Jacob Schwarts的美国专利5,341,466(“Fractal Computer User Centerface with Zooming Capability”)中定形。由Perlin和同事Pad开发的原型缩放用户界面Pad及其后继产品Pad++自那以来经历了一些开发⁴。然而，就发明人所知，部分地由于多种技术不足，在大量市场上尚未出现基于全ZUI(缩放用户界面)的主要应用程序，这些技术不足中的一个在本发明中得以解决。

发明概述

本发明具体化了新开发的缩放用户界面框架(下文按其运作名称称为Voss)作为基础的新概念。Voss由于其软件体系结构中有多种革新而比其前驱产品更强大、更具响应性、视觉上更引人注目且更通用。本专利特别地是关于Voss方法中针对对象小块化和非照相内容的呈现的革新之一。

多分辨率可视对象通常是以不同的分辨率或细节水平(“图像金字塔”)从一组离散的经采样图像来呈现的。在诸如3D游戏等使用了连续缩放的某些技术上下文中，将期望的细节水平夹在中间的两个相邻细节水平被混合在一起以呈现每一帧，因为情况通常并不是期望的细节水平正是由该离散组所表示的那些细节水平之一。这些技术有时被称为三线性过滤或MIP映射。所得的经内插的呈现通常对于照相内容是令人满意的，但对于按照几何图元来定义的内容，诸如文本、图形、绘图以及简而言之用户在游戏或多媒体应用程序之外与其交互的大多数可视内容而言却不令人满意。这是因为混合细节水平必然会引入模糊和混叠效应。对于这一问题的理想解决方案是完全以实时方式呈现每一帧的视图，而不依赖于预先存在的一组离散的分辨率。尽管在原则上这将允许对每一帧的完美呈现，但是它可能是不切实际的，因为通常需要太多的时间来以高质量从零开始呈现每一帧。因此，帧速率

—————————

²例如，Steven Spielberg的MinorityReport，20^th Century Fox and Dreamworks Pictures(2002)。

³早先出现在W.C.Donelson的SpatialManagement ofInformation，SIGGRAPH的Computer Graphics会议论文集(1978)，ACM出版社第203-9页中。近来的一个示例是2002年夏天推出的Zanvas.com。

⁴Perlin在http://mrl.nyu.edu/projects/zui/上描了后继开发。将会极大地降低，从而导致该方法对于交互式应用程序而言将变得毫无吸引力。

本发明涉及一种混合策略，其中通常在快速缩放和扫视期间使用具有多个离散细节水平的基于图像金字塔的方法，但是当视图足够稳定时，呈现“精确视图”并将其在若干帧上混和。由于人类视觉***在可视内容仍处于运动中时对于其细微的细节是不敏感的，因此该混合策略可以一小部分计算负荷来产生连续的“完美呈现”的错觉。

本发明的一个目的是允许在缩放用户界面中呈现文本、曲线图、图表、绘图、地图以及任何其它基于向量的内容(此处也称为向量内容)，而不会相对于普通GUI中的最高可能质量呈现降低最终图像质量。

本发明的另一目的是允许在缩放用户界面中查看任意大或复杂的基于向量的内容。

本发明的又一目的是即使在任意复杂的基于向量的可视内容最终是使用非常大量的数据来表示的情况下，以及即使在这些数据被储存在远程位置并通过低带宽网络共享的情况下，仍允许接近即时地查看这些内容。

本发明的再一目的是允许用户对向量内容进行任意程度的放大，同时维持内容的明晰、不模糊的视图并维持交互式帧速率。

本发明的还有一个目的是允许用户在保持复杂向量内容的总体外观和维持交互式帧速率的过程中进行任意程度的缩小以获得该内容的概观。

本发明的此外一个目的是在交互期间最小化用户对细节水平或呈现质量之间的转变的感知。

本发明的另有一个目的是允许在由于呈现向量内容的某些部分所需的信息不可用或由于精确呈现仍在进行中而使它们的精确呈现尚无法进行时通过模糊来适度降低图像质量。

本发明的进一步的一个目的是在向量内容的某些部分的精确呈现首先变得可用时通过锐化来适度提高图像质量。

本发明的这些和其它目的将在本领域的技术人员仔细阅读了以下说明书之后变得显而易见。

现有技术：多分辨率成像和缩放用户界面

从技术观点来看，缩放用户界面是作为视觉计算的根本的普通概念的推广，从而允许克服经典用户/计算机/文档交互模型中固有的多种限制。一个这样的限制是对于可从计算机应用程序“打开”的文档的大小的限制，因为传统上整个这样的文档必须在查看或编辑能够开始之前被“加载”。即使对特定计算机可用的短期存储器(通常是ROM)的量较大，但是仍会感受到这一限制，因为所有文档信息在打开期间必须从某一存储库(例如，从硬盘或通过网络)传送到短期存储器；由此，有限带宽可使得发出“打开”命令以及能够开始查看或编辑之间的延迟变得不可接受地长。

静态数字图像既提供了这一问题的一个极佳示例，又是对计算机科学团体如何在克服该问题时已超越用于可视计算的标准模型的说明。以下表1示出了对于典型压缩大小的各种不同图像类型，从最小的有用图像(缩略图，有时用作图标)到当今常用的最大图像的在不同带宽下的下载时间。打阴影的框表示对其难以或不可能按特定的连接速度进行交互式浏览的图像大小。

表1

图像描述	典型大小(MB，经压缩*)	下载时间
		下载时间			LAN(10Mbit)	DSL(500Kbit)	无线/调制解调器**(40Kbit)
		缩略图图像	0.001	＜1毫秒	LAN(10Mbit)	DSL(500Kbit)	无线/调制解调器**(40Kbit)	0.02秒	0.2秒
web分辨率快照	0.025	缩略图图像	0.001	＜1毫秒	0.02秒	0.4秒	5秒	0.02秒	0.2秒
web分辨率快照	0.025	媒体分辨率图像	0.1	0.08秒	0.02秒	0.4秒	5秒	1.6秒	20秒
照片质量图像	0.5	媒体分辨率图像	0.1	0.08秒	0.4秒	8秒	1.7分钟	1.6秒	20秒
照片质量图像	0.5	整页杂志图像	2.5	2秒	0.4秒	8秒	1.7分钟	40秒	8.3分钟
精美艺术或地图扫描	10	整页杂志图像	2.5	2秒	8秒	2.7分钟	33.3分钟	40秒	8.3分钟
精美艺术或地图扫描	10	华盛顿市的道路地图	40	32秒	8秒	2.7分钟	33.3分钟	10.7分钟	2.2小时
小航空综合画照片	100	华盛顿市的道路地图	40	32秒	1.3分钟???	26.7分钟	5.6小时	10.7分钟	2.2小时
小航空综合画照片	100	大航空综合画照片	1000	13.3分钟	1.3分钟???	26.7分钟	5.6小时	4.4小时	23天
夜空，6”望远镜分辨率	10000	大航空综合画照片	1000	13.3分钟	2.2小时	1.9天	23.1天	4.4小时	23天

*注意，这些数字表示中等质量的实际经压缩大小而非原始图像数据。具体地，对高达40MB的大小假定1位/像素，而对更大的图像假定0.25位/像素，这一般更可压缩。

**本地无线网络可以快得多；该数字指的是常用于无线PDA的类型的无线广域网。

目前Web上的几乎每一图像都在100K(0.1MB)以下，因为大多数用户以DSL或更低的带宽连接到Web，且较大的图像会花费太长时间来下载。即使是在本地设置中，在典型的用户硬盘驱动器上，一般也不会遇到大于500K(0.5MB)的图像。更大(即，更详细)的图像通常有用是用以下事实来证明的：普通家庭中带插图的书本、地图册、地图、报纸和艺术作品包括大量图像，这些图像如果以全分辨率数字化则大小很容易达到几十兆字节。

若干年前，缺少大图像很大程度是由于存储库中存储空间的短缺，但是硬盘驱动器技术的进步、刻录CDROM的方便以及大型联网服务器的日益普及已使得存储库空间不再是限制性因素。现在的主要瓶颈是带宽，然后是短期存储器(即，RAM)空间。该问题实际上比上表所暗示的恶劣得多，因为在大多数情况下，用户不仅仅对查看单个图像感兴趣，而且对查看整个图像集合感兴趣；如果图像大于某一适度大小，则等待一个接一个地下载图像变得不切实际。

设计了诸如JPEG2000⁵等现代图像压缩标准恰好来解决该问题。并非以线性方式(即，通常从上到下且从左到右在像素上经过一遍)储存图像内容，而是使图像基于多分辨率分解。图像首先被调整大小成一分辨率比例层次，这通常以2为因数来进行；例如，512×512像素的图像被调整大小成256×256像素、128×128、64×64、32×32、16×16、8×8、4×4、2×2以及1×1。很明显，精细的细节只能以更高分辨率来捕捉，而宽的笔划则使用少得多的信息以低分辨率来捕捉。这就是不同大小的图像通常被称为细节水平或简称LOD的原因。乍看可能会看到对于该系列不同大小图像的存储要求好像可能比对于单独的高分辨率图像的要求更高，但是实际上情况并非如此；低分辨率图像用作下一更高分辨率的“预测器”。这允许非常高效地对整个图像层次编码一实际上比单独使用高分辨率图像的非分层表示可行的更高效。

如果想像按照逐渐增大的大小的顺序在存储库中储存图像的多分辨率版本的序列，则自然的结果是当经由数据链路将图像传送到高速缓存时，用户可非常迅速地获得整个图像的低分辨率概观；当传送进展时越来越精细的细节然后将“填入”。这被称为“递增”或“渐进”传送。当被正确实现时，它具有根本上所有图像一无论有多大一都可几乎立即在空间上整体查看(尽管并不是以其全细节来查看)，即使与存储库的连接的带宽十分普通。尽管以全细节下载图像所需的最终时间量保持相同，但是发送该信息的顺序已改变，使得图像的大比例特征被首先发送；这比以全细节且按“读取顺序”从上到下和从左到右地发送像素信息对用户更有帮助。

————————————

⁵http://www.jpeg.org/JPEG2000.html

这样提前隐藏是对“打开”不适合前一节中所描述的经典应用程序模型的图像而言的新概念。现在正在想像用户能够如同下载时那样查看图像，这是因在下载开始之后不久且可能在下载完成之前很久图像的宽笔划即可用的这一事实而有用的概念。因此，应用程序强迫用户等待下载完成已经毫无意义；应用程序应当改为立即显示文档中它能显示的部分，并且在它继续“在后台”下载细节时不导致延迟或不必要地中断其与用户的交互。这要求应用程序一次性地完成一项以上任务，这被称为多线程化。注意，大多数现代web浏览器在略微不同的容量中使用多线程化：以便在显示网页的文本布局并保持对用户响应的同时下载网页上的图像。在这一情况下，可以将嵌入的图像本身视为是额外的细节水平，这增强了由网页的基本要素文本布局所构成的基本细节水平。这一类推在以后将会证明是重要的。

很清楚，图像文档的分层图像表示和渐进传送是优于线性表示和传送的进步。然而，当图像在其最高细节水平具有比用户的显示器能一次性示出的更多信息(即，更多像素)时，进一步的进展是重要的。采用当前的显示技术，这始终是对于表1中最底下四种图像的情况，但是较小的显示器(诸如PDA屏幕)可能无法示出甚至最底下八种图像。这使得缩放特征对于大图像是强制性的：如果无法放大以发现额外的细节，则查看比显示器更大的图像是无用的。

当大图像开始下载时，假定用户正在完整地查看该图像。第一细节水平通常相当粗略，使得所显示的图像会取决于在大显示区域上扩展少量可用信息所使用的“内插”的种类显现为块状或模糊。然后图像会逐渐细化，但是在某一点处它会使显示对信息“饱和”，从而使得所下载的任何额外的细节都没有任何可视效果。因此在这一点之后继续下载完全没有任何意义。然而，假定用户决定放大以更详细地查看一特定区域，从而使得图像的有效投影大小实质上比物理屏幕更大。然后，在前一节描述的下载模型中，将需要以递增的顺序下载更高的细节水平。难点是每一细节水平都包含前一细节水平约4倍的信息；当用户放大时，下载过程将不可避免地滞后。更糟的是，下载的大多数信息都被浪费，因为它是由查看区域之外的高分辨率细节构成的。很清楚，所需要的是仅下载某一细节水平的所选部分的能力一即仅可视的细节应被下载。有了这一改变，可制造不仅能够查看任意大小的图像，而且还能以任何细节水平有效地导航(即，缩放和扫视)这些图像的图像浏览***。

先前的文档访问模型本质上是串行的，这意味着信息对象的整体是以线性顺序传送的。相反，本模型是随机访问的，这意味着仅请求信息对象的所选部分，并且这些请求可按任何顺序且在延长的时间段上，即在查看会话的过程中作出。计算机和存储库现在参与扩展的对话，从而使得用户的“对话”与在显示器上查看的文档并行化。

为产生随机访问效果，方便(尽管并不是绝对必需)的是将每一细节水平细分成网格，使得网格正方形，即小块(tiIe)成为基本传送单元。每一小块以像素为单位的大小可被保持为恒定大小或以下，使得每一递增的细节水平包含大约前一细节水平的4倍的小块。较小的小块会出现在图像的边缘处，因为其尺寸可能并非正好是额定小块大小的倍数；同样，在最低细节水平，整个图像将小于单个额定小块。所得的小块化图像金字塔在图2中示出。注意，金字塔的“尖端”，即比例缩小的图像小于单个小块之处，看似图1的未小块化金字塔。JPEG2000图像格式包括刚描述的用于表示小块化的、多分辨率和随机访问图像的所有特征。

迄今为止仅考虑了静态图像的情况，但是带有应用程序专用更改的相同技术可以应用于几乎任何类型的可视文档。这包括(但不限于)大文本、地图或其它向量图形、电子表格、视频、以及诸如网页等混合文档。本文的讨论迄今为止已经隐含地考虑了仅供查看的应用程序，即其中只需定义对应于打开和绘图的动作或方法。显然其它方法也可能是合乎需要的，诸如由用于静态图像的画图程序实现的编辑命令、由用于文本的文字处理程序实现的编辑命令等。然而考虑编辑文本的问题：诸如***类型化输入等普通的动作仅仅在与底层文档有关的一定范围的空间比例上相关。如果缩小程度太大以致于文本不再清晰，则交互式编辑也不再可行。也可能会争论，如果放大成单个字母填满了整个屏幕，交互式编辑也不再可行。因此，缩放用户界面也可能将某些方法的动作限于其相关的细节水平。

当可视文档没有被内部表示为图像，而是被表示为更抽象的数据一诸如文本、电子表格条目或向量图形时一有必要推广在前一节中引入的小块化概念。对于静止图像，一旦获得即呈现小块的过程是平凡的，因为信息(一旦经解压)恰好是小块的逐个像素内容。此外，速度瓶颈通常是压缩数据向计算机的传输(例如，下载)。然而，在某些情况下，速度瓶颈在于小块的呈现；用于进行呈现的信息可能已经在高速缓存中，或者可能非常紧凑，使得下载不再会导致延迟。因此，将响应于“小块绘图请求”的已完成的、完全绘出的小块的产生称为小块呈现，并且要理解这可能是较慢的过程。它是因为所需的数据非常大量且必须通过慢连接来下载而缓慢、还是因为呈现过程本身是计算密集型而缓慢是无关紧要的。

完整的缩放用户界面以使得用户能够查看其子文档通常在空间上不重叠的大型且可能动态的合成文档的方式组合了这些概念。这些子文档进而可包含(通常不重叠的)子-子文档，依此类推。因此，文档形成了树，这是其中每一文档具有指向子文档，即孩子的集合的指针的结构，而每一子文档都包含在父文档的空间边界内。将每一这样的子文档称为节点，这借用了用于树的编程术语。尽管对所有节点以所有细节水平定义了绘图方法，但是可以仅对某些节点定义对应于应用程序专用功能的其它方法，且其动作可仅限于某些细节水平。因此，某些节点可以是可使用类似画图的命令来编辑的静态图像，而其它节点可以是可编辑文本，另一些节点可以是为查看和点击所设计的网页。所有这些都可在一公共的大空间环境一“超节点”一中共存，该超节点可通过缩放和扫视来导航。

对于实现良好的缩放用户界面，有多个直接结果，包括：

一它能够浏览非常大的文档而无需从存储库中整体地下载它们；由此即使文档大于可用的短期存储器，或文档大小以其它方式受到限制，文档也可无限制地查看。

一内容仅在导航期间才按需下载，这导致对可用带宽的最优有效使用。

一缩放和扫视是空间上直观的操作，从而允许以容易理解的方式组织大量信息。

一由于“屏幕空间”本质上是不受限的，因此无需最小化窗口、使用多个桌面、或将窗口隐藏在彼此之后以一次在多个文档或视图上工作。相反。文档可按需地排列，且用户可缩小以查看所有文档的概观，或可在特定文档上放大。这不排除重新排列这些文档的位置(或甚至是比例)以允许其任何组合同时在屏幕上以有用的比例可见的可能性。也不必排除以更传统的方法来组合缩放。

一由于缩放是导航的一个内在方面，因此能以适当的空间比例来查看任何种类的内容。

一高分辨率显示器不再意味着将文本和图像收缩至小的(有时候是难以辨认的)大小；取决于缩放水平，它们要么允许一次性查看更多内容，要么允许以正常大小和更高的保真度来查看内容。

一弱视的人只需更进一步地放大就可像视力正常的人一样容易地导航相同的内容。

这些益处紧随着对于连接到Web的普通计算机可用的信息量的***之后变得特别有价值。十几年前，ZUI允许人们查看的非常大的文档的种类是非常少的，此外这些文档会占据非常多的空间，使得很少有文档适合对大多数计算机可用的存储库(例如，40MB硬盘)。然而，当今面临的是非常不同的局势：服务器可容易地储存大量文档和文档分层结构，并且使得该信息对连接到Web的任何客户机可用。然而这些潜在大量的存储库和普通用户之间的连接的带宽远低于到本地硬盘的连接的带宽。这恰好是ZUI对于常规的图形用户界面具有最大优势的情形。

发明详述

在下文中，使用两个变量名f和g来指小块相对于显示器的采样密度。该采样密度或“相对细节水平”是取决于缩放的，它由f＝(以小块像素为单位的线性小块大小)/(以屏幕像素为单位测量的屏幕上投影的小块长度)给出。如果f＝1，则小块像素与屏幕像素为1∶1；如果f＝10，则小块中的信息比显示器能够示出的要详细得多(10*10＝100个小块像素拟合在单个屏幕像素内部)；且如果f＝0.1，则小块相对于显示器是粗略的(每一小块像素必须被“拉伸”或内插以覆盖10*10＝100个显示器像素)。将写作变量g的小块化粒度定义为高LOD的线性小块化网格大小与下一较低LOD的线性小块化网格大小之比。在前一节中考虑的JPEG2000示例中，g＝2：从概念上而言，每一小块在下一更高LOD上“***”成2×2＝4个小块。粒度2到目前为止是类似应用程序中最常见的，但是在本文中，g可以取其它值。

注意，迄今为止所描述的细节水平方案涉及按粒度g为因数分割的不同比例下的一组固定的、离散的LOD。在显示器的任何区域上绘出的图像因而通常是两个细节水平之间的加权混和，其中一个细节水平比显示器分辨率略微精细(f＞1)，而另一细节水平略微粗略(f＜1) (尽管更一般而言，如果图像区域是短暂的单个未采样LOD，或者是两个以上LOD之间的混和，则本发明也适用)。这一未经修改的方案对于由诸如数码照片或视频等采样图像定义的内容产生了视觉上引人注目的结果。然而，用户与之交互的大多数内容相反通常是向量地定义的；这包括文本以及线、矩形、圆以及其它向量图元的组合。对于向量图形元素特殊的是它们涉及数学上精确的边缘；因此对单个显示器像素的值的控制一般必须产生准确的结果。这对于诸如黑白像素的棋盘等数字填充图案也是如此。这种可视内容并不能通过迄今为止所描述的混和方法来很好地再现。所得的视觉伪像的示例在图3中示出。这些伪像包括模糊、比例变化的模糊度中的不期望的变化、以及在缩放期间移动的Moiré图案。所示的图像都具有小的像素尺寸，且被放大以清楚地示出在该像素水平发生了什么。图3(a)是纯黑白(没有混叠)地呈现的文本的一个示例；(b)是以混叠呈现的同一文本；(c)是间隔密集的线的图案；(d)是交替的黑白像素的棋盘填充图案。底行图像示出对于顶行中的精确图像的LOD混和效应。很清楚，(a)中混和文本的边缘模糊要次于(b)中顶部图像的像素级混叠的结果。另一方面，如果文本开始被适当混叠，则LOD混和将会使其进一步模糊，再次导致次最优图像。因此，(a)和(b)不产生糟糕的结果，但是很清楚在每一情况下精确的版本总是较好的。另两个图像产生更严重的错误，包括乱真的Moiré图案、闪光、斑点和模糊。

本发明定义了一种用于带有这种内容的节点的程序性小块绘图方法，从而允许它们呈现精确地，即正好以f＝1映射到显示器像素的空间精确小块。在缩放或扫视期间的每一次帧刷新时简单地调用该方法一般都极慢；该精确绘图方法可容易地取若干帧来执行，且在某些情况下仍然慢得多。这并不是对于精确绘图方法是特定的；“普通的”绘图方法也可能较慢，尤其是当它可能涉及以低带宽下载信息或者执行扩展计算的时候。然而，“普通”绘图方法的目标是在扫视和缩放的整个范围上保持相关的小块，从而使得可实现即使在呈现较慢且异步的情况下也允许平滑导航和适度图像质量降低的排队和分辨率回落方案。相反，精确小块的质量是完美的，但是对于特定视图是专用的。因此采用了一种混合方法，其中充分利用离散LOD表示的优点来允许即使在不令人满意的情况下(即，低带宽，或更一般地，缓慢小块绘图方法)也进行响应性导航，同时为视觉准确度而使用精确绘图方法。这是通过当用户停顿时请求使用精确绘图方法的精确小块实现的；这些请求排队在所有相关的固定细节水平之后。由此，精确小块是显示细化的最终阶段。在精确小块在用户扫视或缩放时变得不可使用的意义上，它们是“抛弃物”，因为用户不可能精确地扫视或缩放回到旧视图。注意，不仅仅是缩放，扫视也会使精确小块无效，因为对于小块而言要使其精确，不仅有必要使比例f恰好为1；而且小块像素还必须与显示器像素精确地对齐。精确对齐因此会在扫视期间丢失，除非扫视是按照整数个显示器像素来进行的。因此，扫视和缩放丢弃任何高速缓存的精确小块；仅当视图达到停顿时才将对于新的精确小块的请求排队。当精确小块变得可用时，它们在底层的“非精确”小块“之上”(即，使其模糊)被混和到显示中。混和随时间推移而发生，从而避免了锐度的突然变化。

本发明的总体效果是当在大量文本或其它向量图形上扫视或缩放时导航性能保持不变；在这一导航期间，所呈现的图像较不理想，但是由于图像正在运动中，因此在大多数情况下劣化并不是注意得到的。当达到停顿时，请求精确小块并在它们到达时从接近显示器的中心开始并向外扩展将它们凹入地(foveally)混和，从而导致图像的锐化。空间和时间混和一般会使得这一锐化的进展难以用肉眼来检测，但是所得的图像质量是完美的，即不受允许基于离散细节水平之间的连续内插的ZUI体系结构操作的混和和模糊操作的影响。

标题：用于在缩放用户界面中进行凹入的、无缝的渐进呈现的***和方法

发明人：BLAISE HILARY AGUERA Y ARCAS

发明领域

本发明一般涉及用于计算机的缩放用户界面(ZUI)。更具体而言，本发明是一种用于在缩放环境中渐进地呈现任意大或复杂的可视内容，同时维持良好的用户响应性和高帧速率的***和方法。尽管在某些情况下必须临时降低呈现质量以满足这些目标，但是本发明很大程度上通过充分利用人类视觉***的公知特性来掩盖这一降低。

发明背景

大多数当前的图形计算机用户界面(GUI)是使用固定空间比例的可视组件来设计的。然而，从计算机图形领域的诞生可以认识到，可视组件可以用使得它们在显示器上不具有固定空间比例，而是可被放大和缩小的方式来表示和处理。对可缩放组件的期望在许多应用领域中都是明显的；此处仅举几个例子：查看地图、浏览诸如报纸等大型的不同种类文本布局、查看数码照片的相册、以及用大数据集的可视化来工作。即使在查看诸如电子表格和报表等普通文档时，能够粗看一下文档概述，然后在感兴趣的区域上放大通常也是有用的。许多现代的计算机应用程序包括可缩放组件，诸如Microsoft_Word_和其它Office_产品(View(视图)菜单下的Zoom(缩放))、Adobe_Photoshop_、Adobe_Acrobat_、QuarkXPress_等等。在大多数情况下，这些应用程序允许对文档进行放大和缩小，但是无需对应用程序本身的可视组件进行放大和缩小。此外，缩放一般是用户与软件的交互的一个***方面，且缩放设置仅偶尔被更改。尽管对文档的连续扫视是标准(即，使用滚动条或光标来将所查看的文档向左、右、上或下平移)，但连续缩放的能力几乎总是不存在。在一种更一般化的缩放框架中，可缩放任何种类的可视内容，且缩放几乎与扫视一样是用户体验的一部分。遵循这些思路的概念使得甚至在早至1960年代¹的

————————

¹例如，Stanley Kubrick在2001年的：A Space Odyssey，Turner Entertainment公司，Time Warner公司的子公司(1968)。

电影中已经出现了未来派的计算机用户界面；而近来的电影延续了这一趋势²。从1970年代开始到现在³，构思和/或开发了多种连续缩放界面。在1991年，这些概念中的某一些在纽约大学的Kenneth Perlin和Jacob Schwarts的美国专利5,341,466(“Fractal Computer User Centerface with Zooming Capability”)中定形。由Perlin和同事Pad开发的原型缩放用户界面Pad及其后继产品Pad++自那以来经历了一些开发⁴。然而，就发明人所知，部分地由于多种技术不足，在大量市场上尚未出现基于全ZUI(缩放用户界面)的主要应用程序，这些技术不足中的一个在本发明中得以解决。

发明概述

本发明具体化了新开发的缩放用户界面框架(下文按其运作名称称为Voss)作为基础的新概念。Voss由于其软件体系结构中有多种革新而比其前驱产品更强大、更具响应性、视觉上更引人注目且更通用。本专利特别地是关于针对对象小块化、细节水平混和和呈现排队的Voss方法。

多分辨率可视对象通常是以不同的分辨率或细节水平(图像金字塔)从一组离散的经采样图像来呈现的。在诸如3D游戏等使用了连续缩放的某些技术上下文中，将期望的细节水平夹在中间的两个相邻细节水平被混合在一起以呈现每一帧，因为情况通常并不是期望的细节水平正是由该离散组所表示的那些细节水平之一。这些技术有时被称为三线性过滤或MIP映射。在大多数情况下，经MIP映射的图像金字塔是预先形成的，并在缩放操作期间被连续地保持在短期存储器(即，RAM)中；由此，任何所需的细节水平总是可用的。在某些高级3D呈现情形中，图像金字塔本身必须在动画循环中呈现；然而，在这些情况下，必须仔细地控制该第一遍呈现的复杂度，使得总体帧速率不会受损害。

在本文中，理想的是能够通过在不限量的任意视觉复杂度的内容上缩放和扫视来连续地导航。该内容可能不会快速呈现，且此外它可能不是立即可用的，而是

———————

²例如，Steven Spielberg的MinorityReport，20^thCentury Fox and Dreamworks Pictures(2002)。

⁴Perlin在http://mrI.nyu.edu/projects/zui/上描述了后继开发。需要通过低带宽连接从远程位置下载。由此，以与期望的显示帧速率(第二遍)可比的帧速率呈现细节水平(第一遍)并非总是可行的。此外，一般对所有内容将预先形成的图像金字塔保持在存储器中也是不可行的；图像金字塔必须按需呈现或重新呈现，并且该呈现与期望帧速率相比可能是较慢的。

本发明涉及用于区分与当前显示有关的图像金字塔的各部分的(可能较慢的)呈现的优先级的策略，以及用于基于部分信息，即仅图像金字塔的当前可用子集来向用户给出所呈现内容的平滑的、连续的感觉的策略。这些策略组合起来接近最优地利用了可用的计算能力或带宽，同时对因不完整图像金字塔而引起的任何图像劣化作可能最大程度的掩盖。充分利用了空间和时间混和来避免图像锐度的不连续或突然变化。

本发明的一个目的是允许在缩放用户界面中呈现经采样的(即，“像素化的”)可视内容，而不会相对于常规的三线性内插降低最终图像质量。

本发明的另一目的是允许在缩放用户界面中查看任意大或复杂的可视内容。

本发明的又一目的是即使在任意复杂的可视内容最终是使用非常大量的数据来表示的情况下，以及即使这些数据储存在远程位置且通过低带宽网络来共享的情况下，允许接近即时地查看该内容。

本发明的再一目的是允许用户对可视内容进行任意程度的放大的同时维持交互式帧速率。

本发明的还有一个目的是允许用户在保存内容的总体外观且维持交互式帧速率的过程中进行任意程度的缩小以获得复杂可视内容的概观。

本发明的另有一个目的是最小化交互期间用户对于细节水平或呈现质量之间的转变的感知。

本发明的再有一个目的是允许在详细可视内容由于呈现它所需的信息不可用或由于呈现仍在进行中而尚不可用时通过连续地模糊来适度降低图像质量。

本发明的一个进一步目的是在可视内容的某些部分的呈现首先变得可用时通过适度锐化来适度提高图像质量。

本发明的这些和其它目的在本领域的技术人员阅读了以下说明书之后将变得显而易见。

现有技术：多分辨率成像和缩放用户界面

表1

图像描述	典型大小(MB，经压缩*)	下载时间
		下载时间			LAN(10Mbit)	DSL(500Kbit)	无线/调制解调器**(40Kbit)
		缩略图图像	0.001	＜1毫秒	LAN(10Mbit)	DSL(500Kbit)	无线/调制解调器**(40Kbit)	0.02秒	0.2秒
web分辨率快照	0.025	缩略图图像	0.001	＜1毫秒	0.02秒	0.4秒	5秒	0.02秒	0.2秒
web分辨率快照	0.025	媒体分辨率图像	0.1	0.08秒	0.02秒	0.4秒	5秒	1.6秒	20秒
照片质量图像	0.5	媒体分辨率图像	0.1	0.08秒	0.4秒	8秒	1.7分钟	1.6秒	20秒
照片质量图像	0.5	整页杂志图像	2.5	2秒	0.4秒	8秒	1.7分钟	40秒	8.3分钟
精美艺术或地图扫描	10	整页杂志图像	2.5	2秒	8秒	2.7分钟	33.3分钟	40秒	8.3分钟
精美艺术或地图扫描	10	华盛顿市的道路地图	40	32秒	8秒	2.7分钟	33.3分钟	10.7分钟	2.2小时
小航空综合画照片	100	华盛顿市的道路地图	40	32秒	1.3分钟	26.7分钟	5.6小时	10.7分钟	2.2小时
小航空综合画照片	100	大航空综合画照片	1000	13.3 分钟	1.3分钟	26.7分钟	5.6小时	4.4小时	23天
夜空，6＂望远镜分辨率	10000	大航空综合画照片	1000	13.3 分钟	2.2小时	1.9天	23.1天	4.4小时	23天

设计了诸如JPEG20005等现代图像压缩标准恰好来解决该问题。并非以线性方式(即，通常从上到下且从左到右在像素上经过一遍)储存图像内容，而是使图像基于多分辨率分解。图像首先被调整大小成一分辨率比例层次，这通常以2为因数来进行；例如,512×512像素的图像被调整大小成256×256像素、128×128、64×64、32×32、16×16、8×8、4×4、2×2以及1×1。很明显，精细的细节只能以更高分辨率来捕捉，而宽的笔划则使用少得多的信息以低分辨率来捕捉。这就是不同大小的图像通常被称为细节水平或简称LOD的原因。乍看可能会看到对于该系列不同大小图像的存储要求好像可能比对于单独的高分辨率图像的要求更高，但是实际上情况并非如此；低分辨率图像用作下一更高分辨率的“预测器”。这允许非常高效地对整个图像层次编码一实际上比单独使用高分辨率图像的非分层表示可行的更高效。

如果想像按照逐渐增大的大小的顺序在存储库中储存图像的多分辨率版本的序列，则自然的结果是当经由数据链路将图像传送到高速缓存时，用户可非常迅速地获得整个图像的低分辨率概观；当传送进展时越来越精细的细节然后将“填入”。这被称为“递增”或“渐进”传送。当被正确实现时，它具有根本上所有图像一无论有多大一都可几乎立即在空间上整体查看(尽管并不是以其全细节来查看)，即使与存储库的连接的带宽十分普通。尽管以全细节下载图像所需的最终时间量保持相同，但是发送该信息的顺序已改变，使得图像的大比例特征被首先发送；这比以

——————————

⁵ http://www.jpeg.org/JPEG2000.html

全细节且按“读取顺序”从上到下和从左到右地发送像素信息对用户更有帮助。

为产生随机访问效果，方便(尽管并不是绝对必需)的是将每一细节水平细分成网格，使得网格正方形，即小块(tile)成为基本传送单元。每一小块以像素为单位的大小可被保持为恒定大小或以下，使得每一递增的细节水平包含大约前一细节水平的4倍的小块。较小的小块会出现在图像的边缘处，因为其尺寸可能并非正好是额定小块大小的倍数；同样，在最低细节水平，整个图像将小于单个额定小块。所得的小块化图像金字塔在图2中示出。注意，金字塔的“尖端”，即比例缩小的图像小于单个小块之处，看似图1的未小块化金字塔。JPEG2000图像格式包括刚描述的用于表示小块化的、多分辨率和随机访问图像的所有特征。

对于实现良好的缩放用户界面，有多个直接结果，包括：

发明详述

对于节点在某一期望分辨率下的特定视图，存在某一组特定LOD的小块，该组小块需要被绘出以使呈现对每一屏幕像素包括至少一个样本。注意，视图正常地不会精确地落在节点的LOD之一的分辨率上，而是在两个LOD之间的中间分辨率上。因此，理想的是在缩放环境中，客户机生成这些LOD上—恰好在实际分辨率之下和恰好在实际分辨率之上一的可视小块组，并使用某种内插来基于该信息在显示器上呈现像素。最常见的情形是空间上和细节水平之间的线性内插；在图形学文献中，这通常被称为三线性内插。通常在3D图形体系结构中使用密切相关的技术来用于纹理化6。

不幸的是，下载(或用程序呈现)小块通常是很慢的，尤其是在快速导航期间，并非所有必需的小块在所有时刻都可用。本专利中的革新因而集中于用于在小块下载或创建慢速且异步地进行的环境中向查看者呈现逼近理想图像的空间和时间连续且相干的图像的策略的组合。

在下文中，使用两个变量名f和g来指小块相对于显示器的采样密度，这在#1中定义。将写作变量g的小块粒度被定义为某一LOD的线性小块化网格大小与下一更低LOD的线性小块化网格大小之比。这一般被假定为对于给定节点在不同细节水平上恒定，尽管此处所提出的革新中没有一个是依赖于该常量g的。在前一节中考虑的JPEG2000示例中，g＝2；概念上，每一小块在下一更高LOD上“***”成2×2＝4个小块。粒度2目前为止是类似应用程序中最常见的，但是在本文中，g可以取其它值。

1.细节水平小块请求排队。首先介绍一种用于将允许客户机根据光学仪器类

—————————————

⁶S.L.Tanimoto和T.Pavlidis，Ahierarchical data structure for ptcture processtng， Computer Graphics andImage Processing第4卷，第104-119页(1975)；Lance Williams，Pyramidal Parametrics，ACM SIGGRAPH会议论文集(1982)。

推来使合成图像逐渐“聚焦”的小块请求排队的***和方法。

面对到包含分层小块化节点的信息存储库的错误的、可能低带宽的连接的问题，缩放用户界面必须解决如何在导航期间请求小块的问题。在许多情形中，假定所有这些请求都以及时的方式来满足，或甚至它们将在信息相关的时间段期间(即，在用户在别处进行缩放或扫视之前)将全部得到满足是不切实际的。因此，理想的是智能地区分小块请求的优先级。

小块请求排队的“最外层”规则是相对于显示器递增的细节水平。该“相对细节水平”是取决于缩放的，它由数字f＝(以小块像素为单位的线性小块大小)/(以屏幕像素为单位测量的屏幕上投影的小块长度)给出。如果f＝1，则小块像素与屏幕像素为1∶1；如果f＝10，则小块中的信息要比显示器能够示出的详细得多(10*10＝100个小块像素拟合在单个屏幕像素内)；而如果f＝0.1，则小块相对于显示器较粗略(每一小块像素必须被“拉伸”或内插以覆盖10*10＝100个显示器像素)。该规则确保：如果显示器的一个区域相对于显示器的剩余部分是采样不足的(即，仅被粗略地定义)，则客户机的第一优先级将是填满该“分辨率洞”。如果洞中缺少一个以上细节水平，则对f＜1的所有细节水平的请求加上对下一较高细节水平(以允许LOD混和一参见#5)的请求以递增的顺序排队。乍看之下，可能会假定这引入了不必要的额外开销，因为严格地只需这些细节水平中最精细的一个来呈现当前视图；较粗略的细节水平是冗余的，因为它们定义了显示器上的较低分辨率图像。然而，这些较粗略的细节覆盖了较大的区域一一般是比显示器要大得多的区域。对任何节点的最粗略的细节水平实际上仅包括构造的单个小块，因此呈现节点的任何视图的客户机将总是首先将“最外面的”小块排队。

这是查看健壮性的重要一点。健壮性意味着客户机永远不会对于响应于用户的扫视和缩放要显示什么而“感到困惑”，即使在有大量积压的小块请求等待满足的情况下。客户机仅仅显示对显示器上的每一区域可用的最佳(即，最高分辨率)图像。在最坏情况下，这将是最外面的小块，即关于节点所请求的第一个小块。因此，节点的每一空间部分可以总是单独基于第一个小块请求来呈现；随后后续的小块请求可被视为是递增细化。

退回到较低分辨率小块造成了模糊图像的印象；因此总体效果是显示器在可调整大小的扫视或缩放之后会显现为模糊的。然后，当小块请求得到满足时，图像锐化。

一个简单的计算示出通过请求“冗余的”较低分辨率小块而造成的额外开销实际上是微小的一特别地，它是为使节点图像从头开始在每一处都良好定义的健壮性而付出的较小代价。

2.凹入小块请求排队。在相对细节水平内，小块请求通过递增到屏幕中心的距离来排队，如图3所示。该技术受到了人类眼睛的启发，人类眼睛具有专门用于高分辨率的中心区一视网膜中央凹(fovea)。由于缩放通常与对显示器中心区的兴趣相关联，因此凹入小块请求排队通常反映了用户在放大期间对于可视信息的隐含优先级区分。此外，由于与边缘相比用户的眼睛一般花费更多的时间来看靠近显示器中心的区域，因此显示器边缘处的残留模糊比靠近中心处的模糊更不引人注意。

通过使用凹入小块请求顺序进行放大而产生的靠近显示器中心处的锐度的瞬时相对递增也反映了缩小的自然结果一见图4。该图示出了两个交替的“导航路径”：在顶行中，用户在查看占据大约2/3的显示器的单个文档(或节点)时保持静止，假定该文档能以非常高的分辨率来显示。最初，节点内容由单个低分辨率小块来表示；然后下一LOD的小块变得可用，从而使得节点内容以具有4个(＝2x2)小块的两倍分辨率可见；之后是4×4＝16以及8×8＝64个小块的版本的分辨率。在第二行中，可跟踪如果用户在显示于顶行中的图像被完全细化之前要对打阴影的正方形进行放大时发生的情形。较高细节水平的小块再一次被排队，但是在这一情况下，仅那些部分或完全可见的小块才被排队。细化进展到与顶行的细化可比(按照显示器上可见小块的数目)的点。第三行示出如果用户随后再次缩小则有什么变得可用以及如何填充丢失的细节。尽管示出了所有的细节水平，但要注意，实际上非常精细的水平很可能在底行中被省略不进行显示，因为它们表示比显示器能够传达的更精细的细节。

注意，放大一般使显示器中心以比***更详细的小块来填充。因此，这一小块请求排序在所有导航期间一致地对显示器中心区域的锐度区分优先级。

3.时间LOD混和。如果没有进一步的细化，则当下载或构造当前显示所需的小块且首次绘出该小块时，它将立即遮挡假定表示同一内容的底层的较粗略小块的一部分；用户体验到这一转变是显示器某一区域中模糊度的突然变化。这一突然转变是不悦目的，且不必要地将用户的注意力吸引到软件实现的细节上。本发明对ZUI设计的一般方法是为用户创建无缝的视觉体验，该体验不会将注意力吸引到应当保持“在遮盖之下”的小块或软件的其它方面的存在。因此，当小块首先变得可用时，它们不是被立即显示，而是在多个帧上混和一通常在大致1秒的帧上掺和。该混和函数可以是线性的(即，新小块的不透明度是自从小块变得可用以来的时间的线性函数，使得在固定的混和间隔一半处新小块是50％透明的)、指数的、或遵循任何其它内插函数。在指数混和中，每一小的恒定时间间隔对应于不透明度中的恒定百分比变化；例如，新小块可以在每一帧处变得20％更不透明，这导致连续帧上的不透明度序列20％、36％、49％、59％、67％、74％、79％、83％、87％、89％、91％、93％等。在数学上，指数从不达到100％，但是实际上，不透明度在很短的间隔之后变得无法与100％区分。指数混和具有不透明度的最大增加出现在靠近混和的开始处的优点，这使得新信息迅速对用户可见，同时仍保持了可接受的时间连续性。在参考实现中，所造成的假象是当必要信息变得可用时显示器的区域平滑地聚焦。

4.连续LOD。在小块下载或创建滞后于用户导航的情形中，显示器的相邻区域可具有不同的细节水平。尽管先前的革新(#3)解决了细节水平的时间不连续性问题，但是需要单独的革新来解决细节水平的空间不连续性问题。如果不加以纠正，则这些空间不连续性如图像中的缝一样对用户是可见的，且可视内容更尖锐地绘制到缝的一侧。通过允许每一小块的不透明度在小块区域上可变来解决这一问题；具体地，如果小块边缘毗邻显示器上具有较低的相对细节水平的区域，则使该不透明度在该边缘上变为0。在某些情况下同样重要的是如果小块的各个角接触到较低的相对细节水平的区域，则使得该各个角上的不透明度变为0。

图5示出了对于如何可将每一小块分解成矩形和三角形，称为小块碎片，使得不透明度在每一小块碎片上连续变化的最简单的参考实现。由正方形aceg定界的小块X在左、右、上和下方分别具有相邻小块L、R、T和B，每一小块共享一边缘。它也具有共享单个角的邻居TL、TR、BL和BR。假定小块X存在。则其“内部正方形”iii是完全不透明的。 (注意，重复的小写字母表示相同的顶点不透明度值。)然而，环绕的矩形框的不透明度是由相邻小块是否存在(且完全不透明)来确定的。因此，如果小块TL不存在，则点g将是完全透明的；如果L不存在，则点h将是完全透明的，等等。将小块的边界区(在iiii外部的X)称为混和边盖(blending flap)。

图6示出了用于在碎片上内插不透明度的参考方法。部分(a)示出了恒定的不透明度矩形。部分(b)是其中两条相对边缘的不透明度不同的矩形；因此内部的不透明度简单地是基于每一内部点到两边缘的最短距离的线性内插。部分(c)示出用于在所有三个角abc的不透明度不相同时在三角形上内插不透明度的双线性方法。在概念上，每一内部点p如图所示将三角形细分成三个子三角形，它们分别具有面积A、B和C。p处的不透明度因此简单地是角上的不透明度的加权和，其中权重是三个子三角形的分数面积(即，A、B和C除以总三角形面积A+B+C)。可以容易地验证：该公式在p移至顶点时同样给出了顶点处的不透明度，且如果p在三角形边上，则其不透明度是两个相连顶点之间的线性内插。

由于碎片内的不透明度完全由其顶点处的不透明度来决定，且相邻的碎片总是共享顶点(即，没有T联结)，因此该方法确保不透明度在整个小块化表面上平滑地变化。与#3的时间LOD混和相组合，该策略使得对用户可见的相对细节水平在显示面积和时间上都是连续函数。因此避免了空间缝和时间不连续性，从而向用户呈现了令人想起将场景连续聚焦的光学仪器的视觉体验。对于导航大文档，场景逐渐聚焦的速度是到存储库的联结的带宽、或小块呈现的速度(取两者中较慢的那一个)的函数。最后，与革新#2的凹入优先化相组合，连续的细节水平以使得显示器的中心区首先聚焦的方式偏斜。

5.推广的线性MIP映射-线性LOD混和。已经讨论了用于确保节点上显现的LOD中的空间和时间平滑度的策略和参考实现。然而，尚未集中于在连续缩放操作期间混和细节水平的方式。所使用的方法是三线性内插的推广，其中相邻的细节水平在中间范围的比例上线性地混和。在每一细节水平上，每一小块碎片都具有如所绘出的不透明度，该不透明度在同一细节水平上与相邻的小块碎片在空间上平均以获得空间平滑度，并在时间上平均以获得随时间的平滑度。如果细节水平对显示器欠采样，即f<1(见#1)，则目标不透明度是100％。然而，如果细节水平对显示器过采样，则目标不透明度线性地(或使用任何其它单调函数)递减，从而如果过采样是g倍折叠(g-fold)的，则它变为0。与三线性内插一样，这导致在缩放操作上的连续混和，从而确保所感知到的细节水平从不突然改变。然而，与始终涉及两个细节水平的混和的常规三线性内插不同，本方案中混和的细节水平的数目可以是1、2或更多。大于2的数目是瞬时的，并且是由于一种以上细节水平的小块尚未在时间上完全混和而导致的。单个细节通常也是瞬时的，因为它一般在低于理想的LOD正在以100％的不透明度“代替”尚未被下载或构造并混和的较高LOD时发生。

用于呈现节点的该组小块碎片的最简单的参考实现是使用所谓的“画家算法”：所有小块碎片以从后到前的顺序呈现，即从最粗略(最低LOD)到最精细(对显示器进行了小于g倍折叠的过采样的最高LOD)。除最高LOD之外的所有LOD的目标不透明度是100％，尽管如果其时间混和未完成则它们能以较低的不透明度瞬时呈现。取决于最高LOD对显示器进行了多少过采样，如以上所讨论的，它可具有可变的不透明度。很清楚，该参考实现并不是最优的，因为它可能会呈现随后将会被后来呈现的碎片完全遮盖的碎片。通过使用类似于对3D图形学中的隐藏表面去除所使用的那些数据结构和算法，更优的实现是可能的。

6.运动预期。在快速缩放或扫视期间，对小块请求尤其困难的是跟上需求。然而在这些快速导航模式中，缩放或扫视运动往往由线性外推来本地地良好预测(即，难以在方向上作出突然倒转或变化)。由此，可以充分利用这一时间运动相干性以略微提前生成小块请求，由此改进视觉质量。这是通过在扫视或缩放时利用在运动方向上拉长、扩大或收缩的虚拟视见区来生成小块请求，由此预先清空了额外小块的请求来实现的。当导航停止时，虚拟视见区在简短的时间间隔上松弛回到实际视见区。

注意，以上革新中没有一种限于矩形小块化；它们以明显的方式推广到可在网格上定义的任何小块化图案，诸如三角形或六边形小块化、或由这些形状的混合构成的异构小块化、或完全任意的小块化。需要作出以适应这一替换小块化的唯一明确变化是定义类似于图5的小块碎片的三角测量，使得边缘和内部的不透明度都可以被独立地控制。

标题：用于多分辨率可视数据的高效、动态且连续显示的***和方法

发明人：BLAISE HILARY AGUERA Y ARCAS

发明领域

本发明一般涉及多分辨率成像。更具体而言，本发明是一种用于实时将不同分辨率或细节水平的内容的可视表示高效地混合在一起的***和方法。该方法确保即使在其中可视化的数据可能改变的高度动态环境中也有可感知的连续性，并且在任何给定时刻仅有部分数据可用。本发明在包括(但不限于)用于计算机的缩放用户界面(ZUI)在内的多个领域都有应用。

发明背景

在涉及复杂可视数据的显示的许多情形中，这些数据是作为不同细节水平(LOD)的表示的集合来分层地储存或计算的。对不同种类的数据已设计了许多多分辨率方法和表示，包括(例如，但不限于)用于数字图像的小波、以及用于3D模型的渐进网孔。在能够更“粗略”或更“精细”地执行可能冗长的计算的情况下，多分辨率方法也用于数学和物理模拟；本发明也适用于这些模拟以及其中多分辨率可视数据可交互地生成的其它情况。此外，本发明适用于其中可视数据能以不同的细节水平“在进行中”(例如从具有机器可控扫视和缩放的照相机)获得的情况。本发明是对于这一多分辨率可视数据在一个或多个2D显示器(诸如CRT或LCD屏幕)上的动态显示的一般方法。

在解释本发明时，将使用大数字图像(例如，如在JPEG2000图像格式中使用的)小波分解作为主要示例。该分解取原始像素数据，一般是常规矩形网格上的样本阵列作为其起始点。每一样本通常表示在对应于其网格坐标的空间点处测量的色彩或亮度。在某些应用程序中网格可能非常大，例如在一侧有几万个样本(像素)或更多。这一大尺寸对交互式显示会造成相当多的困难，尤其是在这类图像要在其中服务器(储存图像之处)通过低带宽连接连接到客户机(要查看图像之处)的环境中远程浏览的时候。如果图像数据以简单的光栅顺序从服务器发送到客户机，则所有的数据都必须在客户机能够生成整个图像的概观之前发送。这会耗费很长的时间。生成这一概观也可能是计算上昂贵的，它可能例如要求将20,000×20,000个像素图像向下采样到500×500个像素。不仅仅是这些操作太慢以致于不允许交互，而且它们还要求客户机具有足够的存储器来储存完整的图像数据，这在刚才所述的情况中对于8位RGB彩色图像(＝3*20,000＾2)是1.2千兆字节(GB)。

若干年前，缺少大图像很大程度是由于非易失性存储空间(存储库空间)的短缺，但是硬盘驱动器技术的进步、刻录CDROM的方便以及大型联网服务器的日益普及已使得存储库空间不再是限制性因素。现在的主要瓶颈是带宽，然后是短期存储器(即，RAM)空间。

设计了诸如JPEG20001等现代图像压缩标准恰好来解决该问题。并非以线性方式(即，通常从上到下且从左到右在像素上经过一遍)储存图像内容，而是使图像基于多分辨率分解。图像首先被调整大小成一分辨率比例层次，这通常以2为因数来进行；例如,512×512像素的图像被调整大小成256×256像素、128×128、64×64、32×32、16×16、8×8、4×4、2×2以及1×1。将每一分辨率在大小上与下一更高的一此处为2一分辨率差别的因素称为粒度，用变量g来表示。粒度可在不同的比例上变化，但是此处，作为示例而非限制，假定g在“图像金字塔”上是恒定的。很明显，精细的细节只能以高分辨率来捕捉，而宽的笔划使用少得多的信息以低分辨率来捕捉。这就是不同大小的图像或比例通常被称为细节水平或简称LOD的原因。乍看可能会看到对于该系列不同大小图像的存储要求好像可能比对于单独的高分辨率图像的要求更高，但是实际上情况并非如此；低分辨率图像用作下一更高分辨率的“预测器”。这允许非常高效地对整个图像层次编码一实际上比单独使用高分辨率图像的非分层表示可行的更高效。

如果想像按照逐渐增大的大小的顺序在服务器的存储库中储存图像的多分辨率版本的序列，则自然的结果是如果图像从服务器传送到客户机时，客户机可非常迅速地获得整个图像的低分辨率概观；当传送进展时越来越精细的细节然后将“填入”。这被称为递增或渐进传送，并且是多分辨率表示的主要优点之一。当渐进传

——————

¹http://www.jpeg.org/JPEG2000.html

送被正确实现时，根本上任何图像一无论有多大一都可几乎立即由客户机在空间上整体查看(尽管并不是以其全细节来查看)，即使到服务器的连接带宽十分普通。尽管以全细节下载图像所需的最终时间量保持相同，但是发送该信息的顺序改变，使得图像的大比例特征被首先发送；这比以全细节且以“读取顺序”从上到下且从左到右发送像素信息对用户更有帮助。

为使随机访问在动态和交互式环境中有效，方便(尽管并不是绝对必需)的是将每一细节水平细分成网格，使得网格正方形，即小块(tile)是基本传送单元。每一小块以像素为单位的大小可被保持在恒定大小或以下，使得每一递增的细节水平包含大约前一细节水平的4倍的小块。较小的小块会出现在图像的边缘处，因为其尺寸可能不会正好是额定小块大小的倍数；同样，在最低细节水平，整个图像将小于单个额定小块。因此，如果假定64×64个像素小块，则先前所考虑的512×512像素图像在其最高细节水平具有8×8个小块，在256x256的水平具有4×4个小块，在128x128的水平具有2×2个小块，而在其余的细节水平只有单个小块。JPEG2000图像格式包括刚描述的用于表示小块化的、多分辨率和随机访问图像的所有特征。

如果大型的小块化JPEG2000图像的细节要由客户机在有限大小和分辨率的2D显示器上交互地查看，则需要某一细节水平的某一组特定的相邻小块来产生准确的呈现。然而，在动态环境中，这些可能并非都是可用的。然而，较粗略细节水平的小块通常是可用的，尤其是如果用户以图像的广泛概观开始。由于较粗略细节水平的小块在空间上跨越了宽得多的区域，因此整个感兴趣的区域可能被可用小块的某一组合覆盖。这意味着可用的图像分辨率将不再在显示区域上恒定。

在先前提交的临时专利申请中，提出了用于在小块毗邻同一细节水平的空白区的情况下使小块边缘“渐隐”的方法；这避免在精细细节水平的“覆盖范围”不完整时会导致的锐度的突然视觉不连续性。为混和保留的小块的边缘区被称为混和边盖。用于显示已完成的合成图像的简单参考实现是“画家算法”：最粗略细节水平的所有相关小块(即，重叠显示区的小块)被首先绘出，然后是逐渐精细的细节水平的所有相关小块。在每一细节水平处，如所描述地在不完整区域的边缘处应用混和。如所需的结果是较粗略的细节水平仅在它们不被较精细的细节水平遮挡的地方“隐约显出”。

尽管该简单算法起了作用，但是它具有若干缺点：首先，它浪费了处理器时间，因为即使在小块最终被部分或甚至完全遮挡的情况下也要绘出小块。具体地，一个简单的计算示出每一显示器像素通常被(重新)绘出log2(f)次，其中f是显示器相对于最低细节水平的放大因数。其次，该技术依赖于帧缓冲区中的合成一这意味着在绘图操作期间的中间点处，所绘出的区域不具备其最终外观；这使得必须使用双缓冲或相关方法并在屏幕外执行合成来避免闪烁分辨率的出现。第三，除非应用了额外的合成操作，否则该技术只能用于不透明呈现一例如，它不可能确保在每一处都最终呈现具有50％的不透明度，从而允许其它内容“隐约显出”。这是因为画家算法完全依赖于一个“绘图层”(即，细节水平)完全遮挡其下一层的效果；事先并不知道细节水平在哪里会被遮挡，以及在哪里不会被遮挡。

本发明

本发明解决这些问题，同时保留了画家算法的所有优点。这些优点之一是处理任何种类的LOD小块的能力，包括非矩形或不规则小块，以及无理(irrational)网格小块，对于后者已经提交了单独的临时专利申请。小块一般由包含成为多边形的可视内容的区域的细分或棋盘形格局组成。为使小块在多分辨率环境中有用，一般期望较低细节水平的小块的面积大于较高细节水平的小块的面积；其大小差别的乘法因数是粒度g，假定(但不限于)g是常量。在下文中，将使用无理但矩形的小块网格来描述该改进算法。对其它小块方案的推广对本领域的技术人员而言应是显而易见的。

该改进算法由四个阶段组成。在第一阶段，从要绘出的所有细节水平中的所有小块网格的可见部分的叠加中在图像的参考帧中构建合成网格。当使用无理小块的革新(在单独的临时专利申请中有详细描述)时，这导致在图1中示意性地示出的不规则合成网格。该网格由对应于x和y值的网格线进一步放大，该x和y值是在每一细节水平绘出小块“混和边盖”(图1中未示出，因为所得的网格太密集且在视觉上有混淆)所需的。该合成网格可由用于网格线的x和y值的有序列表来定义，它具有绘出所有可见小块(包括其混和边盖)的所有矩形和三角形的顶点都落在x和y网格线的交点处的特性。设有平行于x轴的n条网格线以及平行于y轴的m条网格线。然后构造带有对应于网格的正方形的条目的二维n*m表。每一网格条目具有两个字段：被初始化为0的不透明度，以及最初为空的对特定小块的引用的列表。

第二个阶段是走查按照递减的细节水平(与单纯实现相反)排序的小块。每一小块覆盖整数个合成网格正方形。对于这些正方形中的每一个，检查其表条目是否具有小于100％的不透明度，并且如果是，则将当前小块添加到其列表并相应地递增不透明度。这一步骤中使用的每一小块的不透明度被储存在小块数据结构中。当该第二阶段完成时，合成网格将包含对应于要在每一网格正方形中绘出的正确个数的小块、以及用于绘出这些“小块碎片”的不透明度的条目。这些不透明度一般总计为1。完全被遮挡的低分辨率小块在该表中不在任何地方引用，而部分遮挡的小块仅在它们部分可见的小块碎片中引用。

该算法的第三个阶段是遍历合成网格，其中合成网格顶点处的小块碎片不透明度通过与同一细节水平的相邻顶点平均来调整，然后重新调整顶点不透明度以保持每一顶点处的总计不透明度(通常是100％)。这实现了在单独临时专利申请中所描述的比例空间平滑的细化版本。该细化起因于合成网格一般比革新#4中定义的每一小块3×3个网格更致密这一事实，尤其对于低分辨率小块。 (在最高LOD下，通过构建合成网格至少如所需那样的精细。)这允许平均技术实际上通过创建由更大量的小块碎片构成的更平滑混和边盖而在明显的细节水平中实现更大的平滑度。

最后，在第四阶段中，再次遍历合成网格，并且实际绘出小块碎片。尽管该算法涉及在数据上通过多遍以及一定量的簿记，但它可导致比单纯算法好得多的性能，因为最终必须进行的绘制要少得多；所呈现的每一小块碎片对用户是可见的，尽管有时候是以低不透明度可见的。某些小块可能完全不被绘出。这与单纯算法相反，单纯算法将与所显示的区域相交的每一小块完整地绘出。

该算法的另一优点是它简单地通过将总不透明度目标从100％改为某一较低的值来允许绘出部分透明的节点。这对于单纯算法是不可行的，因为除最详细的细节水平之外的每一细节水平必须以完全不透明度绘出以完全“绘图覆盖”任何底下的、仍为较低分辨率的小块。

当视图在x-y平面内相对于节点旋转时，需要进行某些细微的变化以提高效率。合成网格可用普通方式来构建，它可比对于未旋转情况下的网格大，因为较大的坐标范围沿着对角线是可见的。然而，当走查小块时，只需考虑可见的小块(通过简单的相交多边形准则)。同样，在查看区之外的合成网格正方形无需在第二或第三阶段的遍历期间更新，也无需在第四阶段中绘出。注意，可修改多种其它实现细节以优化性能；该算法此处以使其操作和本质特征最易于理解的形式来提出。本领域的熟练图形程序员能够容易地添加优化实现细节。例如，不必保持每一小块碎片的小块列表；相反，可在完成之后以正确的不透明度立即绘出每一细节水平，由此在任一时刻对每一碎片只需存储单个小块身份。另一示例性优化是可跟踪按照(面积)x(剩余不透明度)来表达的剩余的要完成的总不透明度呈现，使得该算法在已经绘出所有东西之后可提早退出；因而如果不需要低细节水平，则可以完全无需“访问”这些低细节水平。

该算法可通过使用受约束的Delaunay三角测量代替网格来储存顶点不透明度和小块碎片标识符而被推广到任意的多边形小块图案。该数据结构有效地创建了其边缘包含所有原始LOD网格中的每一边缘的三角测量；访问特定的三角形或顶点是一项高效的操作，它可在n*log(n)数量级的时间上发生(其中n是所添加的顶点或三角形的个数)。此外，所得的三角形是用于在大多数图形平台上进行图形呈现的基本图元。

标题：用于缩放用户界面中无限精度坐标的***和方法

发明人：BLAISE HILARY AGUERA Y ARCAS

发明领域

本发明一般涉及用于计算机的缩放用户界面(ZUI)。更具体而言，本发明是一种用于使用允许内容具有实际上无限精度的空间定位和大小的分层数据结构来有效地表示和导航可缩放内容的***和方法。这允许无限比例或深度的可缩放环境。

发明背景

大多数当前的图形计算机用户界面(GUI)是使用固定空间比例的可视组件来设计的。然而，从计算机图形领域的诞生可以认识到，可视组件可以用使得它们在显示器上不具有固定空间比例，而是可被放大和缩小的方式来表示和处理。对可缩放组件的期望在许多应用领域中都是明显的；此处仅举几个例子：查看地图、浏览诸如报纸等大型的不同种类文本布局、查看数码照片的相册、以及用大数据集的可视化来工作。即使在查看诸如电子表格和报表等普通文档时，能够粗看一下文档概述，然后在感兴趣的区域上放大通常也是有用的。许多现代的计算机应用程序包括可缩放组件，诸如Microsoft???_Word???_和其它Office???_产品(View(视图)菜单下的Zoom(缩放))、Adobe???_Photoshop???_、Adobe???_Acrobat???_、QuarkXPress???_等等。在大多数情况下，这些应用程序允许对文档进行放大和缩小，但是无需对应用程序本身的可视组件进行放大和缩小。此外，缩放一般是用户与软件的交互的一个***方面，且缩放设置仅偶尔被更改。尽管对文档的连续扫视是标准(即，使用滚动条或光标来将所查看的文档向左、右、上或下平移)，但连续缩放的能力几乎总是不存在。在一种更一般化的缩放框架中，可缩放任何种类的可视内容，且缩放几乎与扫视一样是用户体验的一部分。遵循这些思路的概念使得甚至在早至1960年代1的电影中已经出现了未来派的计算机用户界面；而近期的电影延续了这一趋势2。从

————————————

¹例如Stanley Kubrick在2001年的：ASpace Odyssey，Turner Entertainment公司，Time Warner公司的子公司(1968)。

²例如，Steven Spielberg的Minority Report，20^thCentury Fox and Dreamworks Pictures(2002)。

1970年代开始到现在³，已构思和/或开发了多种连续缩放界面。在1991年，这些概念中的某一些在纽约大学的Kenneth Perlin和Jacob Schwarts的美国专利5,341,466(“Fractal Computer User Centerface with Zooming Capability”)中定形。由Perlin和同事Pad开发的原型缩放用户界面Pad及其后继产品Pad++自那以来经历了一些开发4。然而，就发明人所知，部分地由于多种技术不足，在大量市场上尚未出现基于全ZUI(缩放用户界面)的主要应用程序，这些技术不足中的一个在本发明中得以解决。

发明概述

本发明具体化了新开发的缩放用户界面框架(下文按其运作名称称为Voss)作为基础的新概念。Voss由于其软件体系结构中有多种革新而比其前驱产品更强大、更具响应性、视觉上更引人注目且更通用。本专利特别地是关于对于坐标***和导航的Voss方法。

大多数图形体系结构取2D坐标***作为其出发点，该坐标***将二维(2D)空间中的一个点定义为一对数字，通常称为x和y坐标(x，y)，它们表示从原点(0，0)的水平和垂直位移。2D点偶尔也使用非笛卡尔坐标***，诸如极坐标来表示；以下讨论的实质性方面同样适用于任何这样的坐标***。在三维(3D)图形学领域中，由三元组数字(x，y，z)定义的3D坐标***通常用于表示空间中的点；再一次，这些可以是或不是笛卡尔坐标。由于显示器通常是二维的，因此需要视图相关数学变换来将三维世界坐标缩减为二维屏幕坐标。在任一情况下，所处理的坐标通常使用计算机固有的整型或浮点型数值数据类型来表示。这些数据类型通常使用16和64位(二进制数位)之间的存储器。由于其有限的表示大小，这些数字具有有限的精度一即，其小数展开仅被定义到某一有限数目的有效位。在64位浮点数的情况下，这是大约15个小数位。

当坐标***被“锁定”到显示器，即每一2D坐标对(x，y)对应于显示器表面上的一个固定点时，该精度是过高的。然而，在缩放用户界面的环境中，用户能够

——————————

³早先出现在W.C.Donelson的Spatial Management ofInformation，SIGGRAPH的Computer Graphics会议论文集(1978)，ACM出版社第203-9页中。近来的一个示例是2002年夏天推出的Zanvas.com。

⁴Perlin在http://mrl.nyu.edu/projects/zui/上描述了后继开发。

容易地进行放大，从而导致先前覆盖单个像素的区域填满了整个显示器；或者进行缩小，从而导致整个显示的内容收缩到单个像素的大小。每一这样的缩放实际上将(x，y)坐标乘以或除以约1,000的因子。因此，若干次这样的放大或缩小会用尽任何标准内部浮点表示的精度。 (例如，五次这样的缩放操作将完全用尽64位浮点数的精度。在该环境中，由离散化或“舍入误差”引起的视觉伪像在三次这样的缩放之后将开始引人注意。)然而，在缩放用户界面中，可能期望更大程度地放大或缩小。这意味着全局或世界坐标不能在不严重限制用于缩放的范围的情况下以标准机器格式来储存。

本发明通过完全省去世界坐标来解决这一问题。相反，所有的缩放和扫视操作在共同定义可缩放内容“全域”的局部坐标***的树(或更一般地，有向图)中进行。内容包括节点集合，节点本身是使用机器精度坐标的本地2D坐标***来定义的。如果使用标准的64位浮点数，则单个节点由此被限于具有每一坐标约15个精度小数位，或者按照像素来说，在一侧最多约有10^14个像素。然而，节点可以是多个子节点的父节点，每一子节点在几何上包含在父节点的边界内。子节点相对于父节点的大小和位置可在父节点的局部坐标***中指定，且由此适合机器精度数字；然而，子节点可具有它自己的局部坐标***，这允许它进而具有(例如)一侧达10^14个像素的分辨率。通过如此将子节点嵌入在子节点内，得到允许可视内容的无限深度嵌套，同时仍仅使用机器精度数字来储存、处理和执行几何计算的构造。本专利的主要部分进一步阐明了这一方案，列出了使用刚才所描述的数据结构的扫视和缩放操作的示例性实现。

本发明的一个目的是允许可扫视和可缩放的，但复杂度或分辨率任意高的有限“物理大小”的2D空间被嵌入到更大的可扫视和可缩放2D空间的明确定义区域中。

本发明的另一目的是允许通过上述嵌入过程来构造可视对象的几何树或有向图，从而允许这些树和图变得任意大和复杂，同时保留了在所得的空间中扫视和缩放的能力。

因此，本发明的一个目的是允许在当今的普通计算机体系结构上在可能无限的视觉复杂度和细节的虚拟2D全域中进行流畅的缩放和扫视。

本发明的另一目的是在可扫视和可缩放2D空间的坐标上模拟无限精度算术的行为，同时仍保留在本机机器精度数字上执行的坐标计算的计算速度。软件包MathematicaTM(_???Wolfram Research)提供了用于无限精度算术的数据结构和算法的示例性实现(然而仍不满足这些同样的准则)。

本发明的又一目的是在可扫视和可缩放2D空间的坐标上模拟无限精度算术的行为，同时避免对无限精度数字的大存储器消耗。

本发明的再一目的是允许将可重复使用的可视内容通过引用嵌入到可缩放和可扫视2D空间中，即无需更新要嵌入内容中的任何坐标或其它数据结构。由于这允许2D空间被嵌入另一空间中而无需遍历新子坐标***树，因此这一能力允许不管复杂度如何而嵌入任何2D空间。

本发明的还有一个目的是允许由于循环引用而引起的可缩放和可扫视内容中的无限嵌套：具有内容B的节点可以是具有内容A的节点的子节点(即，几何上B出现在A的内部)，且节点B进而可包含具有内容A的节点作为子节点。在其中可视内容可通过引用来重复使用和包括的复杂可缩放环境中，这一类型的重复出现可以非常容易地发生。这将具有相关联坐标***的节点树的概念推广到具有相关联坐标***的节点的有向图的概念。

本发明的另外一个目的是允许在深度放大之后进行缩小以类似于web浏览器的“后退”按钮工作，从而让用户折回他或她通过视觉导航的步骤。

本发明的再有一个目的是允许在缩小之后立即进行放大以类似于web浏览器的“前进”按钮工作，从而让用户精确地撤消任意长的缩小的效果。

本发明的进一步一个目的是允许节点具有非常大量的子节点(例如，多达10^28) 。

本发明的此外一个目的是允许节点在进行中程序性地生成它自己的子节点，从而允许在导航期间动态地定义、创建或修改内容。

本发明的更进一步目的是即使在内容最终使用非常大量的数据来表示，且即使这些数据被储存在远程位置并通过低带宽网络共享的情况下也允许接近即时地查看任意复杂的可视内容。

本发明的再进一步目的是允许用户对可视内容进行任意程度的放大，同时保持交互式帧速率。

本发明的更深一层目的是允许用户在保留内容的总体外观和保持交互式帧速率的过程中任意程度地缩小以获得复杂可视内容的概观。

约定

在下文中，将使用若干伪代码约定。数据结构(有时候称为抽象数据类型，即ADT)将使用单词Structure及其后的波形括号中的内容{...}来介绍。在波形括号内将以以下格式列出构成该结构的字段或数据元：

数据类型变量名

其中数据类型是先前定义的结构或原语类型，而变量名是字段名。注意，数据类型和函数总是以大写字母开头，而变量名或字段名总是以小写字母开头。所使用的原语类型是Boolean(可取值true或false)、Double(对应于C语言的double类型的64位浮点数)、Integer(64位带符号整型数据类型)、以及String(字符串)。结构和变量的名称以及所使用的数据类型和格式的细节是示例性的；本发明的替换实现可更改这些细节中的任一个、包括任何数目的附加字段、或使用不同的结构或内部表示。

为方便起见，立即定义以下结构，用于(分别)储存2D笛卡尔平面上点的位置以及该平面上与轴对齐的矩形：

Structure Point2D{

Double x；

Double y；

}

Structure Rectangle{

Point2D lo；

Point2D hi；

}

假定(而非限制)一数学坐标***，其中x轴为水平且向右递增，而y轴为垂直且向上递增。Rectangle中的点lo和hi表示矩形区域的左下和右上角。为引用结构的字段，将如以下伪代码中那样使用句点(“.”)：

Boolean Function IsPointlnBox(Point2D p，Rectangler){

ifp.x>r.lo.x&p.x<r.hi.x&p.y>r.lo.y&p.y<r.hi.y{

return true；

}else{

returnfalse：

}

该函数确定一个点是否在矩形内。诸如return等语句等效于其在C语言中的对应语句。所使用的句法对本领域的任何技术人员应当都是可理解的。在伪代码中将使用斜体来表示最容易用英语来描述的抽象或复杂动作。

最后，定义两个容器数据类型：Collection<T>，它储存类型为T的对象的无序集，以及Stack<T>，它在后进先出(LIFO)的基础上储存类型为T的对象。为在集合上迭代，将使用句法

for collection中的所有x{对x做某些动作...}

其中collection为类型Collection<T>，而x对容器中每一类型T的对象代入；对每一这样的对象，执行波形括号中的代码。假定处理对象的顺序是无关紧要的。对于栈，定义以下函数：

Function Push(Stack<T>stack，Tt)

Function T Pop(Stack<T>stack)

Function Integer Count(Stack<T>stack)

Function T Element(Stack<T>stack，Integern)Push函数将对象t追加到栈，而Pop函数移除压入的最后一个元素并返回它。Count返回栈中对象的个数(大于或等于零的整数)，而Element按照索引查找栈中的元素并返回该元素，但保持栈不变。遵循C约定，有效索引对第一个元素以零开始，并增长到Count(stack)-1。

发明详述

假定其中显示器是摄像机的用户界面比喻，通过该用户界面用户能够查看二维表面，即2D全域的一部分。为方便起见，尽管不必如此，但仍认为物理维度属于该全域，使得它可以例如是一米的正方形。

该全域进而包含2D对象，即节点，它们具有可视表示，并且也可以是动态或交互式的(即，视频剪辑、应用程序、可编辑文本文档、CAD绘图或静止图像)。为使节点可见，它必须与能够在显示器的某一区域上完全或部分地绘出它的呈现方法相关联。每一节点被赋予一有限精度的局部坐标***。为说明起见，假定节点是矩形并使用如上定义的Point2D和Rectangle数据结构来表示其局部坐标。由此，Rectangle将定义局部坐标***的边界。更一般地，节点可以是非矩形的和/或使用一不同的坐标***。由此，定义

Structure Node{

Rectangle coordSystem；

...

}

其中省略号(...)表示Node也将具有其它字段，这将在稍后指定。由此，用于节点(将给予数据类型Node)的最小呈现方法可能需要以下自变量：

Function RenderNode(Node node，Rectangle onDisplay，Rectangle onNode)

该示例性函数将由onNode矩形(节点坐标***中)定义的节点的一部分呈现为由onDisplay(显示器或“屏幕”坐标中)定义的显示器上的矩形。矩形onNode一般应在node.coordSystem中。为使呈现可见，矩形onDisplay应在以显示器坐标定义显示器边界的矩形内。

每一节点可具有零个或多个子节点，它通过引用来对子节点寻址。这意味着节点无需且一般不包含每一子节点的所有信息，而是仅包含提供获得该子节点所必需的信息的地址。URL(http://...)是这一地址的一个示例，但是地址可采用其它形式，例如存储器中的指针、全局唯一标识符、硬件端口等。定义抽象数据类型Address来一般地表示地址，并定义函数

Function Node Dereference(Address address)该函数给定其地址返回对节点的引用。

除子节点的地址之外，对子节点的引用必须指定子节点的大小和其在父节点的局部坐标***中的位置。由此，有Structure ChildReference{

Address address；

Rectangle placement；}

其中placement同样也应在父节点内，即在父节点的coordSystem内。由此，扩展对节点的定义：

Structure Node{

Rectangle coordSystem；

Collection<ChildReference>children；

}

不同的节点可共享某些或全部其子节点，但是可能在不同的空间排列中，从而允许同一信息的不同视图的可能性。

现在能够在某种更详细的程度上定义节点呈现方法的一般行为：

Function RenderNode(Node node，Rectangle onDisplay，Rectangle onNode){

...绘出节点...

for children中的所有childRef {

Rectangle childOnDisplay＝

CalcRectangle(onDisplay，childRef.placement)；

if Area(childOnDisplay)>＝minimumArea{

Child child＝Dereference(childRef)；

RenderNode(child，childOnDisplay，child.coordSystem)；

}

该函数现在将呈现一节点并递归地呈现其子节点。CalcRectangle函数在给定父节点的显示矩形和子节点在父节点内的位置时计算子节点所占据的显示矩形。假定例如父节点是可见的，且其所有子节点也是可见的，则该呈现方法是相当简单的。它满足重要设计准则，然而：

1.未使用全局坐标。

2.假定子节点小于其父节点，则函数在有限时间内终止，因为子节点最终都

小于minimumArea。这即使在树中有无限个节点时也是如此。

3.如果使minimumArea足够小，则截断呈现的可视效果将变得可忽略，因

为未绘出的任何节点太小以致于不会影响显示的总体外观。

4.允许重复出现：节点可以是它自己的后代。由此，由“是……的子节点”

关系定义的节点的有向图可以具有循环(使得它在图论意义上不再是树)。

如果子节点占据其父节点面积的大部分，且图循环较小(即，A→B→A

或A→B→C→A)，则这得到镜厅的效果。

用户与节点的交互，诸如将文本键入到其中，通常要求节点是可见的。可使用多种不同的模型来选择要与其发生交互的节点；例如，tab键可循环通过节点，或者在鼠标指针下的节点可以是目标。在任何情况下，作为用户交互的候选的节点数与所呈现的节点在同一数量级上，因而是有限的。可使用类似于上述呈现函数的方法来将用户交互消息传递到节点，节点可影响其将来的行为或外观。这一体系结构因而足以允许节点是完整的软件应用程序而不仅仅是静态可视对象。

除了查看节点以及与节点交互之外，用户可使用连续的缩放和扫视操作来导航。放大意味着逐渐扩大显示器上可见的内容的一部分以使其占据显示器上的更多区域；较小的物理区域然后是可见的，但是更详细。缩小是相反的操作。由于假定全域的物理维度是有界的，因此缩小是有界操作：一旦整个全域可见，进一步的缩小不能将任何新内容带入视图，而是仅仅将全域收缩到小于整个显示器的区域。因此自然的是将根节点定义为包含整个全域；它具有当完全被缩小时可见的子节点，这些子节点具有它们自己的子节点，依此类推。由于在几何上子节点必须在父节点的边界内，因此子节点一般小于父节点。然而，每一节点具有其自己的局部坐标***，因此这一构造允许甚至更精细的坐标***的层叠，且由此允许可能无限的空间分辨率的全域。这意味着放大不是有界操作：如果节点图具有循环，则可在“内容循环”中永远放大；或更有趣的是，节点图可具有非常大的或甚至无限个节点，从而允许在始终查看新内容的同时无限地放大。

为使该体系结构真正地允许无限分辨率，必须能够有效地扫视、缩放和呈现显示，而无需在任何时刻遍历(可能无限的)节点图。已看到如果最初在该节点上调用RenderNode函数，则由显示器上可见的节点占据的区域的呈现可在有限时间内发生。现在必须解决一般如何能够在动态缩放和扫视期间找到可见节点的问题。

这可用向节点结构添加字段并添加额外的地址栈数据结构来实现。扩展的Node定义为：

Structure Node{

Rectangle coordSystem；

Collection<ChildReference>children；

Rectangle view；

}

该新的view字段在节点坐标中表示节点的可见区域一即节点坐标中显示矩形的图像。该矩形可以仅部分地重叠由coordSystem定义的节点区域，如节点部分地在屏幕外的时候那样。很清楚，view字段不能总是保持对每一节点都更新，因为不必在有限时间内遍历整个节点有向图。

栈结构定义如下：

Stack<Address>viewStack；其中该栈是客户机(连接到显示器的计算机)的全局变量。为示例性的目的，假定导航以由根节点定义的内容全域的概观开始；然后该根节点被压入viewStack，且根节点的view字段可被初始化为根节点的整个区域，即

rootNode.view＝rootNode.coordSystem；

Push(viewStack，rootNode)；

示意性地，viewStack将指定由点“刺穿”的节点序列相对于显示器的地址，该地址将在本示例性实现中用作显示器的中心。该序列必须以根节点开始，但是可以是无限的。因此必须截断该序列，并且使用RenderNode中使用的同一准则来完成：序列在“刺穿”的节点变得小于某一最小大小，如上定义为minimumArea时停止。然后，当前视图由viewStack中所有节点的view字段来表示，其每一个按照节点的局部坐标***指定了当前视图。如果用户对全域进行了非常深的放大，则显示的详细位置将由栈中最后一个节点的view字段最精确地给出。然而，最后一个元素的view字段没有指定用户相对于整个全域的视点，而是仅指定了相对于其局部坐标的视点。另一方面，根节点的view字段指定了用户正在查看全域中的何处，尽管由于舍入和离散化误差根节点的view.lo和view.hi可能已折叠到一点，且该点将仅是对真实视图位置的有限精度逼近。由此，较靠近viewStack的“精细端”的节点以递增的精度但相对于全域中逐渐变小的区域指定了视图位置。

在本文中要注意，先前所定义的RenderNode函数的单纯实现是有缺陷的，因为CalcRectangle函数渐进地使用递归地向下传递的所遍历的每一节点的placement字段和onDisplay自变量来计算显示与从根节点开始的每一节点的重叠。在深度缩放中，精度的逐渐丢失会使得该计算无法给出正确的结果。在一种经纠正的版本中，CalcRectangle函数简单地用节点的view字段来替换。然后该问题缩减为以下：所有可见节点的视图(即，view字段)必须保持与用户导航全域、扫视和缩放同步。无法使它们保持同步会导致节点的外观在显示器上独立于彼此地移动，而非作为结合在一起且物理上一致的2D表面来表现。

在任何导航操作起见改变视图如下进行。由于viewStack中的最后一个节点具有该视图的最精确表示，因此第一步是改变该最后一个节点的view字段；该改变的视图被认为是正确的新视图，且任何其它可见节点必须遵从。第二步是将新视图向根节点“向上”传播，这需要对栈中较早节点的view字段进行逐渐越来越小的改变。如果用户进行深度缩放，则在向上传播中的某一点，对视图的更改可以很小，使得它停止从而可被准确表示；向上传播在这一节点处停止。在向上传播的每一阶段，改变也使用未经修改的RenderNode伪代码的方法向下传播到其它可见节点。因此，首先修改最后一个节点的父节点的视图；然后在向下传播中，修改最后一个节点的“兄弟节点”。下一向上传播修改祖父节点的视图，且第二个向下传播修改第一个叔父节点，然后修改第一个表兄弟节点。向下传播如前一样在“表兄弟节点”的面积变得小于minimumArea时、或在节点完全落在屏幕之外时暂停。

扫视操作可将最后一个节点移得足够远使得它不再属于viewStack。或者，放大可将最后一个节点的子节点放大到超过minimumArea，从而需要延长viewStack，或者缩小可能使最后一个节点的面积变得小于minimimArea，从而需要截断viewStack。在所有这些情况中，最后一个节点的身份改变。这些情况在向下传播期间被检测到，这可相应地改变viewStack，从而可能使其更长或更短。

这一概念的扩展是避免响应于长时间缩小立即截断viewStack。截断viewStack仅在用户然后扫视时才必要。尽管长时间缩小将导致深度缩放的节点的view字段变得非常大(因此在数值上不准确)，但可将字段

Point2D viewCenter；添加到Node结构中，从而表示view矩形的中心点；因此，没有扫视的缩放不会更改任何节点的viewCenter字段。这一构造允许在放大回来之后立即进行程度大的放大。由于viewStack保持不变，因此用户然后可返回到先前的起始视图。这一行为类似于web浏览器的“后退”和“前进”按钮： “后退”类似于缩小， “前进”类似于放大回来。在web浏览器中，如果用户使用“后退”来返回到前一网页，但是然后点击另一链接，则在这一点处“前进”不再起作用。之后点击另一链接因此类似于在缩小之后扫视。

Zeno高速缓存：

一种用于增加对于可变可压缩数据对象的最近最常使用(MRU)高速缓存的

有效性的***

介绍

级数y(n)＝n^-p的无穷和对p>1是有穷的，其中n从1到无穷大。类似地，y＝1/b^n的和对b>l是有穷的。 (例如，在后一情况下，如果b＝2，则该和恰好为2。)像这样的收敛级数的概念可用于实现称为Zeno高速缓存(以著名的Zeno悖论来命名)的高度有效形式的数据高速缓存。Zeno是非常快以致于一步(为辩论起见，可认为他每秒跨一步)就跨越了到任何跑道的终点的距离的一半的奔跑者；当然，悖论是尽管每一步都向前进，但他永远不能跑完该路程。该悖论容易地相关于以上b＝2且从n＝2到无穷大求和的1/b^n级数。

现有技术

“MRU高速缓存”是一种用于在客户机-服务器***中实现客户机方存储器的公知概念，其中MRU代表“最近最常使用”。假定服务器能够访问客户机并能够向其提供大量数据对象，这些数据对象总计占据了大量存储器。然而，客户机和服务器之间的可用带宽是有限的，因此对从服务器发送数据对象的客户机请求要花费时间。如果对数据对象的访问是合理地“相干的”，这意味着客户机当前需要的对象可能在不久的将来会再次需要，则MRU高速缓存是一种极大地提高客户机-服务器***的效率的方式1。其理念是客户机留出某些有限量的存储器(一般比储存服务器上的所有对象所需的要少得多)，并在该存储器中储存与适合的一样多的最近最常请求的对象。当新对象从服务器发送到客户机、且客户机的高速缓存空间已被用尽时，从高速缓存中擦除最近最少使用(LRU)对象以留出空间。将参考高速缓存的LRU和MRU端；对象总是在MRU端添加，并从LRU端擦除。 (注意，

———————

¹本领域的技术人员可以理解如上所述的相干性的概念的推广。高速缓存可在其中对一个对象的客户机请求影响不久的将来请求其它对象的可能性的概率分布的任何情况下提供性能优势。直接MRU高速缓存对其中该变更仅仅被建模为再次请求同一对象的增加的可能性的情况进行优化，但是存在推广且本发明可延及这些推广。

存储器中对象的物理布局无需对应于LRU-MRU布局；该体系结构仅要求使客户机可能以此处所描述的方式找到、***和擦除对象。线性LRU-MRU排列仅仅是一种概念上的方便。)当客户机需要数据对象时，则客户机首先检查该对象是否被高速缓存。如果是，则使用高速缓存的表示，从而消除了对昂贵的服务器请求的需要；通常，利用高速缓存的表示也将该对象“提升”到高速缓存的MRU端。该方案的性能优势是显而易见的。

Zeno高速缓存概念

在某些情形中，所提供的数据对象是可压缩的，对于本文的目的而言这意味着要受到有损数据压缩技术的作用。有损数据压缩的特征在于用比完全表示少的字节来表示数据对象的能力；较高的压缩比(意味着更多压缩)对应于较高的失真或较低的质量。对于Zeno高速缓存，数据和相关联的压缩算0法的本质应具有以下特征：

必需一数据的经压缩形式应当适用作未压缩数据的替换。在特定失真水平下，压缩表示可以是完全适当的，而在特定失真水平之上，它们作为当客户机等待未压缩的、无损的或更高质量形式的数据时的权宜之计可以是适当的。

在一个增强的实施例中，较低质量的表示是较高质量表示的子集，这意味着在客户机方使用服务器方可用的附加信息来改善表示质量只需发送丢失的数据或差异，而不重发整个新版本数据。这避免了冗余并因此大大提高了效率。

以上增强实施例通常还意味着降低对象的表示质量仅仅涉及丢弃某些数据而无需重新压缩。该特性对于效率也是重要的。

在一个增强实施例中，压缩技术从有损换算到无损(即，完美的或零失真的表示)。与上述增强实施例组合，这允许从高度有损到无损以相对于最初跨无损形式发送的极少或无额外总成本地逐步地构建数据对象的完美表示。

满足以上所有要求的数据类型和压缩技术的一个示例是以JPEG2000标准为代表的图像的小波压缩。

给定这些特性，如果存储器是“连续的”(即，没有离散化成字节)，则理论上有可能仅通过实施对象的经压缩大小遵循如在本讨论的开头给出的收敛级数的约束、而在有限量的存储器中高速缓存无限个数据对象。最近最常使用对象以低失真来表示，而最近最少使用对象逐步被压缩得更多。所有对象的大小之和仍可以是任何有穷数，如以下所示出的。

在实践中，该方案出于以下两个原因必须被修改：

存储器是离散的，使得例如在实践中将对象压缩到小于1位的表示通常是无意义的。

强迫由以上收敛公式之一描述的压缩比的连续曲线将要求访问高速缓存中的每一对象并在每次需要释放某一空间时减小其表示大小；这在理论上是无限次的操作(在实践中，可以是大量操作)。

实际版本

高速缓存中对象的个数实际上是有限的，但是通过使用Zeno高速缓存概念，这一数目可以比对常规的MRU高速缓存可行的要大得多。此外，高速缓存的对象具有以下特性：如果最近被使用则将在高速缓存中以高质量表示，且如果对象最近未被访问，则该质量将逐渐降低。在这一意义上，Zeno高速缓存可能更像人类记忆那样来工作。

由于存储器是离散的且存在最小压缩大小，在该最小压缩大小之下压缩表示对用户没有任何价值，因此高速缓存的表示将服从最小压缩比。由此，假定对象大小都相等(当然，它们无需相等)，则可被储存在高速缓存中的对象的绝对最大个数是高速缓存大小除以该最小压缩大小。

有许多方式来设计由早先给出的理论公式之一(或任何其它收敛和)定界在上方并且因此也具有有穷和的级数。也可引入一附加的约束：任何给定值顺序地重复的可能性按使用相当少量的离散值y的方式以更高的n增加。这一级数的一个示例是

1，1/4，1/4，1/16，1/16，1/16，1/16，1/64，1/64，1/64，1/64，1/64，1/64，1/64，1/64，1/256，...

很清楚，1、2个1/4、4个1/16、8个1/64等的和为2，正如y＝1/2^n一样，但是如果将该级数取到n＝16000，则仅使用大约log2(16000)即14个y值。在n＝100万时，仅使用约20个值。这意味着当必须释放高速缓存中的空间时，只需进行少量的操作来保持高速缓存的当前内容“符合”其限额一大部分已经被压缩到正确的大小。

许多其它序列也满足必要的准则。另外，有可能使用理论上不收敛(即，其和是无穷的)的级数，因为在实践中在任何情况下都对有穷个数的项求和。

推广

随机推广。可使用随机算法来以多种方式改进该基本算法。以上2*1/4、8*1/16等级数的主要缺点来自于其强度一其少量的假定值。也可使用随机选择来以加权方式“挤压”高速缓存元素的一随机子集，直到释放了某一目标量的空间。这能起作用是因为高速缓存中的确切位置对于大n变得越来越不重要。挤压量(在某种程度上)也可以是随机的。使用像这样的随机方法可消除对象质量中明显的不连续性或阈值。

除了仅仅MRU/LRU之外，高速缓存还可涉及关于接着可能需要哪些对象的智能猜测；由此较不可能需要的对象可在具有将来需要的较高可能性的对象之前“挤压”。这可与随机算法相结合。

权利要求书：

基本如所描述的一种MRU/LRU高速缓存***。

用于对大文本、元数据和其它相干访问非图像数据进行空间编码的方法

近来，已引入了诸如JPEG2000/JPIP1等图像压缩标准来满足所需的工程目标：使得非常大的图像(例如，大小为千兆像素)能够通过低带宽通信信道从服务器递增地或选择性地递送到客户机。当以全分辨率查看这些图像时，在任何给定时刻仅有限的区域可适合客户机的图形显示器；新标准朝向选择性地访问这些区域并通过通信信道仅发送与该区域相关的数据来调整。如果该“感兴趣的区域”，即ROI连续地改变，则客户机和服务器之间通过低带宽信道的连续对话可继续将该区域的客户机表示保持在ROI准确度之内。

本发明涉及这些可选择性解压的图像压缩和传送技术对于文本或其它非图像数据的扩展。在最简单的例示中，想像例如James Joyce的书Ulysses等大文本。可通过将每一章节放入其自己的列来格式化该文本，其中对顺序章节的列从左到右排列。列被假定为具有以字符为单位的最大宽度，例如100。图2示出了以此方式编码为图像的整个Ulysses文本，其中每一文本字符对应于单个像素。图1中的像素强度值简单地是对应字符的ASCII码。由于灰度级像素和ASCII字符都适合8位(值0-255)，因此像素值与字符之间的对应性是相当自然的。Ulysses以普通ASCII表示(即，作为.txt文件)的全部文本是1.5MB，这可能太大以致于无法通过窄带宽通信信道整体传送。被编码为无损JPEG2000的图1的ASCII文本图像是2.2MB。如果书的字符在长度上更多地是相等的，则该大小在某种程度上可被减小，导致文本图像中较少的空余空间(编码为0)。然而，比总体文件大小重要得多的是普通的JPIP服务器向客户机选择性地且递增地提供该文件的能力。以足以阅读字符的缩放水平(这要求客户机方显示器上多于1像素/字符)查看该文本的任何客户机可使用JPIP来仅请求文本的相关部分。该操作是高效的，且在使得无法下载整个文本的条件下，甚至对于到服务器的非常低的带宽连接，对该文本的读者也可实现足够的性能。

注意，可使用特别为对大文本的选择性访问而设计的客户机/服务器技术来实现类似的效果，但是文本图像方法(如此称呼它)具有优于常规实现的多个优点：

———————————

¹例如参见David Taubman的Kakadu实现，www.kakadusoftware.com。Taubman是JPEG2000 ISO标准委员会成员。

它使用为非常大的数据量设计的现有技术和协议

它容易地按比例放大到大小为许多千兆字节或更多的文本，而没有任何性能降低

由于访问固有地为二维的，因此在许多情况下(例如，当文本如在Ulysses情况中那样要按列查看时)该方法比将文本作为一维串来处理的方法要高效得多

由于在JPEG2000中使用了小波，因此文本服从多分辨率表示；尽管文本不能以除最终(最详细)分辨率之外的分辨率来阅读，但是对较低分辨率小波的较宽的空间支持自然地为靠近感兴趣区域的文本提供了智能的客户机方高速缓存；在滚动期间移动ROI因而是高度有效的。

扩展该方法来处理格式化文本、Unicode或其它元数据是直截了当的，因为所有这些数据都可使用可能带有嵌入的转义序列的ASCII文本串来表示。

在许多应用中，JPEG2000用作一种有损压缩格式，这意味着解码的图像字节不必与原始字节相同。很清楚，如果图像字节表示文本，则有损压缩是不可接受的。然而，JPEG2000的设计目标之一是有效地支持无损压缩，因为这在成像领域的某些分区(例如，医学和科学)中是重要的。与通常能按24∶1来容易地压缩的视觉上可接受的有损图像相比，用于照片图像的无损压缩比通常仅在2∶1左右。

有损和无损图像压缩可在具有良好空间连续性的图像上最佳地操作，这意味着相邻像素的强度值之间的差异被最小化。原始的ASCII编码从这一观点来看很明显不是最优的。改进该编码的一种非常简单的方式是在文本中按照频率对字符重新排序，或者简单地在英语语言中，从最高频率到最低频率重新排序：代码0保留空白间隔，代码1变为间隔字符，代码2及之后的代码为e、t、a、o、i、n、s、r、h、1等。图2和3将文本图像与ASCII编码以及这种字符频率编码进行了比较。很清楚，像素值往往在O附近聚集；至少重要的是，一个字母和下一字母之间的差异往往被显著减小。当该频率编码的文本图像被无损压缩为JPEG2000时，文件大小是1.6MB，仅仅大于原始的ASCII文本文件(1.5MB)且比ASCII编码的文本图像小37％。采用对字母编码的进一步优化，经压缩文件大小可较好地下降到ASCII文本文件大小之下。进一步优化可包括但不限于：

使用字母转换概率(Markov-1)而非仅频率(Markov-0)来形成编码

将一个字符和下一字符之间的增量或差异而非字符本身编码为像素。

采用这些增加的优化，对先前列出的优点增加的是在服务器方，准备好以此方式提供的文本实际上相对于原始ASCII进行了压缩。

本发明此处是在JPEG2000/JPIP上下文中作为选择性的图像解压技术来讨论的，但是没有关于本发明的任何内容将其限于特定的格式或协议。例如，LizardTech的MrSID格式和协议具有类似的特性，且也能起作用。

图1完整的Ulysses文本图像，原始ASCII编码(白＝O，黑＝255)

图2 Ulysses的前5个字符(截断)的文本图像。原始ASCII编码：白＝O，黑＝255

图3按照频率编码的U1ysses的前5个字符(截断)的文本图像(最简单的重映射)

权利要求书：

一种对大文本等进行空间编码的方法，包括将多个字符中的每一个的ascii值编码成一强度水平。

用于虚拟书、向导或幻灯片的非线性高速缓存

本发明涉及用于由计算机访问通常为图像的虚拟数据的新颖方法。它适用于其中可视内容由以某种确立的次序一次查看一个或几个的一系列对象构成的任何情形。

级数y(n)＝n^-p对p>l的无穷和是有穷的，其中n从1到无穷大。类似地，y＝1/b^n的和对b>l是有穷的。 (例如，在后一情况下，如果b＝2，则该和恰好为2)。像这样的收敛级数的概念可用于实现一种高效形式的数据高速缓存，如先前提交的临时申请，即附加的展示A中所描述的。它尤其适用于虚拟书(或“电子书”)、“向导”(在图形用户界面的意义上，表示用于执行多步骤过程的交互式窗口的线性进展的术语)、虚拟幻灯片或其它类似的基于虚拟内容的时间进展的显示。

现有技术

例如ACD Systems的ACDSeeTM等某些流行的图像浏览应用程序实现“向前读(read-ahead)”和“向后读(read-behind)”策略来避免虚拟图像幻灯片演示期间响应性的闪烁或缺乏。这涉及除当前图片之外还加载并解压演示中的下一和前一图像文件。当用户按下一个键时，定时器到期或者某一其它事件发信号通知图像改变，所显示的图像立即用“在后方等待”的下一图像来替换，且读取并解码后面的图像以准备好下一次转换。旧的前一图像一现在有两个图像在后面一通常从存储器中擦除，从而保持存储器中的图像数为3。“向后读”相反允许即刻用前一图像替换屏幕上的图像。实际上，该策略使得计算机总是“准备好”显示下一或前一图像(除非用户的帧前进速率超过了计算机的图像解码速率)。如果没有向前读，则当用户请求下一图像时，计算机一般必须延迟响应直到下一图像已被读取和解码，或者在解码下一图像时增量地更新显示，这通常导致闪光、闪烁或以其它方式分散注意的转换。这些损害对用户而言都是令人讨厌的。

向前读/向后读的不利方面如下：

- 用户不能在不消除好处、重新引入延迟、缺少响应性或闪烁的情况下向前或向后跳过一个以上图像；

- 如果用户比图像可被完全解压的速率更快地在图像中向前或向后移动，则该好处再一次被消除；

- 存储器使用是保持当前图像所需的三倍(假定所有图像大小相同)。

发明细节

本发明结合多分辨率成像扩展了向前读/向后读的概念。多分辨率成像能以分辨率阶梯来解压，例如全大小、半大小(在每一边上)、四分之一大小、八分之一大小等等。一般而言，以1/8大小解压图像所需的时间应当是以全分辨率解压该图像所需时间的1/8；并且当然，需要1/8的存储器来保持1/8大小的图像。

在其最简单的例示中，本发明涉及在存储器中保持当前图像的完整表示、下一和前一图像的半大小表示、前一图像之前和下一图像之后的图像的四分之一表示，依此类推。可以容易地验证，图像大小的双边无穷和是...+1/16+1/8+1/4+1/2+1+1/2+1/4+1/8+1/16+...＝3。因此，存储要求与普通的向前读/先后读的要求相同。然而，在理论上，任何演示中的所有图像(或者从数学上来说无穷数目的图像)是以某一分辨率来表示的，虽然该分辨率可能非常低。在实践中，有限的图像大小和离散的存储器意味着仅有有限数目的图像适合，但是该数目可能相当大。在某些应用中，可能期望仅高速缓存接下来的图像，或者仅高速缓存先前的图像；这些情况求和为2而非3。分辨率级数可被定义为函数r(i)，其中整数i＝...，-3，-2，-1，0，1，2，3，...表示相对于当前图像i＝O在图像队列中的位置。 (因此，i＝1是下一图像，而i＝-1是前一图像)。具有r(0)＝1，如果i不等于0则r(i)＜＝1，且r(i)不随绝对值|i|的增加而增加的一般特性的其它分辨率级数也可以是适当的。甚至r(i)的和不收敛到有穷数的级数也可能是合适的，因为在实践中通常不会有无穷数目的图像。

这一图像的多比例表示必须与多分辨率呈现方案相耦合来允许客户机或查看者即时响应于用户请求切换图像。这一呈现方案简单地对图像的较低分辨率表示进行内插或“向上采样”以在高分辨率屏幕上显示。当另外的更高分辨率图像数据变得可用时，显示器然后必须动态地细化以反映该新的较高质量的数据。该细化可以是瞬时的，或者它可使用逐渐混和技术或掩盖从低到高视觉质量的转换的其它技术来实现。一般而言，从非常低分辨率的图像数据内插得到模糊的外观。如果高分辨率成像替代了低分辨率的内插成像、随时间的推移而混和，则感知效果是使图像看似“逐渐聚焦”。

在转换到一不同的图像之后，查看者或客户机必须向服务器请求附加数据或从文件加载附加数据，以改善新的当前图像以及周围图像(如果是前进图像，则通常是新的下一图像，或者如果后退，则是新的前一图像)的质量。当当前图像改变时也可丢弃不需要的高分辨率数据以保存总的存储器占用区(footprint)。

该方案具有优于传统的向前看/向后看方案的许多优点，包括：

- 用户可一次向前或向后跳过任意数目的图像一较大的跳过仅仅导致新图像的较模糊的初始外观；

- 存储器占用区可以不比传统方法大，且甚至可通过使得函数r(i)更急剧地下降，例如1/64，1/16，1/4，1，1/4，1/16，1/64，...而更小。

- 用户能够“翻阅”图像的速率是不受限制的；迅速翻阅仅仅导致翻阅期间的模糊外观。由于对移动视觉刺激中细节的感知的心理学限制，翻阅期间该模糊性的部分或全部甚至可保持对用户不可见。

扩展

尽管以上讨论专门涉及改变图像分辨率，但是注意存在可使用更多或更少数据来表示图像的其它渐进式分解方案，且当附加数据变得可用时图像质量有动态改善。例如，在基于变换的编码中，附加的变换系数可逐渐改善质量。以上所述的方法自然地延及这些其它渐进式(尽管不必是多分辨率的)方案。

以上所述的本发明适用于线性图像序列，但是它可延及图像的“图”，即其中一个图像之前或之后可以(可能通过用户选择)有一个以上可能的下一或前一图像的图像集合。在这一情况下，原始函数r(i)可经由一次转换、两次转换等应用于可能在当前图像之后的所有图像；或者可以有优先级地对通过图像集的特定“路径”加权；或者可根据某一分配算法使用约束在所有可能的前导或后继图像中分配某一固定量的存储器。

最后，尽管以上讨论假定图像是静态的且先前已被压缩，但所描述的所有技术同样适用于其中图像内容被动态生成的情况，这表示计算或程序或小程序的可视界面的输出。在这一情况下，计算、程序或小程序必须能够将其自身呈现到大或小“可视显示”上，即以不同的分辨率来呈现(或使用某一非像素表示以变化的程度粗略或精细地呈现其自身)。如同图像一样，情况必须是程序以四分之一大小呈现其自身所花费的时间大约是它以全大小呈现所花费的时间的四分之一。

权利要求书：

一种方法，包括高速缓存图像，所述高速缓存的步骤是非线性的。

用于与具有大量潜在大图像的动态、远程相册有效交互的方法

诸如JPEG2000/JPIP1等近来开发的图像压缩和传送标准允许通过窄带宽通信信道来对大图像(即，大小为千兆字节)进行交互式显示。然而，这些新兴标准和技术未提供用于实现更热望目标的任何显而易见的手段：允许同时与非常大量的图像进行灵活的可视交互，其中每一图像也可能非常大。本发明允许这样的交互。以下情形既使得该***的技术能力变得具体，又描述了通过该技术允许的某些应用。

情形#1a。用户将其整个数字照片(每张有5兆像素)集合保存在其笔记本计算机的硬盘上。她是一个殷切的摄影者，且在若干年之后，该集合总共有25,000个图像。她使用本发明来组织该整个集合，并且能够动态地重新排列照片以将它们按照日期、大小、颜色或其它特性来分类，并提取子集。当查看该整个集合时，她可平滑且连续地缩小直到所有照片都看得见2、放大以查看单张照片的细节、或缩放到任何中间视图。

情形#lb。情形1#a的用户可将其家庭计算机配置为服务器，并且然后如在情形#1a中那样从远程客户机计算机导航整个照片集合。

情形#2a。一个艺术博物馆投资于对所有其油画的高分辨率扫描(100兆像素及以上)，并将以几十个或几百个这样的油画为特色的在线展示在空间上用描述性标题组织而放在一起。使用本发明，该展示不仅可从图书馆内本地访问，而且甚至通过低带宽通信来浏览该集合的远程用户也可如在情形#1a和#1b中那样扫视和放大或缩小以导航这些素材。

情形#2b。艺术博物馆创建了表示博物馆建筑物的虚拟三维空间，该3D模型内所有艺术品的高分辨率扫描都在其“地理上正确的”位置上。或者，三维虚拟博物馆空间可不用物理对应物来创建。这些3D模型可按类似于情形#2a的2D形式的方式本地或远程导航。对放大的二维操作的模拟是移至靠近图像表面，并且缩小类似于从图像表面移开。

————————————

²假定显示器是高分辨率的(1920x1200＝2.3兆像素)，则同时查看25,000个图像的整个集合给出每一图像大约为92个正方形像素，因此每一“缩略图”约为一边有sqrt(92)＝9.6像素。令人惊讶的是，甚至这些非常小的缩略图也通常能够暗示图像上的字符，且至少来自具有相似色域或成分的细节的图像将可被清楚地识别。

情形#2c。博物馆还以非常高的分辨率扫描了其14世纪的祈祷书，从而得到>100兆像素的数百个图像。这些图像被组装成一“虚拟书”，它是在线可用的对原始图像的高质量代用物。该书可用三维中可翻动的页面来本地或远程导航。

JPEG2000/JPIP中与允许本发明有关的关键特征是：

多比例图像表示，使得能够以低于全分辨率的分辨率阶梯解压图像文件。在大多数情况下，这些分辨率按照2的幂从原始图像向下采样，例如，如果原始图像是512×512像素，则256×256、128×128、64×64、32×32、16×16、8×8、4×4、2×2和1×1表示也是可用的。1×1形式仅仅是对应于整个图像的平均色的单个像素值；逐渐变高的分辨率逐渐增加更多细节。对于某些图像，最低分辨率(例如，4×4、2×2和1×1)可能不是可用的。

选择性地仅以给定分辨率解压图像的一部分(称为“感兴趣的区域”，即ROI)，例如来自512×512图像的256×256分辨率的32×32像素部分的能力。

在服务器上有效地执行该多比例选择性解压(即，不解析整个图像文件)，以及仅向远程客户机提供重建感兴趣的区域和分辨率所必需的限量信息的能力。所发送的信息量应当大致与ROI的大小成正比。

满足这些要求的任何其它图像压缩格式/协议都是同等适用的。在理解它如JPEG2000那样可以是基于小波的，或基于某一其它技术的基础上，将图像格式简称为“多比例”。

本发明定义了可在各种配置中用于实现以上列出的情形的预先计算的步骤和交互式呈现算法。所有这些情形涉及用户与图像“全域”的交互；因此用于预计算的起始点是引用个别图像的文件名、URL或其它字符串的列表。当用户缩小得足够远来一次性查看所有这些图像时，客户机或服务器遍历所有图像文件是不切实际的，因为可能有非常大量的图像。例如，在个别图像占据屏幕上2×2＝4个像素的状况中，视图中可以有几万或几十万个图像；即使这些图像支持有效的低分辨率访问，仅仅打开和关闭100,000个文件也涉及大的额外开销且不能在交互式时间尺度上实现。因此，有必要使用这些图像的低分辨率版本的高速缓存的表示，称为“综合画”。综合画是以低分辨率呈现且被有效地填塞到一矩形区域中的所有图像的镶嵌或拼贴，如图1所示。可被嵌入综合画图像文件或单独储存的辅助元数据用特定图像文件标识了综合画图像上的矩形区域。

图1被填塞到综合画中的多于1000个图像(各种大小的数字化地图的集合)

在本发明的最简单实现中，综合画图像本身可使用缩放和扫视界面来导航。当用户放大得足以用尽综合画图像中可用的分辨率时，元数据将客户机指引到个别图像文件，且客户机使用来自这些文件的成像来以更高分辨率呈现。选择以像素为单位的总综合画大小以使得其分辨率在其中仅有几个图像同时可见的阶段中仅在放大期间被用尽；因此从不需要一次访问多于几个图像。在随后的缩放和扫视期间，图像流按需打开和关闭以限制任何给定时刻打开的数目。

该导航许多高分辨率图像的最简单方法遭受一个主要缺点：综合画布局是为填塞效率而设计的，但是用户可能希望屏幕上有不同的视觉排列。此外，用户可能希望能够在屏幕上动态地重新排列图像布局。为了允许这一情况，可利用称为“纹理映射”的图形呈现技术，该技术可用软件来实现，但是一般在现代的个人计算机上被硬件加速。纹理映射允许“纹理”或源图像的一部分被绘制在显示器上、可任选地重新按比例缩放该图像、旋转该图像、并执行三维透视变换。其它硬件加速变换常常也得到支持，包括色彩校正或改变、全透明或部分透明、采光、遮盖、以及坐标重映射。综合画的低分辨率版本可用作“纹理”，使得当用户放大时，综合画中的个别图像可用任何方式动态地重新映射，如图2所示。可使用一个以上纹理映射，在这一情况下，每一纹理映射可以是包含图像的一个子集的综合画。

在另一增强实施例中，纹理映射技术(一般仅适用于一个或多个综合画图像的低分辨率呈现)可仅在动态重新排列期间使用；当图像排列为静态时，可使用软件合成组装屏幕上更高清晰度重新排列的综合画的全部或部分。该软件合成方法与美国专利申请No.10/790,253中描述的惰性多分辨率呈现技术相组合尤其有价值，该专利申请的副本此处作为展示A来提供。该方法实际上通过重新排列原始的综合画的成像创建了新的“显示综合画”。

有可能使用这种综合画重新排列来支持对图像的重新组织而无需求助于纹理映射。在这一情况下，排列之间的转换可以是或可以不是动画的。

进一步扩展

纹理映射、软件呈现或两者的任何组合可用于在三维而非平面上呈现成像。三维中的动态重新排列也是可行的。三维应用包括虚拟图库或其它走查环境以及虚拟书，尤其是当结合由申请人与此同时提交并作为展示B附于此的共同待决的临时申请中所描述的发明使用的时候。虚拟书应用在图3中示出。该示例也示出了该方法的扩展，其中用于局部透明度(粗糙边缘)的阿尔法通道作为除红、绿和蓝色色彩分量之外的图像信息来储存。硬件加速的纹理映射的大多数实现都支持阿尔法通道。在2D或3D中适用的另一扩展是图像的动态变形，例如当翻书时使该书的页面弯曲。

图3 3D书

本发明也可被扩展成支持除静态图像之外的可视对象，诸如可视计算或应用程序或小程序的输出。

权利要求书：

一种方法，包括在动态重新排列期间执行纹理映射以及当这一动态重新排列停止时停止这样的执行。

用于将地理空间或其它向量数据作为图像来编码和提供的方法

本发明涉及这些可选择性压缩的图像压缩和传送技术对于地理空间(geospatial)或图解数据的扩展。它组合并扩展了在先前的申请(1)作为展示A附加的Method for spatially encoding large texts，metadata，and other coherentlyaccessed non-image data(用于对大文本、元数据和其它相干访问非图像数据进行空间编码的方法)以及(2)作为展示B附加的METHODS AND APPARATUS FORNAVIGATING AN IMAGE(用于导航图像的方法和装置)中介绍的方法。在(2)中，介绍了连续的多比例道路地图呈现的概念。对于发明(2)的基础是以不同分辨率预先呈现的道路地图或其它基于向量的图的图像的“栈”，其中可视元素的类别(例如，道路类别，包括国家高速公路、州高速公路和地方道路)用不同的视觉权重以不同的分辨率来呈现。在客户机/服务器交互期间，下载一个以上这种图像的对应区域，并且客户机的显示器示出这些区域的混和组合；混和系数和要混和的图像分辨率的选择取决于缩放比例。最终结果是客户机方的用户可导航大地图(例如，美国所有的道路)、连续地缩放和扫视，而不经历任何视觉不连续性，诸如当缩放比例改变时道路类别出现或消失。相反，在每一比例下，强调最相关的类别；例如，当缩小以查看整个国家时，最大的高速公路被强烈地加权，从而使得它们清晰地突出，而在州级别时，次要的高速公路也被强烈地加权到足够清晰的程度。当用户放大到使用最详细的预呈现图像的点时，所有道路都清晰可见，且在用于地理空间数据的该较佳实施例中，所有元素以接近其物理上正确的比例示出。用于这些

—————————

最详细预呈现图像的最大合理分辨率是约15米/像素；然而，从用户观点来看，期望能够更大程度地放大。以更高的细节预呈现出于以下若干原因是不合需要的：首先，因为服务器方的文件大小变得过大(15米/像素的单个普通横向Mercator区图像可能已经是千兆像素的范围)；其次，因为预呈现图像是对于通常与高分辨率地图呈现相关联的非常粗略的那类黑白数据的低效表示；第三，因为客户机可能需要“真实的”向量数据来执行除静态可视演示之外的计算任务。例如，路线指南***可能突出道路或改变其颜色；与单独的预呈现图像相反，这仅当客户机能够访问向量数据时才能在客户机方完成。向量数据也可包括街道名、地址以及客户机必须能够灵活地布局并选择性地呈现的其它信息。将街道名标签预呈现到地图图像栈中很明显是不合需要的，因为这些标签必须取决于精确的位置和客户机视图的比例在不同的地方且以不同的大小绘出；不同的标签呈现不应在用户缩放时被彼此混和。预呈现这些数据也将消除对于字体的任何灵活性。

总而言之，向量数据(一般使用这一术语来指几何学信息和诸如地名等其它信息)在所需的呈现分辨率较高时因其本身的权利对客户机是重要的，同时是比预呈现成像更有效的信息表示。然而，注意，如果要以低分辨率呈现大区域，则向量数据可能变得过大且过于复杂，从而使得预呈现图像成为更高效的表示。然而，即使是在低分辨率下，向量数据的某些子集也是必需的，诸如主要高速公路的名称。

本发明扩展了(1)中所介绍的方法以允许空间向量数据被编码并可能连同(2)的预呈现成像一起被选择性地且递增地发送到客户机。使用现有技术，这可使用地理空间数据库来实现。数据库需要包括在空间上索引的所有相关的向量数据。这些数据库提出了许多实现上的挑战。此处，代替使用常规的数据库，使用诸如JPEG2000/JPIP所支持的空间可寻址图像来编码和供应向量数据。

在本示例性实施例中，使用三个图像或通道来表示地图数据，其每一个的深度为8位：

根据(2)，预呈现层是道路地图的预计算文字呈现；

指针层由位于或非常接近它们所引用的道路地图特征(通常是交点)的2*2个像素块构成；

数据层由在引用它们的2*2个指针上居中或靠近该指针定位的n*m个像素块构成。

由于这三个通道大小相同且彼此对准，因此它们可用不同的颜色(在计算机显示器上为红、绿、蓝，或者对于打印介质为青、品红、黄)来覆盖以产生单色图像。这些图像在图2-3中再现。图1示出了单独的预呈现层用于比较和定向。所示的地区是华盛顿州的King County，它包括西雅图和许多其市郊。图3a和3b分别是该地图的市郊和市中心区域的特写。

图1预呈现的WA，King County的道路地图

图2示出预呈现的道路(黄色)、指针(品红色)和数据(青色)的彩色版本

图3a King County的市郊区的特写

图3b King County的市中心区的特写

如果用户导航到图3a所示地图的视图，则客户机将向服务器请求如所示出的所有三个图像层的相关部分。预呈现层(以黄色示出)是显示在屏幕上的三层中唯一照原样的一层。另外两层指定了向量数据。指针图像由在2x2的像素网格上对齐的2x2个像素块构成，每一像素网格指定了从其自己的位置到数据层中对应数据块的开始(左上角)的(x，y)向量偏移(x和y是向量的各自包括16位整数的分量，因此各自为2像素)。该对应的数据块进而以指定数据块宽度和高度的2个16位值(4像素)开始。宽度首先被指定，然后被约束为最少是2，因此避免了读取宽度和高度时的不明确。剩余的数据块可作为可包含向量、文本或其它信息的任何组合的二进制数据来对待。在图2-3的示例中，数据块包含包括街道名、地址范围和向量表示的街道地图信息。

指针和数据层像预呈现层一样是预计算的。指针和数据层的预计算包括将所有相关向量数据编码成数据块，以及尽可能高效地将指针和数据块填塞到其相应图像中。在乡村或稀疏的市郊区域(见图3a)中，特征往往是间隔良好的，导致在指针和数据图像中有大的空白区。在指针出现的地方，它们精确地落在它们所引用的特征上，且其对应的数据块进而通常精确地位于指针的中心。然而在密集的市中心区(见图3b)，特征通常太靠近指针和数据块以致于无法全部适合。因此，有必要使用一种矩形填塞算法来尝试将指针和数据块放置得尽可能靠近其期望的位置而没有任何重叠。结果在图3b中很明显：靠近西雅图的湖和海岸用对应于陆地上的特征的数据块来填充。由于所有的市中心区都是由较稀疏的区域(市郊、山或大量水)围绕的，因此总是有可能将市中心数据块放置在地图上的某处；一般而言，即使在密集的城市内，也有使得该“外流(spillover)”不会过度严重的足够的空白区。外流速率越高，地图向量数据就变得定位越差。外流在数据层图像的分辨率增加时显著降低，且总是有可能找到效率和非局部性被适当平衡的分辨率。在北美，15m/像素看似为一种好的选择。它在市郊区域是“过多的”，但是在接近城市之处，它如图2和3b所示地限制的外流。

有效的矩形填塞在计算上是一个难题；然而，在计算几何文献中有众多逼近算法用于解该难题，且本发明并不规定这些算法中的任何特定的一个。实际使用的算法涉及分层“矩形树”，它使得以下操作变快：

测试给定矩形是否与树中已有的任何其它矩形相交；

***一非重叠矩形；

找出围绕目标点p的半径r0＜＝r＜r1的环中完整的“空角” (即，毗邻已经***的接壤空白区的矩形的角)集。

用于尽可能地靠近目标点来***新矩形的“贪婪算法”然后如下继续：

尝试***中心在目标点上的矩形。如果这成功，则该算法结束。

否则，定义半径r0为该矩形的长度或宽度中的最小值的一半，以及r1＝r0*2。

找出r0和r1之间的所有“空角”，并按照递增半径来排序。

尝试将该矩形按顺序放置在这些角中的每一个上，并且在成功时，该算法结束。

如果所尝试的***没有一个成功，则将r0设为r1，将r1设为2*r0，并去往步骤3。

该算法最终总能成功地放置矩形，只要图像中的某处存在至少为正确尺寸的空白区。在它一次放置单个矩形的意义上它是“贪婪的”；它并不尝试解出尽可能高效地填塞n个矩形的整个问题。(整体算法需要定义填塞效率的明确度量，从而指定最小化浪费的空间和最小化矩形与其“目标点”之间的距离之间的期望折衷。该贪婪算法并不要求明确地指定这一折衷，如可从上述算法中清楚的。)

图4示出了用于三种情况的基本填塞算法的输出。在每一种情况下，该算法顺序地将多个矩形尽可能靠近公共点来放置。对矩形填塞问题的这一解法仅作为示例来提供。

图4贪婪矩形填塞算法的测试输出。左边主要是较小的皮状矩形；中间是较大的正方形矩形；而右边是混合。

为使该贪婪填塞算法不对地图的任何特定区域给予位置偏好，理想的是随机化矩形***的次序。在一个较佳实施例中，由此以随机次序***指针/数据块对。其它排序在某些情况下可以进一步提高填塞效率；例如，将大块***到小块之前可最小化浪费的空间。

指针总是2×2的(表示法是行x列)；然而，对于数据块，可自由地选择宽高比；以正方形像素为单位的所需块面积是由必须适合该块的数据量来确定的，但是该面积可以适合许多不同形状的矩形。例如，24字节的数据块(包括4字节的宽度和高度信息，以及20字节的任意数据)可恰好被表示为1×24、2×12、3×8、4×6、6×4、8×3或12×2。 (24x1是不合格的，因为如上所述，为使2字节的宽度在块尺寸在客户机方已知之前解码，块的宽度必须至少为2。)该块也可剩余一个字节地被表示为5×5。将以上列出的除近似因数分解5×5之外的所有因数分解的集合称为“天棚因数分解(ceiling factorization)”。对有效的天棚因数分解的要求是其面积至少是所需的面积，且没有行或列被完全浪费；例如，7×4或3×9是无效的天棚因数分解，因为它们分别可被缩减为6×4和3×8。在最简单的实现中，块尺寸可仅基于数据长度的天棚因数分解来选择；一般而言， “较正方形的”块(诸如4×6)比斜块(诸如2×12)能更好地填塞。最简单的数据块大小调整算法取决于它如何在“正方形”和浪费的字节之间折衷而选择4×6或者5×5。更复杂的块大小选择算法可自适应地选取块尺寸，作为搜索目标点附近的空白区的一部分。在一个实现中，以上算法的步骤1和4然后被修改如下：

按照期望程度对所需数据长度的天棚因数分解排序，其中偏好较正方形的因数分解并且可能以浪费的字节为代价。进而尝试在目标点p处放置尺寸由每一天棚因数分解给出的矩形。如果这些***中的任一次成功，则该算法结束。

进而对于每一“空角”c，试图在c处放置尺寸由每一天棚因数分解给出的矩形。一旦成功，该算法结束。

对该算法的进一步细化涉及指定用于交点的评分函数，它与整体优化函数一样在浪费的空间、非正方形的宽高比和与目标点的距离之间进行折衷。

这三个地图层一预呈现道路、指针和数据一中的每一个被储存为JPEG2000或类似的空间可访问表示。然而，对这三层的存储要求是不同的。预呈现道路层无需是无损的；它只需在显示时具有合理的感知准确度。在15m/像素下，可以发现0.5位/像素的无损小波压缩是完全足够的。然而，指针和数据层必须被无损地表示，因为它们包含客户机必须能够精确地重构的数据。无损压缩一般不是非常高效的；例如，典型的数字图像一般不能按照最多为2的因子来无损压缩。

对于大多数形式的有损或无损压缩，性能可通过使得图像函数的量值变小，由此占据较少的有效位来优化。因此，在增强实施例中，使用特殊的编码技术来“平坦化”原始数据。这些技术的结果从图5中可显而易见，图5示出了在“平坦化”之前和之后数据图像的同样密集填充的区域。注意，在平坦化之前，数据图像具有完整的8位动态范围，并展示出使得它非常差地压缩的高频和结构化图案(实际上，该图像的无损JPEG2000不会小于原始的未处理大小)。在“平坦化”之后，大多数结构不见了，并且绝大部分像素具有<8的值，因此适合3位。对应的JPEG2000具有比3∶1更好的压缩。“平坦化”可以包括多个简单的数据变换，包括以下(这是在图5的示例中应用的变换的完整列表)：

诸如数据块的宽度或高度等16位无符号值通常使用一高位字节和一低位字节来编码。可能需要16位是因为值偶尔会超过255(8位限制)某一指定的量，然而在大多数情况下这些值都是很小的。对于适合8位的值，高位字节将为0。频繁的0高位字节后跟有效的低位字节解决了图5a部分中清楚的大多数2像素周期性。可如下重映射16位：

	第一像素（最初在高位字节）								第二像素(最初在低位字节)
	第一像素（最初在高位字节）								第二像素(最初在低位字节)								原始	15	14	13	12	11	10	9	8	7	6	5	4	3	2	1	0
新	15	13	11	9	7	5	3	1	14	12	10	8	6	4	2	0	原始	15	14	13	12	11	10	9	8	7	6	5	4	3	2	1	0
新	15	13	11	9	7	5	3	1	14	12	10	8	6	4	2	0	位置	128	64	32	16	8	4	2	1	128	64	32	16	8	4	2	1

左边的8列表示该对的第一个像素，它先前在高位字节；右边的8列表示第二像素，它先前在低位字节。通过以此方式重新分配位，可访问值的范围(0-65535)保持不变，但是两个字节变得更对称。例如，对于所有的16位值0-255，两个字节各自假定值＜16。

类似的技术可应用于32位或更大的整型值。这些技术也可扩展到有符号量。对于其中符号频繁改变的变量，如对于道路向量的差分编码所发生的，可向位置0分配有符号位，并且如上所述地以交替的字节编码绝对值。注意，为令人信服地绘制，道路向量数据必须通常以比像素精度更大的精度来表示。可改为使用小于像素的任意单位，或者等效地，可结合以上技术使用定点来实现子像素精度。在本示例性实施例中，对于1/16像素精度使用了4子像素的位。

当如上所述地对数字编码时，理想的是使得数字尽可能地小。有时候上下文建议了一种明显的方式来这样做；例如，由于任何数据块的宽度必须至少为2，因此在编码之前从数据宽度中减去2。更重要的是，数据块中编码的指针和任何位置向量都相对于指针位置以像素来指定，而非以绝对坐标来指定。这不仅极大减小了要编码的数字的大小；它还允许数据图像的一部分在局部坐标***中向量性地解码和呈现，而不考虑该部分的绝对位置。

对于定义曲线(例如，道路)的点序列的向量呈现，只需相对于原始指针位置指定第一点；随后的点可被编码为“增量”，或从前一点的步进向量。在第二个这样的点之后，后续的点可被编码为二阶导数，或者当前和前一增量之差。使用二阶导数来编码一般对于诸如道路等结构是高效的，因为它们往往是具有导数连续性的曲线的离散化一即，它们逐步地改变其方向。

用于文本数据的另一“平坦化”技术在[1]中有描述，文本数据通常被编码为ASCII，且对每一字节编码单个字符。在[1]中所描述的应用中，编码了英语文本，且因此字母基于字母在英语的代表性样本中出现的递减频率来重映射。同样的技术可在本文环境中使用，尽管地图中所编码的大部分由街道名构成的文本具有与普通英语相当不同的统计量。例如，数字和大写字母要重要得多。

注意，用于如上所述地编码指针或数据的特定方法是示例性的；许多其它编码也是可行的。“良好的”编码一般得到平滑和/或具有低动态范围的图像。

图5“平坦化”之前(上方，a)和之后(下方，b)的相同的二进制8位数据(从Virgin Islands的道路地图数据图像的密集区中取得)

使用以上技术，15m/像素下的King County道路地图压缩如下：

对象	大小	格式
对象	大小	格式	原始的2002 TIGER/Line向量数据(TGR53033.ZIP)	8089KB	包含采用表格文本形式的所有向量数据的压缩ZIP文件
所呈现道路地图的未压缩的8位图像	41.5MB	未经处理的，＝41.5兆像素	原始的2002 TIGER/Line向量数据(TGR53033.ZIP)	8089KB	包含采用表格文本形式的所有向量数据的压缩ZIP文件
所呈现道路地图的未压缩的8位图像	41.5MB	未经处理的，＝41.5兆像素	预呈现的道路地图层	2602KB	JPEG2000，以0.5位/像素压缩
指针层	743KB	JPEG2000，无损(～0.18位/像素)	预呈现的道路地图层	2602KB	JPEG2000，以0.5位/像素压缩
指针层	743KB	JPEG2000，无损(～0.18位/像素)	数据层	3205KB	JPEG2000，无损(～0.77位/像素)

预呈现+指针+数据

6550KB

JPEG2000，有损和无损

令人惊讶的是，JPEG2000表示(包括有损预呈现道路地图图像、无损指针层和无损数据层)实际上要小于将原始数据表示为表格文本的压缩ZIP文件。(该文件是美国人口普查局2002 TIGER/Line数据库的一部分。)然而，与原始的ZIP不同，该新表示已准备好交互式地向客户机供应，且有效地支持连续可扫视和可缩放空间访问。

[2]中介绍的原始的预呈现多比例地图发明不仅包括单个预呈现图像，还包括以逐渐粗略的分辨率呈现的、并带有重新按比例缩放的线宽(或其它可视特征)的这些图像的栈。尽管这些预呈现的任一个中都没有省略任何特征，但是某些特征被削弱得足以仅在总计意义上清晰可见，例如，城市的地区道路在州级变为暗淡的灰色模糊点。本发明可被扩展成包括对应于较粗略地预呈现的道路地图图像的指针和数据图像，其中仅表示了原始向量对象的一个子集。例如，在比图1-3的分辨率低得多的分辨率下的州级指针和数据图像可能仅包括用于州和国家高速公路的数据，而不包括所有的地区道路。这些较粗略的数据也可以是“抽象”，例如仅指定道路名而不指定向量。不同分辨率下的图像可能包括原始数据的变化的混合或子集，或经抽象的版本。该技术既允许所有相关数据都适应较小的粗略图像，又向客户机提供了对该比例下导航相关的向量信息的子集。

尽管以上列出的实现提出了每一分辨率下的8位灰度级预呈现地图图像，但是预呈现图像也可以是彩色的。此外，即使预呈现图像是单通道图像，它们也可由客户机彩色地显示，因为向量数据可用于以与预呈现素材不同的颜色绘出重要的道路。最后，预呈现图像可以省略向量数据中存在的某些特征或道路，从而依赖于客户机来适当地合成图像和向量素材。

权利要求书：

一种使用矩形填装和JPEG表示来编码图像的方法。

专利申请

用于在缩放用户界面中精确呈现的***和方法

BLAISE HILARY AGUERA Y ARCAS

Kaplan&Gilman，LLP

代理案卷号489/2

用于在缩放用户界面中精确呈现的***和方法

Claims

1.一种方法，包括：

在通信链路上建立第一计算机和第二计算机之间的通信，所述第二计算机具有以压缩图像数据的形式存储其中的图像集合；

在所述图像集合中选择第一图像以在所述第一计算机上查看；

从所述第二计算机向所述第一计算机发送所述第一图像的压缩图像数据的至少一部分，其中所述发送包括将所述第一图像的第一感兴趣区域的全分辨率图像数据下载到所述第一计算机。

2.如权利要求1所述的方法，其特征在于，所述发送包括：

至少发送所述第一图像的在所述第一感兴趣区域之外的区域的低分辨率图像数据。

3.如权利要求2所述的方法，其特征在于，所述至少发送低分辨率图像数据包括：

发送外部区域的所述图像数据，其中所述外部区域图像数据是以随着逐步靠近所述第一感兴趣区域而增高的分辨率来提供的。

4.如权利要求3所述的方法，其特征在于，还包括：

至少部分地降低所述第一感兴趣区域的所述图像数据存储在所述第一计算机上的分辨率水平；以及

将所述第一图像的第二感兴趣区域的附加图像数据下载到所述第一计算机，以允许以全分辨率呈现所述第二感兴趣区域。

5.如权利要求4所述的方法，其特征在于，所述第二感兴趣区域与所述第一感兴趣区域重叠。

6.如权利要求4所述的方法，其特征在于，所述第二感兴趣区域不与所述第一感兴趣区域重叠。

7.如权利要求4所述的方法，其特征在于，还包括：

重复所述部分降低步骤和所述下载附加图像数据步骤以提供转换的感兴趣区域。

8.如权利要求1所述的方法，其特征在于，还包括：

在所述图像集合中选择多个附加图像；

在从所述第二计算机向所述第一计算机发送所述选定图像中的任一个的全部之前，从所述第二计算机向所述第一计算机发送所述选定图像的每一个的图像数据的至少一部分。

9.一种方法，包括：

在通信链路上建立第一计算机与第二计算机之间的通信，所述第二计算机具有以压缩图像数据形式存储其中的图像集合；

在所述集合中选择多个图像以传送给所述第一计算机；

在发送所述选定图像的任一个的全分辨率图像数据之前，从所述第二计算机向所述第一计算机发送全部所述选定图像的低分辨率图像数据。

10.如权利要求9所述的方法，其特征在于，还包括：

发送所述选定图像的给定之一的感兴趣区域的全分辨率图像数据，所述感兴趣区域比所述给定图像的全部小。

11.如权利要求10所述的方法，其特征在于，还包括：

发送所述给定图像在所述感兴趣区域外面的部分的低于全分辨率图像数据。

12.如权利要求11所述的方法，其特征在于，所述发送所述图像的所述外面部分的低于全分辨率图像数据包括：

发送所述外面部分图像数据，以使得所述给定图像的所述外面部分存储在所述第一计算机上的分辨率随着逐步靠近所述感兴趣区域而增高。

13.如权利要求9所述的方法，其特征在于，所述多个图像是一出版物的多个页面。

14.如权利要求13所述的方法，其特征在于，所述出版物的所述多个页面具有一限定的顺序次序。

15.如权利要求14所述的方法，其特征在于，具有所述顺序次序的所述页面被依次编号。

16.如权利要求14所述的方法，其特征在于，还包括：

以全分辨率呈现所述多个页面的第一选定页面，其中所述第一选定页面是第一活动页面。

17.如权利要求16所述的方法，其特征在于，还包括：

以低于全分辨率呈现所述多个页面中除所述第一活动页面之外的页面。

18.如权利要求17所述的方法，其特征在于，还包括：

以随着页面离所述第一活动页面的距离增大而降低的分辨率水平来呈现所述其它页面。

19.如权利要求18所述的方法，其特征在于，所述多个其它页面以多个分辨率呈现，所述多个分辨率等于呈现所述第一活动页面的所述全分辨率除以一常数的所述多个其它页面中的相应页面相对于所述第一活动页面放置的距离次幂。

20.如权利要求19所述的方法，其特征在于，所述常数等于2。

21.如权利要求17所述的方法，其特征在于，还包括：

丢弃所述图像数据的至少一部分，从而允许以所述全分辨率呈现所述第一活动页面；

以全分辨率呈现所述多个页面的第二选定页面，由此使所述第二选定页面成为第二活动页面。

22.如权利要求21所述的方法，其特征在于，所述第二活动页面按页面的所述顺序次序紧靠所述第一活动页面之前、或紧随所述第一活动页面之后。

23.如权利要求21所述的方法，其特征在于，所述第二活动页面按页面的所述顺序次序距离所述第一活动页面至少两个页面。

24.如权利要求9所述的方法，其特征在于，所述第二计算机是便携式设备。

25.如权利要求24所述的方法，其特征在于，所述第一计算机是个人计算机。

26.如权利要求24所述的方法，其特征在于，所述第一计算机是web服务器。

27.如权利要求9所述的方法，其特征在于，所述通信链路包括所述第一计算机和所述第二计算机之间的直接链路。

28.如权利要求9所述的方法，其特征在于，所述通信链路包括因特网通信链路。

29.如权利要求25所述的方法，其特征在于，所述便携式设备是数码相机，而所述多个图像是照片。

30.如权利要求29所述的方法，其特征在于，还包括：

完成所述照片的所述数据从所述数码相机向所述个人计算机的所述发送。

31.如权利要求30所述的方法，其特征在于，还包括：

将所述图片上传到web服务器。

32.如权利要求30所述的方法，其特征在于，还包括：

将所述发送数据存储在所述个人计算机的虚拟显示器中。

33.如权利要求32所述的方法，其特征在于，所述虚拟显示器包括能够至少部分地描述所述图像的小波数据。

34.如权利要求32所述的方法，其特征在于，还包括：

继续所述发送和所述存储，直到以指定分辨率表示所述虚拟显示器中的所述图像数据。

35.如权利要求34所述的方法，其特征在于，还包括：

在物理显示器上以所述指定分辨率呈现存储在所述虚拟显示器中的所述图像数据。

36.如权利要求9所述的方法，其特征在于，还包括：

在所述第一计算机上提供所述图像集合中所有图像的高速缓存的表示，其中所述高速缓存的表示以比所述图像集合存储在所述第二计算机中的分辨率更低的分辨率来存储，所述图像的所述高速缓存的表示是所述第一计算机的高速缓存内的高速缓存图像。

37.如权利要求36所述的方法，其特征在于，还包括：

将所述第一计算机的高速缓存内的所述高速缓存图像填塞到一综合画中，以使得所述高速缓存图像向物理显示器的呈现在所述物理显示器的紧凑区域内显示所述综合画。

38.如权利要求37所述的方法，其特征在于，所述紧凑区域至少基本上是矩形。

39.如权利要求37所述的方法，其特征在于，还包括：

允许所述第一计算机的用户放大和缩小所述综合画。

40.如权利要求37所述的方法，其特征在于，还包括：

允许所述第一计算机的用户扫视所述综合画。

41.如权利要求37所述的方法，其特征在于，还包括：

使元数据与所述高速缓存图像集相关联，所述集中具有至少一个高速缓存图像。

42.如权利要求41所述的方法，其特征在于，还包括：

用所述元数据将每一所述高速缓存图像集链接到每一所述集内的图像的更详细呈现。

43.如权利要求42所述的方法，其特征在于，还包括：

当对所述综合画的导航到达指定的缩放阈值时使用所述元数据调用到所述更详细呈现的所述链接。

44.如权利要求37所述的方法，其特征在于，还包括：

使用纹理映射重新排列所述高速缓存中的所述经填塞的高速缓存图像。

45.如权利要求44所述的方法，其特征在于，所述纹理映射用软件实现。

46.如权利要求44所述的方法，其特征在于，所述纹理映射是硬件加速的。

47.如权利要求44所述的方法，其特征在于，所述纹理映射包括：对所述综合画执行三维立体变换。