CN102346656B - 对文档进行重构以节约油墨和纸张的***和方法 - Google Patents

对文档进行重构以节约油墨和纸张的***和方法 Download PDF

Info

Publication number
CN102346656B
CN102346656B CN201110223708.XA CN201110223708A CN102346656B CN 102346656 B CN102346656 B CN 102346656B CN 201110223708 A CN201110223708 A CN 201110223708A CN 102346656 B CN102346656 B CN 102346656B
Authority
CN
China
Prior art keywords
document
content
page
region
reconstructed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201110223708.XA
Other languages
English (en)
Other versions
CN102346656A (zh
Inventor
K·阿罗拉
H·丘普拉
N·戈伊尔
M·赫玛尼
H·金达尔
N·拉斯托吉
H·维尔玛尼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Adobe Inc
Original Assignee
Adobe Systems Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US12/849,231 external-priority patent/US9032284B2/en
Application filed by Adobe Systems Inc filed Critical Adobe Systems Inc
Publication of CN102346656A publication Critical patent/CN102346656A/zh
Application granted granted Critical
Publication of CN102346656B publication Critical patent/CN102346656B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明涉及对文档进行重构以节约油墨和纸张的***和方法。具体地,利用绿色打印来对文档进行重构。接收已经请求打印机打印输出文档的指示。该文档具有内容,该内容具有将导致第一数量的页面被打印的格式。将该内容归组至一个或多个区域。此外,针对每个区域向内容应用一个或多个转换,从而使得打印机以经转换的格式打印具有内容的文档,其将导致在不会低于预定可读性阈值的情况下第二数量的页面被打印。该第二数量的页面少于第一数量的页面。此外,向文档应用一个或多个转换将导致第二数量的油墨用于打印文档,从而使得第二数量的油墨少于第一数量的油墨。

Description

对文档进行重构以节约油墨和纸张的***和方法
技术领域
本公开总体上涉及打印。更具体地,本公开涉及减少用于打印的纸张和/或油墨的***和方法。
背景技术
近来,已经进行了使得技术变得更加环境友好的尝试。所得的技术通常被称为绿色技术。例如,已经针对计算机、车辆、家用电器等开发了绿色技术。
针对计算技术,大量的环境顾虑来源于纸张的打印。计算机用户可能使用计算机打印机来打印大量各种类型的文档,这通常导致使用大量纸张。对于纸张的大量需求可能导致大量树木被毁坏,而这可能对环境造成负面影响。
因此,通常鼓励计算机用户通过将多个页面按比例缩小至适合单个页面来减少用于打印的纸张用量。这种方式的问题在于页面的可读性和美感受到了严重破坏。用户会在阅读这种已经被小型化以使得两个或更多页面适合一张纸的一面(另一面也可能具有两个或更多页面)的文字时遇到困难,从而用户可能简单地选择不利用绿色打印而可能以通常的方式来打印,而这将不是环境友好的。
发明内容
在本公开的一个方面中,提供了一种计算机程序产品。该计算机程序产品包括具有计算机可读程序的计算机可用介质。当在计算机上执行时,该计算机可读程序使得计算机接收已经请求打印机打印输出文档的指示。该文档具有内容,该内容具有将导致第一数量的页面被打印的格式。此外,当在计算机上执行时,该计算机可读程序使得计算机将内容归组至一个或多个区域。另外,当在计算机上执行时,该计算机可读程序使得计算机基于一个或多个规则,标识针对每个区域的一个或多个潜在转换。当在计算机上执行时,该计算机可读程序还使得计算机根据成本函数,对一个或多个潜在转换进行排序。此外,当在计算机上执行时,该计算机可读程序使得计算机针对每个区域向内容应用一个或多个转换,从而使得打印机以经转换的格式打印具有内容的文档,其将导致在不会低于预定可读性阈值的情况下第二数量的页面被打印,该第二数量的页面少于第一数量的页面。
在本公开的另一方面中,提供了一种方法。该方法接收已经请求打印机打印输出文档的指示。该文档具有内容,该内容具有将导致第一数量的页面被打印的格式。此外,该方法将内容归组至一个或多个区域。另外,该方法基于一个或多个规则,标识针对每个区域的一个或多个潜在转换。该方法还根据成本函数,对一个或多个潜在转换进行排序。此外,该方法与处理器一起、针对每个区域向内容应用一个或多个转换,使得打印机以经转换的格式打印具有内容的文档,其将导致在不会低于预定可读性阈值的情况下第二数量的页面被打印,该第二数量的页面少于第一数量的页面。
在本公开的又一方面中,提供了一种***。该***包括绿色打印模块,其:(i)接收已经请求打印机打印输出文档的指示,该文档具有内容,该内容具有将导致第一数量的页面被打印的格式,(ii)将该内容归组至一个或多个区域,(iii)基于一个或多个规则,标识针对每个区域的一个或多个潜在转换,以及(iv)根据成本函数,对一个或多个潜在转换进行排序。此外,该***包括处理器,其针对每个区域向内容应用一个或多个转换,使得打印机以经转换的格式打印具有所述内容的所述文档,其将导致在不会低于预定可读性阈值的情况下第二数量的页面被打印,该第二数量的页面少于该第一数量的页面。
附图说明
参照结合附图的以下描述,本公开的前述特征将变得更加明显,其中相同的附图标记指示相同的元素,以及其中:
图1示出了绿色打印配置。
图2示出了可以与绿色打印配置一起使用的绿色打印模块。
图3示出了可以用来对文档进行重构(repurpose)的方法。
图4示出了可以用于绿色打印的***配置。
具体实施方式
在此提供了一种绿色打印配置,以节约纸张和/或油墨。该绿色打印配置是能够通过对内容进行重构(其为转换内容和格式编排以将内容尺寸压缩至适合较少页面并同时保持该文档可读性和美感的一种方式)来减少用于打印文档的纸张和/或油墨数量的配置。文档在此意在涵盖文字处理文档、演示文稿文档、电子表格、电子邮件消息、PDF、web页面或可以存储在计算机可读介质上的文件中并具有定义明确的显示和/或打印标记的可打印数据的任何其他群组。该绿色打印配置可以是方法、***、计算设备、存储在计算设备上的计算机程序、存储在打印机上的计算机程序、可以通过网络下载的计算机模块、插件、扩展等。在一个实施方式中,用户可以利用单击来打印至缺省的打印机,以使得该内容较之于传统的所打印文档耗费较少的页面和油墨。
文档可以具有不同种类的内容元素,包括文字、图像、图形、表格等的框。此外,文档可以具有非内容元素,诸如布局约束、文本格式、字体和间隔元素。布局约束的示例包括页面规格、页面空白、装订线和定向。每个元素都对文档的整体外观有所贡献。针对打印,因为用户很可能希望打印该文档中的内容,所以不能对文档中的内容进行较大改变。相应地,绿色打印配置可以在对该文档进行绿色打印期间将该内容保持恒定。可选地,可以移除不必要的内容,诸如页眉、页脚等。
非内容元素主要对文档的视觉外观起作用。例如,非内容元素可以充当内容块的分隔符、重要性的记号、相关性的记号和/或关联性的标记。这些非内容元素是文档的文档格式编排。文档格式编排通过使文档占据更多的空间而对文档中的某些冗余做出贡献。文档的绿色打印按照以下方式利用了这些冗余,即,在内容利用的油墨量和/或纸张数量与文档整体外观之间提供了可计量的权衡。
文字处理文档可以具有三种类型的冗余。第一,文字处理文档可以具有影响内容占据的页面数量的冗余。第二,文字处理文档可以具有影响用来打印文档的油墨量的冗余。最后,文字处理文档可以具有影响纸张和油墨二者的冗余。
内容重构可以将冗余的空白处最小化或者消除。此外,内容重构可以减小文档中较大文本的大小。换言之,内容重构根据用户可能最想要看到的调整来自动调整内容的格式,以便减少文档中的页面数量,从而使得用户仍可以舒适地阅读该文档。
用于内容重构的转换的目标在于减少文档中的整体冗余。尽管一组转换可以一起减少冗余,但是转换中的一个或多个可能单独增大冗余。针对个体转换的冗余可被增大,以突出文档的某些特征,以便增加该文档的可读性和/或美感吸引力。例如,如果将文档打印为在每页纸张上具有多个页面时,则绿色打印程序可以自动决定增加文本的大小以使得该文本更易于阅读。
转换可以具有与之关联的量级(magnitude)。在一个实施方式中,该量级可以是二进制的。二进制量级可以指示是否应用转换,例如,“0”相当于将不应用转换,而“1”相当于将应用转换。在另一实施方式中,量级可以具有预定离散值集合。在另一实施方式中,量级可以具有连续值。
转换类型的每个实例可以具有与之关联的、针对特定文档类型的转换成本。换言之,特定的大小转换针对不同类型的不同文档或者针对相同类型的不同文档可以具有不同的转换成本。
此外,每个转换可以具有相关联的纸张节约潜能。例如,特定文本转换可以节约十分之一的纸张。另外,每个转换可以具有相关联的节约油墨数量。如果纸张和油墨二者都可以作为转换结果而得以节约的话,则该转换可以潜在地具有节约的纸张数量和节约的油墨数量二者。
图1示出了绿色打印配置100。作为示例,计算设备102被示出为PC。此外,作为示例,计算设备102可操作地通过有线连接而连接至打印机104。术语“计算设备”102在此意在包括个人计算机(“PC”)、台式计算机、膝上型计算机、笔记本、蜂窝电话、智能电话、个人数字助理(“PDA”)、公用电话亭等。此外,计算设备102可以是客户端、服务器、网络设备等。打印机104可以是通过有线或无线连接单独连接至计算设备102的、构建在计算设备102中的打印设备等等。无线连接可以通过射频(“RF”)传输、红外(“IR”)传输等接收和/或发送数据。打印机可以是也可以不是网络的一部分。此外,打印机104可以使用任何类型的打印方法来在纸张106上打印,例如,激光打印、喷墨打印等。
图2示出了可以与绿色打印配置100一起使用的绿色打印模块202。该绿色打印模块202可以存储在计算设备102中或打印机104中。该绿色打印模块202可以是独立应用、插件、另一应用的部分等。该绿色打印模块202可以分析文档的多个页面、分段等的内容,以对内容进行重构,从而节约纸张和/或油墨。例如,该绿色打印模块202可以分析文档的第一页面204和第二页面206。该绿色打印模块202继而可以对该文档的内容进行重构,从而使得该文档具有这样的经重构页面208,其具有按照可读格式的来自第一页面204和第二页面206的内容。如诸如图2的附图中所示,在文档中提供了线条,以代表文本、符号、形状、图像等。
图3示出了方法300,其可以用来对文档进行重构。在方法框302处,该方法300接收已经请求打印机打印输出文档的指示。例如,图2中所示的绿色打印模块202可以接收用户已经发起打印命令的消息。备选地,该指示可以是打印命令本身。该文档具有内容,该内容的格式将导致第一数量的页面被打印。此外,在方法框304处,该方法300将内容归组至一个或多个区域。换言之,针对同种内容块或区域的边界被标定出来。在一个实施方式中,也可以给这些区域加标记。另外,在方法框306处,方法300基于一个或多个规则标识针对每个区域的一个或多个潜在转换。在一个实施方式中,该一个或多个规则是启发式的。换言之,规则可以通过试验开发出来,以便评估用户的可读性的可能性。在方法框308处,该方法300根据成本函数对一个或多个潜在转换进行排序。在一个实施方式中,根据成本函数来对所有潜在的转换进行排序。例如,对针对第一群组的两个潜在转换和针对第二群组的三个潜在转换全部参照成本函数在一起进行排序,以便确定整体排序。在备选实施方式中,对潜在转换针对每个群组进行排序。例如,对针对第一群组的两个潜在转换可以根据成本函数进行排序,而针对第二群组的三个潜在转换可以根据成本函数进行排序。在一个实施方式中,可以针对不同群组使用相同的成本函数。在另一实施方式中,可以针对不同群组使用不同的成本函数。此外,在方法框310处,该方法300针对每个区域向内容应用一个或多个转换,从而使得打印机以经转换的格式打印具有内容的文档,该经转换的格式使得在不低于预定可读性阈值的情况下第二数量的页面被打印。该第二数量的页面少于第一数量的页面。
通过将来自导致第一数量打印页面的原始格式的页面数量自动减少为导致第二数量页面的重构格式,文档的原始外观会被丢失。相应地,根据重构计量器(quantifier),将绿色打印实现的节约量与文档外观之间的权衡量化。在一个实施方式中,在美感属性方面和一个或多个转换对文档影响的度量方面将文档的外观量化。在一个实施方式中,可以建立可读性阈值,以说明文档的外观出于绿色打印目的可被降低的程度。此外,文档可被自动重构,而不会使失真低于可读性阈值。可读性阈值可以基于一个或多个可读性规则。替代将外观主观度量作为可读性阈值的基础,可读性阈值以来自文档的特定度量为基础。这些特定度量用于确定与按照可读性规则来转换文档某些部分相关联的风险。
在另一实施方式中,绿色打印配置100可以用来通过利用一个或多个自动选择的页面模板来对内容进行重构,以便节约纸张。针对不同页面的内容和布局约束可以由一个或多个页面模板来指定。绿色打印配置100遍历(navigate)文档内容,并且选择针对该内容的最优页面模板。页面模板对信息进行编码,该信息诸如,页面中可以呈现多少图像(例如,形状),在何处定位图像,允许的图像大小,文本将布置在多少个栏中,内容的页面空白和装订线,针对该页面要使用的文本样式等。文本样式的示例是类型、大小等。页面模板的特征可以在于针对文档页面的样式表。可以通过将页面对一个或多个页面模板施加的约束与一个或多个内容特征进行匹配来自动地针对该内容选择一个或多个页面模板。例如,具有图像的输入文档中的页面不能放入仅是文本的模板中。附加约束的示例包括图像数量、段落数量和每段的字符、页面上表格的数量等。自动选择不会迫使输入文档中一个页面上的内容精确地映射至新文档中的单个页面。因此,模板选择过程被简化为向将不得不被标识出的新文档中的单个页面进行映射。
图4示出了可以用于绿色打印的***配置400。在一个实施方式中,该绿色打印模块202与存储器402交互。该绿色打印模块202生成符合可读性阈值的各种潜在经重构文档。例如,第一潜在经重构文档404可以具有根据符合可读性阈值的一个格式的文本,第二潜在经重构文档406可以具有根据符合可读性阈值的另一个格式的文本,以及第三潜在经重构文档408可以具有根据符合可读性阈值的又一格式的文本。该绿色打印模块可以通过利用重构计量器而从这些潜在的经重构文档中选择一个最终的经重构文档。重构计量器可以是基于减少的页面数量和可读性降低的方程式的结果。即使所有的潜在经重构文档都符合可读性阈值,通常会给予与具有页面的相同减少数量的第二经重构文档相比较少降低可读性的第一经重构文档以较高得分。此外,即使所有的潜在经重构文档都符合可读性阈值,通常会给予与具有相同可读性降低的第二经重构文档相比减少更多页面的第一经重构文档以较高得分。换言之,会给予这样的潜在经重构文档以最高得分,即,其较之于其他潜在经重构文档,能更好地在整体上最小化可读性降低以及最大化页面减少。
在绿色打印模块202选择潜在经重构文档之后,该绿色打印模块202向处理器410提供经重构文档。此外,处理器410向该潜在经重构文档应用转换,从而使得用户可以打印该最终经重构文档。处理器410与输入/输出(“I/O”)设备412交互。例如,处理器412通过键盘接收来自用户的输入以打印该文档。处理器412继而可以在打印机上打印该经重构文档。
在一个实施方式中,可以针对文档指示绿色得分。***配置100可以通过利用打分方法来向用户通知该文档的绿色程度。该打分基于对文档的所有可用转换的总计纸张和油墨节约潜力的测量。换言之,显示设备可以向用户提供这样的指示,即,用户可以对文档做出哪些变化以便节约纸张和/或油墨。指示可以在用户编辑文档时被提供。备选地,可以在用户未编辑文档时向其提供该指示。
在另一实施方式中,***配置400适合于存储和/或执行程序代码,并且使用通用计算机或任何其他硬件等价物来实现。处理器410可以直接或间接地通过***总线耦合至存储器402。存储器402可以包括在程序代码的实际执行期间采用的本地存储器、大容量存储和/或提供对至少一些程序代码的临时存储以便减少在执行期间必须从大容量存储获取代码的次数的高速缓冲存储器。
I/O设备412可以直接耦合到***400或通过居间输入/输出控制器耦合到***400。此外,I/O设备412可以包括键盘、小键盘、鼠标、用于捕获语音命令的麦克风、指点设备,和将由本领域普通技术人员认识到的其他用户输入设备。此外,I/O设备412可以包括输出设备,诸如打印机、显示屏等。此外,I/O设备412可以包括接收器、发射器、扬声器、显示器、图像捕获传感器、生物传感器等。另外,I/O设备412可以包括存储设备,诸如磁带机、软盘驱动器、硬盘驱动器、光盘(“CD”)驱动器等。
网络适配器也可以耦合至***配置400,以便使得***配置400变为通过居间私有或公共网络耦合至其他***、远程打印机或存储设备。调制解调器、线缆调制解调器和以太网卡仅是目前可用的网络适配器类型的几个示例。
绿色打印配置100可以与各种不同类型的文档一起使用。在此提供各种示例是为了示出绿色打印配置100的灵活性。
作为示例,绿色打印配置100可以用于对演示文稿文档进行重构。方法可以由图2中所示的绿色打印模块202利用,以便出于选择对演示文稿文档的一个或多个转换以供绿色打印的目的来对该演示文稿文档进行分析。该方法对演示文稿文档进行预处理。通过预处理,该方法获得关于演示文稿的信息,包括但不限于,外形尺寸、填充、文本字体、分组信息和/或z轴顺序,即,重叠信息。此外,该方法执行帧检测。很多演示文稿具有动画。帧检测标识可被打印的逻辑关键帧,而不用打印整个幻灯片。帧检测是可选的。另外,该方法执行重叠分析,其有助于标识哪些形状与其他形状重叠以及按照何种z轴顺序。这一信息在移除填充期间是有用的,因为应当保留这些形状的外观。在一个实施方式中,将幻灯片变换成光栅(raster)并被替换。在一个实施方式中,该方法可以在未进行重叠分析的情况下执行。该方法还执行形状加标记。在一个实施方式中,形状标记可以是作为图示一部分的文本框。可以利用多个加标记规则来标识和/或生成标记,其可以被指派以一个或多个输出特征。例如,形状标记可以被指派以诸如文本大小之类的输出特征。此外,该方法执行形状归组。图示的特征可以在于可被或者可以不被归组的形状群组。形状归组将在任何转换中都必须移动到一起的形状和结构归组。可以使用多个归组规则来执行组形成。在一个实施方式中,形状加标记有助于标识必须归组在一起的形状和结构。另外,该方法执行幻灯片加标记,其标识逻辑结构,诸如字幕幻灯片、分隔幻灯片、备忘录幻灯片等。此类幻灯片在其内容的转换期间被给予相对重要性。在完成内容布局之前,该方法执行幻灯片内容转换,其移除形状填充并优化了每个内容块的大小。例如,文本框可以具有较大字体的文本行、较大行间距、较大段间距和/或空白行。该形状填充和大小根据指派给该形状和幻灯片的标记而被减小。该方法执行内容重新布局,以确定输出中该内容的最终布置。例如,针对输出做出缩放和布置决定。例如,处理群组之间的垂直间隔、管理有边界框等。此外,内容重新布局可以尝试“调整至适合页面(fit-to-page)方法”,以充分地利用该内容最终将占据的该页面。该方法还根据内容重新布局生成绿色演示文稿文档。在输出幻灯片上布置对象。该方法的所有子成分对于该方法的操作而言不是必要的。
作为另一示例,绿色打印配置100可以用于对电子邮件信件进行重构。方法可以由图2中所示的绿色打印模块202利用,以接收已经请求打印机打印输出电子邮件信件的指示。电子邮件信件具有内容,该内容的格式将导致第一数量的页面被打印。此外,该方法检测属于数据电子邮件会话树的多个电子邮件消息。另外,该方法与处理器一起根据与多个电子邮件消息中每个电子邮件消息关联的相应时间戳来对电子邮件会话树中的多个电子邮件消息进行重新排序。相应的时间戳指示传输时间。该方法还与处理器一起根据最早的相应时间戳来确定根电子邮件消息。该根电子邮件消息是电子邮件会话树的根节点。此外,该方法还将来自该根电子邮件消息的多个内容块记录为打印块集合。另外,该方法将电子邮件会话树中的后续电子邮件消息与该根电子邮件消息进行比较。此外,该方法将来自多个后续电子邮件消息内容块的、未存在于打印块集合中的一个或多个内容块记录至打印块集合中。在一个实施方式中,来自多个后续电子邮件消息内容块的、已存在于打印块集合中的内容块被忽略。在另一实施方式中,放入引用以替代重复的内容块。该引用指示内容块在其上进行打印的页面。在另一实施方式中,不使用参考。换言之,重复的内容块被忽略。另外,该方法与处理器一起基于打印块来生成绿色电子邮件信件,从而使得该绿色电子邮件信件具有少于第一数量页面的第二数量页面。该方法的所有子成分对于该方法的操作而言不是必要的。
作为又一示例,绿色打印配置100可以用于对电子表格进行重构。方法可以由图2中所示的绿色打印模块202利用,以确定针对电子表格的可打印范围。此外,该方法检测打印区域。另外,该方法针对形状执行重叠分析。重叠分析有助于标识哪些形状与其他形状重叠以及按照何种z轴顺序。这一信息在移除填充期间是有用的,因为应当保留这些形状的外观。该方法还隔离每个打印区域。此外,该方法转换每个打印区域。另外,该方法执行页面调整。如果需要的话,该方法还执行内容重新布局。该方法生成绿色电子表格。该内容重新布局用于确定输出中内容的最终布置。例如,针对输出做出缩放和布置决定。例如,处理群组之间的垂直间隔、管理有边界框等。此外,内容重新布局可以尝试“调整至适合页面方法”,以充分地利用该内容最终将占据的该页面。如果内容重新布局不是必须的,则该方法生成绿色电子表格。该方法的所有子成分对于该方法的操作而言不是必要的。
作为又一示例,绿色打印配置100可以用于对文字处理文档进行重构。方法可以由图2中所示的绿色打印模块202利用,以预处理该文字处理文档,以便确保该文字处理文档可以安全地转换。该方法确定该文字处理文档是否可以安全地转换。如果该方法确定向绿色文字处理文档的转换将潜在地导致丢失某些信息,例如,图像被某些文本遮蔽,和/或该转换将导致绿色文档不可读以及审美不够愉悦,则该方法在不对该内容进行重构的情况下打印该文字处理文档。备选地,如果该方法确定向绿色文字处理文档的转换是安全的,则该方法将来自该文字处理文档的内容归组并分段。形成内容的逻辑群组,以便在转换期间能够在一起。在一个实施方式中,使用归组规则的集合。例如,邻近以及可能在同一页面上的内容在转换期间在一起。因此,得以管理绿色文档的外观和内容的大小减小两者。在另一实施方式中,利用区域标识规则的集合。可以对内容块加标记,以标识它们在语义上代表什么,从而使得可以评估向内容块应用转换的成本。加语义标记可以基于与特定文字处理软件程序和有关的结构化文档格式一起使用的标记。在一个实施方式中,将文档分割成同种特征的区域。例如,可以将文档分割成文本区域、具有较小图像的文本区域、具有表格的文本区域等。该方法基于区域的类型来利用绿色打印以便应用转换。一些区域可以经历与其他区域类似和/或不同类型的转换。该方法继而执行针对一个或多个转换的规划。该规划可以包括对不同的潜在绿色打印输出的分析。最后,该方法执行一个或多个转换,以生成绿色文字处理文档。该方法的所有子成分对于该方法的操作而言不是必要的。
作为另一示例,绿色打印配置100可以用于绿色打印PDF文档。方法可由图2中所示的绿色打印模块来利用以便预处理PDF文档。该预处理获得关于PDF文档的信息。该信息可以包括标识文本、图像、向量对象、维度(有边界框)、文本字体等。这些元素可以在页面中表示为定义明确的边界框的单元。这些单元可以归组在一起,以维持个体元素/单元的阅读上下文。例如,重叠的向量图形单元可以归组在一起,从而使得它们可以分别格式化以及从整体上进行布置。否则,在重新布局阶段,个体对象可能布置得较远,这可能导致较不易读的输出。类似地,可以标识原始的多栏文本单元,并将其合并至按照阅读顺序包含整个多栏文本的单个文本单元。该预处理确定可以在PDF文档中保存多少个页面,以便计算出是否应当减少页面数量。例如,如果PDF文档仅具有一个页面,则该绿色打印配置将仅节约油墨。
在一个实施方式中,子方法可以用来标识单元组。该子方法可以找到PDF页面中的隔离的单元(有边界的框)的集合B。此外,该子方法可以通过利用输出页面中的逻辑元素的启发式规则来将B中的单元归组。对于B中的每个单元C,该子方法利用启发式规则来将B中的单元归组。对于B中的每个单元C,找到位于C附近的单元集合B’。B’中的单元可以位于水平附近或者位于垂直附近。多个因素可以用来就选择哪些单元做出决定。个体单元的类型是因素。例如,仅当文本单元与图形单元重叠时,文本单元将与图形单元合并在一起(例如,图像/向量艺术)。类似地,图形单元可以与文本单元合并,即使它们没有与文本单元重叠,而是离得很近。另一因素是合并的单元不应当包含超过某个阈值的空区域。另一因素是多栏文本单元不应照现在的样子合并,而是应当合并至单个文本单元中,在该单个文本单元中,个体单元的所有文本应当按照阅读顺序添加。
该子方法创建合并的单元(C)。对于B中的每个区域C’,做出决定,以计算C’是否与合并的单元(C)合并。如果C’与合并的单元(C)合并,则从B中移除C’。此外,该子方法从B中移除C。另外,该子方法向B添加新的合并的单元(C)。在最初找到隔离的单元之后,该子方法针对集合B中存在的每个其他单元重复该子方法的剩余部分。
此外,该方法执行复杂度分析。归组的单元用于对某些页面和一些内容元素进行分类,因为对于完成转换而言它们太过复杂。某些规则用于这样的类别,例如,给定PDF页面中重叠的图像/向量的数量、表格域的存在等。此类页面通常变换成光栅并被替换。复杂度分析还确保PDF文档方式的整个绿色打印的准确性。
该预处理允许子方法找到文档的来源。例如,如果转换成PDF的文档是文字处理文档而不是电子表格程序,则将一种类型的绿色转换用于文字处理文档。
此外,该方法创建文档对象模型(“DOM”)。PDF文档通常不通过谨记任何特定文档结构来创建。然而,加标签的PDF在逻辑结构方面提供了一些信息,诸如内容的表、段落、表格、绘图等。相应地,如果该PDF尚未加标签的话,则DOM模型的创建首先涉及对输入的PDF加标签。随后,将使用基于启发式规则的模型来标识较高层结构,诸如,封面、参考页、背景图像等。被标识的已归组单元将利用此规则模型标记为高层文档结构。当应用转换将考虑这些结构。
此结构创建是有帮助的,这是因为PDF文档内在地并不支持任何文档结构或者不同对象之间的任何关系。因此,创建高层流式结构以便在内容重新布置中使用。此结构提取与图像中的对象识别等不同。应用有助于打印的语义标签。例如,向量路径的群组可以不必须是单个图,但是被这样加了标记,因为该标记有助于在布置输出页面的同时将所有的向量艺术放置在一起。
另外,该方法执行DOM分析。在PDF文档中标识某些实体。作为示例,该方法可以标识页面标记和对象标记。页面标记可以是被标记为封面、内容页面的表格、内容页面、参考/索引页面等的页面。对象标记可以是页面中的PDF对象,其被标记为页眉/页脚、段落、主标题、子标题、图/背景、表格、图/表格标题等。这些提供了对输出中内容的格式化进行控制的方式。例如,所有输出页面上的标题和表格/图标题需要具有相同的字体大小,从而使得输出的整体外观保持一致。在一个实施方式中,利用启发式规则来标识这些实体。启发式规则基于特征,诸如针对页面的外观序列、页面上的位置和针对仅包含文本的对象的相对文本大小。可以通过分析大量的现实世界PDF文件以创建训练数据集合来确定针对每个实体的这些特征的基础概率。
在一个实施方式中,对给定页面/对象加标记的子方法获得规则的集合R(R1...Rk),从而使得每个第j个规则提供基本成功概率P(Rj)。例如,如果针对任何结构C的规则Rj被计算为成功,则该规则Rj将使把PDF对象标识为结构C的概率增大P(Rj)。文档结构标识(页面级别/对象级别)可以执行如下。找到标识输入文档结构C的规则集合。对于C中的每个规则C’,对该规则针对给定页面/单元是否成功进行确定。如果该规则针对给定页面/单元成功,那么PC(给定页面/单元是C的概率)+=P(C’)。此外,如果PC>阈值并且C是对象级别规则,则将所有个体单元归组至单个单元,并且将该归组的单元标记为C。否则,如果PC>阈值并且C是页面级别规则,则将输入的页面标记为C。在子方法完成之后,所有标识的单元将加标签为高层文档结构,其将被转换以创建绿色PDF。
该方法继而执行内容重构。在文档结构上应用某些绿色转换。例如,段落可以具有某些文本,这些文本具有较大的字体大小、颜色和较大的空行间隔。该文本大小通过分析出现在PDF文档中的所有文本大小并将其规范化而得以减小。同样地,可以在不影响段落可读性的情况下减小行间距。
与节约油墨类似,可以执行某些灰度转换。由于PDF作为文档格式支持多个颜色空间,因而此特性可以用来在打印已经进行灰度化的内容(其包含RGB颜色空间中的灰颜色值,其中R=G=B颜色值)时节约油墨。当在纸张上打印此类内容时,RGB颜色值被变换成CMYK颜色空间。CMYK是在彩色打印时使用的减色模型,并且涉及在彩色打印中使用的四种油墨:青色、紫红、黄色和黑色。针对灰色的打印CMYK颜色消耗打印机中存在的所有油墨墨粉,以便代表正确的灰色。此消耗可以通过将RGB颜色空间变换至CMYK(作为绿色转换)而在PDF中得以避免。具有R=G=B颜色表征的所有灰度内容继而变换成单个K值。在此变换后,灰色内容将仅消耗打印机上的K墨粉,其在移除了颜色之后已经得不到支持。
最后,该方法执行内容重新布局。该内容重新布局决定输出中的内容最终布置。在一个实施方式中,可以利用专门的重新布局引擎来将高层结构变换成具体的PDF对象,以及执行所有必须的缩放。重新布局引擎还针对输出做出布置决定。内容重新布局还减小了对象之间的垂直间隔、管理了有边界的框等等。内容重新布局还尝试完全利用内容最终将占据的页面,即,“调整至适合页面”。作为内容重新布局的结果,创建绿色PDF文档。该方法的所有子成分对于该方法的操作而言不是必要的。
在一个实施方式中,用户可以提供输入,诸如选择用以仅节约油墨的按钮。在另一实施方式中,用户可以提供输入,诸如选择用以仅节约纸张的按钮。在又一实施方式中,用户可以提供输入,诸如选择用以节约油墨和纸张二者的按钮。
可以与绿色打印配置100一起使用的不同文档类型示例仅作为示例而提供。该绿色打印配置100并不限于这些示例,而是可以与其他文档类型一起使用。
在此描述的方法可以实现在通用、多用途或单用途处理器中。此类处理器将在汇编、编译或机器层执行指令以实施该方法。这些指令可以由本领域普通技术人员遵从对应于方法的附图的描述来编写,并且在计算机可读介质上存储或传输。指令还可以使用源代码或任何其他公知的计算机辅助设计工具来创建。计算机可读介质可以是能够携带这些指令的任何介质,并且包括CD-ROM、DVD、磁或其他光盘、带、硅存储器(例如,可移除、不可移除、易失性或非易失性)、通过本地的或经由网络的远程的有线或无线传输的已封包或未封包数据。计算机在此意在包括如上所述具有通用、多用途或单用途处理器的任何设备。
应当理解,在此描述的方法和***可以采用完全硬件实施方式、完全软件实施方式或包含硬件和软件元素的实施方式的形式。如果将软件用于实现方法或***,则软件可以包括但不限于固件、驻留软件、微代码等。
应当理解,在此描述的方法和***还可以应用至其他类型的方法和***。本领域技术人员将会理解,在此描述的方法和***的实施方式的各种调整和修改可以在不脱离本方法和***的精神和范围的前提下进行配置。因此,应当理解,在所附权利要求的范围内,本发明的方法和***可以不按照在此所具体描述的方法和***进行实践。

Claims (19)

1.一种用于重构文档的设备,包括:
用于接收已经请求打印输出文档的指示的装置,所述文档具有内容,所述内容具有将导致第一数量的页面被打印的格式;
用于基于所述内容的形状将所述内容归组至一个或更多个区域的装置;
用于向每个区域指派标记的装置;
用于基于一个或多个规则标识针对每个区域的一个或多个潜在转换的装置;
用于基于所指派的标记评估向每个区域应用所述一个或多个潜在转换的成本的装置;以及
用于响应于所述评估向每个区域单独应用一个或多个转换以改变所述区域中内容的所述格式的装置,从而使得所述文档包括以经转换的格式的内容,其将在不会低于预定可读性阈值的情况下以第二数量的页面可打印,所述第二数量的页面少于所述第一数量的页面。
2.如权利要求1所述的设备,其中所述预定可读性阈值被建立,以确定所述文档的潜在降低。
3.如权利要求2所述的设备,其中所述预定可读性阈值基于来自所述文档的一个或多个度量。
4.如权利要求1所述的设备,其中所述内容包括文字、图像、图形或表格中的一个或多个。
5.如权利要求1所述的设备,进一步包括用于执行重叠分析以标识与第二形状重叠的第一形状的装置。
6.如权利要求1所述的设备,其中所述文档由文字处理程序、电子表格程序或PDF程序所使用。
7.如权利要求1所述的设备,进一步包括用于向与第二经重构文档相比减少更多页面的第一经重构文档指派更高得分的装置,所述第一经重构文档和所述第二经重构文档各自提供相同的可读性降低。
8.如权利要求1所述的设备,进一步包括用于提供所述文档的绿色得分的装置。
9.如权利要求1所述的设备,其中所述一个或多个转换通过利用一个或多个自动选择的页面模板而得以应用。
10.一种用于重构文档的方法,包括:
接收已经请求打印输出文档的指示,所述文档具有内容,所述内容具有将导致第一数量的页面被打印的格式;
基于所述内容的形状将所述内容归组至一个或更多个区域;
向每个区域指派标记;
基于一个或多个规则标识针对每个区域的一个或多个潜在转换;
基于所指派的标记评估向每个区域应用所述一个或多个潜在转换的成本;以及
响应于所述评估向每个区域单独应用一个或多个转换以改变所述区域中内容的所述格式,从而使得所述文档包括以经转换的格式的内容,其将在不会低于预定可读性阈值的情况下以第二数量的页面可打印,所述第二数量的页面少于所述第一数量的页面。
11.如权利要求10所述的方法,其中所述预定可读性阈值被建立,以确定所述文档的潜在降低。
12.如权利要求11所述的方法,其中所述预定可读性阈值基于来自所述文档的一个或多个度量。
13.如权利要求10所述的方法,其中所述内容包括文字、图像、图形或表格中的一个或多个。
14.如权利要求10所述的方法,进一步包括执行重叠分析以标识与第二形状重叠的第一形状。
15.如权利要求10所述的方法,其中所述文档由文字处理程序、电子表格程序或PDF程序所使用。
16.一种用于重构文档的***,包括:
处理器;以及
其上存储多个指令的存储器,所述多个指令响应于由所述处理器执行,使得绿色打印机模块用于:
接收已经请求打印输出文档的指示,所述文档具有内容,所述内容具有将导致第一数量的页面被打印的格式;
基于所述内容的形状将所述内容归组至一个或更多个区域;
向每个区域指派标记;
基于一个或多个规则标识针对每个区域的一个或多个潜在转换;
基于所指派的标记评估向每个区域应用所述一个或多个潜在转换的成本;以及
响应于所述评估向每个区域单独应用一个或多个转换以改变所述区域中内容的所述格式,从而使得所述文档包括以经转换的格式的内容,其将在不会低于预定可读性阈值的情况下以第二数量的页面可打印,所述第二数量的页面少于所述第一数量的页面。
17.如权利要求16所述的***,其中所述文档由文字处理程序、电子表格程序或PDF程序所使用。
18.如权利要求16所述的***,其中所述绿色打印机模块进一步用于提供所述文档的绿色得分。
19.如权利要求16所述的***,其中所述一个或多个转换通过利用一个或多个自动选择的页面模板而得以应用。
CN201110223708.XA 2010-08-03 2011-08-01 对文档进行重构以节约油墨和纸张的***和方法 Active CN102346656B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US12/849,231 US9032284B2 (en) 2010-08-03 2010-08-03 Green printing: re-purposing a document to save ink and paper
US12/849,231 2010-08-03

Publications (2)

Publication Number Publication Date
CN102346656A CN102346656A (zh) 2012-02-08
CN102346656B true CN102346656B (zh) 2016-12-14

Family

ID=

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101607469A (zh) * 2008-06-20 2009-12-23 天津科技大学 喷墨打印清晰度测试方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101607469A (zh) * 2008-06-20 2009-12-23 天津科技大学 喷墨打印清晰度测试方法

Similar Documents

Publication Publication Date Title
US8451489B1 (en) Content-aware method for saving paper and ink while printing a PDF document
JP6507472B2 (ja) 処理方法、処理システム及びコンピュータプログラム
CN100458773C (zh) 信息处理装置和信息处理方法
US20130191732A1 (en) Fixed Format Document Conversion Engine
CN104350493B (zh) 将数据变换成可消费的内容
US9032284B2 (en) Green printing: re-purposing a document to save ink and paper
CN101853246B (zh) 一种文档格式的转换方法及装置
US20170220858A1 (en) Optical recognition of tables
US20130036113A1 (en) System and Method for Automatically Providing a Graphical Layout Based on an Example Graphic Layout
US8804139B1 (en) Method and system for repurposing a presentation document to save paper and ink
CN107066426A (zh) 在将数据变换成可消费内容时创建变型
JP2008191833A (ja) 論理構造認識処理プログラム、論理構造認識処理方法および論理構造認識処理装置
KR20210105764A (ko) 전자문서 내의 텍스트 추출 방법 및 관련 장치
CN109948518B (zh) 一种基于神经网络的pdf文档内容文本段落聚合的方法
CN113867694B (zh) 一种智能生成前端代码的方法和***
CN115917613A (zh) 文档中文本的语义表示
CN104298705A (zh) 一种关系型数据和非结构化数据的转换方法
Shi et al. Reverse-engineering information presentations: Recovering hierarchical grouping from layouts of visual elements
US20150169508A1 (en) Obfuscating page-description language output to thwart conversion to an editable format
JP2008129793A (ja) 文書処理システムおよび装置および方法、およびプログラムを記録した記録媒体
CN112632950A (zh) Ppt生成方法、装置、设备及计算机可读存储介质
CN102346656B (zh) 对文档进行重构以节约油墨和纸张的***和方法
CN108960054A (zh) 一种基于图文识别的通关数据生成***及方法
US20220309276A1 (en) Automatically classifying heterogenous documents using machine learning techniques
CN114996494A (zh) 图像处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant