CN102257490A

CN102257490A - 文档信息选择方法和计算机程序产品

Info

Publication number: CN102257490A
Application number: CN2008801324142A
Authority: CN
Inventors: T.雷; M.G.德瓦多斯; S.马朱姆达
Original assignee: Hewlett Packard Development Co LP
Current assignee: Hewlett Packard Development Co LP
Priority date: 2008-12-19
Filing date: 2008-12-19
Publication date: 2011-11-23
Also published as: WO2010070651A3; EP2359263A2; US20110252313A1; EP2359263A4; WO2010070651A2

Abstract

公开了一种用于根据多个电子文档生成电子文档的方法，所述方法包括：提供包括多个电子文档的数据库，其中所述文档中的每个均包括按语义构造的信息部分；解析所述多个电子文档，以从所述文档中提取语义描述符，每个语义描述符与所述信息部分的其中一个相关；显示所提取的语义描述符的概览，以供用户进行选择；接收用户选择的提取出的语义描述符；从所述多个电子文档中提取与用户选择的语义描述符相关的信息部分；以及将所述提取出的部分组合到另外的电子文档中。所述方法能够在可以构成数据处理***的一部分的计算机程序产品中实现。

Description

文档信息选择方法和计算机程序产品

背景技术

诸如大型数据库和因特网的可扩展计算机***的引入已经显著地提高了数字信息的易访问性。如今，这样的***的用户可以访问来自各种各样的不同源的大量信息。然而，这一改进并不是不存在问题。

例如，在这样的数字信息***中尝试找到正确的信息可能远非是普通的任务。尽管可以限定查询来搜索这样的信息***，然而将该查询限定为使得该查询产生均与所限定的搜索标准相关的仅几个电子文档是非常难的。电子文档可以是利用诸如MS Word和Acrobat等的文字处理程序所创建的单个文件，或者可以是能够从因特网上的特有URL获取到的信息。

因此，这样的信息***的用户多半会面对不得不搜索大量电子文档以找到和获取感兴趣的信息的艰难任务。

已经进行了大量的努力来为这样的信息***的用户提供被认为是作为查询结果的更简洁的文档集以找到感兴趣的信息，诸如其中根据特殊词语在电子文档中的出现次数与从所谓的加权词语词典中检索到的加权因子的组合来计算该电子文档关于搜索词的相关性的搜索算法。不利的是，这可能仍需要用户检查大量的文档。

附图说明

以更详细的方式并且利用参考附图的非限制性的示例说明本发明的实施例，其中：

图1示意性地示出本发明的方法的实施例的原理；

图2示意性地示出本发明的方法的实施例的流程图；

图3示意性地示出本发明的方法的实施例的一个方面的流程图；以及

图4示意性地示出根据本发明的实施例的数据处理***。

具体实施方式

应当理解的是，附图仅是示意性的，并且不是按比例绘制的。还应当理解的是，贯穿附图使用相同的附图标记来表示相同或相似的部件。

图1提供本发明的数据处理***100的实施例的概念性概况图。在概况图100中，电子文档112的数据库110是可用的。数据库110可以是专有数据库、万维网（WWW）或任何其它适当的信息源。电子文档112每个均包括按语义构造的信息部分。可以诸如以标识该信息部分的语义语境的元数据的形式而明确地包括该语义构成。下面给出了这样的元数据的非限制性示例：

* 语义部分名称

●子部分1

-页

-开始行

-结束行

●子部分２

-页

-开始行

-结束行

●子部分３

-页

-开始行

-结束行

在该示例中，语义部分包括多个子部分，以表示语义信息可以具有分级结构。显然，在非分级语义信息的情况下，语义描述符例如可以采用以下形式：

* 语义部分名称

-页

-开始行

-结束行

电子文档112可以包含分级的语义描述符和非分级的语义描述符这两者，这两者可以通过任何适当的解析策略而被识别。应当理解的是，电子文档112可以具有相同或不同的格式，诸如.txt、.doc、.pdf、.html和.xml文件等。可以使用任何适当的格式将电子文档112中的语义描述符存储在诸如头文件的相关联的电子文档中。这样的格式的已知示例包括万维网本体语言（Web Ontology Language）、资源描述框架模式（Resource Description Framework Schema）和XML模式。

数据处理***100还包括语义信息处理层120，其被布置为在数据处理***100的用户请求来自数据库110的信息时访问数据库110中的各个文档112。语义信息处理层120可以包括被布置为实现本发明的方法的软件程序产品，如稍后将更详细地说明的那样。语义信息处理层120被配置为从电子文档112中提取语义描述符，并且将所提取出的描述符显示给数据处理***100的用户，以允许该用户从电子文档112中选择感兴趣的信息部分。

在一个实施例中，所提取出的描述符可以以列表的形式被呈现，其中，用户可以从该列表中选择感兴趣的信息部分。在另一实施例中，所提取出的语义描述符可以以树130的形式被呈现，其中，在该树130中，树叶表示语义描述符，并且树叶之间的节点表示语义描述符之间的分级关系和/或语义描述符在电子文档112中的次序。用户可以例如通过在显示器上将光标指向感兴趣的树叶并点击鼠标按钮或键盘上的某些按键来选择感兴趣的树叶。在图1中，所选择的树叶已被标记为132，并且未被选择的树叶已被标记为134。

在一个实施例中，出现在包括的多个文档112中的语义描述符可以由树130中的单个树叶来表示。这具有如下优点：提供了紧凑的树，该紧凑的树使得用户能够快速估计出数据库110中的哪些信息是可用的。这例如在数据库110包括共享语义结构的多个电子文档112的情况下是特别有用的，使得树130将为这些文档示出单个分支。

在一个实施例中，用户可以例如通过向***100提供适当的命令来指示已完成对感兴趣的信息的选择，之后通过语义信息处理层120从数据库100获取该感兴趣的信息部分。生成新的电子文档140，将所获取的感兴趣的部分100存储到新的电子文档140的中，使得用户在单个电子文档中具有所有可用的感兴趣的信息。可选地，如果用户需要的话，可以生成多个电子文档140。清楚的是，该方式的明显优点在于：用户不再访问所有的电子文档112来获取感兴趣的信息以生成个人文档，由此极大地降低了用户为该目的而搜集感兴趣的信息所需要的精力量。

在一个实施例中，用户可以按优选的顺序来放置感兴趣的信息，其中所生成的个人电子文档140复制该顺序。该顺序可以例如由用户通过以该顺序选择与感兴趣的信息部分相对应的树130的树叶来进行定义。可以使用用于定义该顺序的任何适当的方式。

在一个实施例中，以预先定义的格式来生成个人电子文档140。在可选实施例中，由用户来选择个人电子文档140的格式。该个人电子文档140可以以任何适当的格式来生成。如果该个人电子文档140要被添加至数据库110，则语义描述符可以以任何适当的形式被添加至该个人电子文档140。

本发明的方法特别适用于数据库110包括彼此具有某种相互联系的受限数量的电子文档112的数据处理***100中，这样的电子文档例如为诸如Oracle数据库等的商务数据库中所包括的电子文档，在所述商务数据库中，所有的文档通常都涉及商务，从而使得从所有这些电子文档中对语义描述符的提取是可行且是潜在地相关的。

通过用户对查询125的定义可以降低语义信息处理层120的提取任务的规模。查询125可以将语义描述符提取任务限制到特定类型的电子文档112。例如，在数据库110包括不同类的文档的情况下，可以根据定义在查询125中的类而从电子文档112中提取语义描述符。在一个实施例中，用户可以定义查询125，以将提取任务限制到特定类型的语义描述符。例如，在分级语义描述符的情况下，用户可以利用语义信息处理层120定义对感兴趣的顶层语义描述符的选择，从而根据所定义的顶层语义描述符提取所有的语义描述符。进行如下规定：用以降低电子文档112的量和/或从这些文档提取出的语义描述符的量的许多适当的查询125对于技术人员而言将是显而易见的。

尽管本发明的方法特别适用于其中数据库110包括彼此具有某种相互联系的受限数量的电子文档112的数据处理***100，但应当指出的是，该方法并不局限于这样的类型的数据库。例如，在数据库内容大部分未知的情况下，如例如在数据库包括万维网（的一部分）时的情况那样，语义信息处理层120可以被进一步布置为限制电子文档112的数量，其中响应于在查询125中定义的搜索标准而从这些电子文档112中提取出语义描述符。可以通过仅考虑具有超过预先定义的阈值的相关性分数的那些文档来进一步减少所选择的电子文档112。在现有技术中存在许多方案来计算这样的相关性分数，并且可以使用用于计算这样的相关性分数的任何适当的方法。

此外，尽管优选地描述符明确地可用于感兴趣的电子文档，但应当指出的是，这并不是必需的。例如，可以在查询125中定义感兴趣的语义描述符，之后，语义信息处理层120被布置为识别所选择的电子文档112中的包含与查询定义的语义描述符相关的关键词的信息部分。为此，语义信息处理层120可以包括电子词典、辞典或用以识别这样的感兴趣的信息部分的类似数据库。这样的搜索算法自身是已知的，并且任何适当的搜索算法可以用于该目的。在这种情况下，利用非限制性的示例，可以通过部分或段落的开始和结束来定义信息部分的分界。

图2示出本发明的方法200的实施例的流程图。在步骤210中，提供包括具有按语义构造的信息部分的电子文档112的数据库110。在步骤220中，语义信息处理层120访问数据库110中的电子文档112，并且从这些文档中提取信息部分的语义描述符。可以使用任何适当的解析策略从这些文档中提取语义描述符。随后，如步骤230中所指示的，语义信息处理层120生成所提取的语义描述符的列表，从而允许用户选择相应的感兴趣的信息部分，其中该列表例如为之前所说明的树结构。该列表可以例如显示在数据处理***100的显示装置上。

在步骤240中，确定用户所选择的语义描述符。如之前所说明的，可以通过用户指示已经完成对感兴趣的语义描述符的选择来触发该步骤。在一个实施例中，还确定感兴趣的语义描述符被选择的顺序。接着，通过语义信息处理层120再次访问数据库110中的电子文档112，并且从这些电子文档中提取与用户所选择的语义描述符相对应的信息部分，如步骤250中所指示的。所提取的信息部分被编译在由语义信息处理层120所生成的一个或多个个人电子文档140中，从而使得用户无需搜索数据库110的电子文档112就可以访问所需的信息。在一个实施例中，根据步骤240中确定出的顺序，将信息部分排序在一个或多个个人电子文档140中。

在以下的使用情况中给出了本发明的方法200的实施例的应用的示例，其中在该使用情况下，Oracle数据库管理110包含大约100个不同的电子文档112。存在按语义构造的文档，其中对于这些文档内的每个部分或信息部分，具有标记（mark-up），即语义描述符。语义信息处理层120通读这些文档112中的每个的语义结构，并且生成针对不同的信息块和这些信息的关系的公用的树结构。该树结构中的某些树叶可以是独立的树叶，与其它树叶没有关联。用户可以从该树中选择所需的信息块，并且在要生成的最终文档140中按照要求对这些信息进行排序。

例如，用户可以从信息树中选择以下的语义描述符，并且可以按照以下方式来对这些描述符进行排序：

● Oracle数据库管理

○管理工具

■窗体开发器

■Oracle企业管理器

○应用管理

○备份和恢复

■增量备份

■恢复管理器

○索引/获取

■方法

■优点

语义信息处理层120随后将从所有100个不同的电子文档112中提取上面选择出的信息部分，并且创建包括处于与用户所指定的顺序相同的顺序中的所选择的信息的普通电子文档140。用户可以以如html、doc、pdf、text等的一种或多种格式来生成最终的文档。用户可以根据用户的选择和要求，将不同的搜索模板或皮肤应用于电子文档112。

图3示出本发明的方法300的另一实施例的一个方面的流程图。语义信息处理层120可以被布置为执行步骤310，在步骤310中，打开不具有语义描述符的电子文档。在步骤320中，程序设计器（例如数据库管理器）通过将适当的语义描述符***到所打开的文档中，来标记所打开的电子文档，从而使得可以根据例如图2所示的方法来访问标记后的文档中的信息部分。在将语义描述符***到电子文档中之后，在步骤330中，将该文档保存到例如数据库110中。

因此，方法300在被实现在软件程序产品中以供在计算机处理器上执行时将软件程序产品扩展为具有编辑模式，其中在该编辑模式下，可以将不包括按语义构造的信息的电子文档转换为被标记的电子文档，即适于根据图2中所示的方法进行访问的、包括这种按语义构造的信息的文档。

应当理解的是，可以在用于在计算机的处理器上执行的计算机程序产品中实现诸如图2所示的方法和图3所示的方法的本发明的方法的各种实施例，其中该处理器可以属于如图1所示的数据处理***100。该计算机程序产品在计算机处理器上被执行时被布置为执行诸如图2所示的方法的本发明的方法的实施例的步骤。实际上，计算机程序产品实现了图1的语义信息处理层120。可以使用任何适当的算法来形成该计算机程序产品。将本发明的方法的实施例实现为这种计算机程序产品对于技术人员来说是显而易见的，并且仅为了简要的原因，将不再对其进行进一步的详细讨论。

可以使根据本发明的实施例的计算机程序产品在诸如CD-ROM、DVD、便携式存储器装置的任何适当的计算机可读介质或者诸如因特网服务器上的软件档案文件的因特网可访问数据源上变得可用。其它适当的数据存储部件对于技术人员将是显而易见的。

图4示出了根据本发明的实施例的数据处理***400。计算机410具有处理器（未示出）和诸如鼠标和/或键盘的控制端420，并且可以访问存储在诸如硬盘或其它适当的存储装置的一个或多个存储装置的集合440上的数据库110，并且可以访问例如RAM或ROM存储器、硬盘等的包括实现语义信息处理层120的计算机程序产品的另一数据存储装置450。计算机410的处理器适用于执行实现语义信息处理层120的计算机程序产品。计算机410可以以任何适当的方式来访问一个或多个存储装置的集合440和/或另一数据存储装置450，例如通过可以是企业内部互联网、因特网、点到点网络或任何其它适当网络的网络430进行该访问。在一个实施例中，所述另一数据存储装置450被集成在计算机410中。

应当注意的是，上述实施例对本发明进行举例说明，而非用来限制本发明，并且本领域技术人员将能够在不背离所附权利要求的范围的情况下设计出许多可选的实施例。在权利要求中，括号内的任何附图标记不应当被解释为限制权利要求。词语“包括”并没有排除权利要求中所列的元件或步骤以外的元件或步骤的存在。元件之前的词语“一”或“一个”并没有排除多个这种元件的存在。可以利用包括若干个不同的元件的硬件来实现本发明。在列出若干个部件的装置权利要求中，这些部件的其中几个可以通过一个部件和相同的硬件项来实现。某些措施被描述在相互不同的从属权利要求中这一起码的事实并不表示无法使用这些措施的组合来进行改进。

Claims

1. 一种用于根据多个电子文档生成电子文档的方法，包括：

提供包括多个电子文档的数据库，其中所述文档中的每个均包括按语义构造的信息部分；

解析所述多个电子文档，以从所述文档中提取语义描述符，每个语义描述符与所述信息部分的其中一个相关；

显示所提取的语义描述符的概览，以供用户进行选择；

接收用户选择的提取出的语义描述符；

从所述多个电子文档中提取与用户选择的语义描述符相关的信息部分；以及

将所述提取出的部分组合到另外的电子文档中。

2. 根据权利要求1所述的方法，其中每个文档均包括具有与所述电子文档中的各个信息部分相关的多个语义描述符的相关联的文档。

3. 根据权利要求1所述的方法，其中所述概览包括树结构。

4. 根据权利要求3所述的方法，其中从多于一个的电子文档提取出的语义描述符由单个树叶来表示。

5. 根据权利要求1所述的方法，其中在所述解析步骤之前定义语义查询，并且所述解析步骤包括从与所述查询匹配的所述电子文档中提取语义描述符。

6. 根据权利要求1所述的方法，其中所述数据库包括至少一个未标记的电子文档，所述方法还包括通过将语义描述符***到所述至少一个未标记的电子文档中来标记该电子文档的各个信息部分。

7. 根据权利要求1所述的方法，其中所述信息部分在所述另外的电子文档中的顺序是基于用户选择这些信息部分的各自相关联的语义描述符的顺序。

8. 一种计算机程序产品，其被布置为在计算机上被执行时执行以下步骤：

访问包括多个电子文档的数据库，其中所述文档中的每个均包括按语义构造的信息部分；

将所提取的语义描述符的概览显示在与所述计算机连接的显示器上，以供用户进行选择；

接收用户选择的提取出的语义描述符；

将所述提取的部分组合到另外的电子文档中。

9. 根据权利要求8所述的计算机程序产品，其中每个文档均包括具有所述语义描述符的相关联的文档。

10. 根据权利要求8所述的计算机程序产品，其中所述概览包括树结构。

11. 根据权利要求10所述的计算机程序产品，其中从多于一个的电子文档提取出的语义描述符由单个树叶来表示。

12. 根据权利要求8所述的计算机程序产品，其中在所述解析步骤之前定义语义查询，并且其中所述解析步骤包括解析所述电子文档以从与所述查询匹配的电子文档中提取语义描述符。

13. 根据权利要求8所述的计算机程序产品，其中所述数据库包括至少一个未标记的电子文档，所述计算机程序产品还被适配为通过将语义描述符***到所述至少一个未标记的电子文档中来标记该电子文档的各个信息部分。

14. 一种计算机可读数据存储介质，其包括根据权利要求8-13中任一项所述的计算机程序产品。

15. 一种数据处理***，包括：

数据存储部件，其包括具有按语义构造的信息部分的多个电子文档；

计算机程序存储器，其包括根据权利要求8-13中任一项所述的计算机程序产品；以及

数据处理器，其能够访问所述计算机程序存储器和所述数据存储部件，所述数据处理器被布置为执行所述计算机程序产品。