CN102200996B - 对动态报告进行解析和索引 - Google Patents

对动态报告进行解析和索引 Download PDF

Info

Publication number
CN102200996B
CN102200996B CN201110081372.8A CN201110081372A CN102200996B CN 102200996 B CN102200996 B CN 102200996B CN 201110081372 A CN201110081372 A CN 201110081372A CN 102200996 B CN102200996 B CN 102200996B
Authority
CN
China
Prior art keywords
report
data
document
search
dynamic generation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201110081372.8A
Other languages
English (en)
Other versions
CN102200996A (zh
Inventor
L·王
X·杨
A·阿米罗夫
S·贾殷
S·塞贝尔斯凯
R·卡璐娜卡兰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Technology Licensing LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Technology Licensing LLC filed Critical Microsoft Technology Licensing LLC
Publication of CN102200996A publication Critical patent/CN102200996A/zh
Application granted granted Critical
Publication of CN102200996B publication Critical patent/CN102200996B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本文描述了对动态报告进行解析和索引,并提供了用于动态生成的报告的解析和索引机制。在检测到动态生成的报告之后,可基于元数据或与报告相关联的其它信息来标识动态生成的报告的数据源。可使用数据源来生成可爬行的或机器可读元数据和数据,使得报告中表示的数据和/或来自数据源的相关数据能够被索引和搜索。

Description

对动态报告进行解析和索引
技术领域
本发明涉及搜索技术,尤其涉及动态生成的报告的解析和索引。
背景技术
搜索引擎发现并存储与诸如网页之类的文档有关的信息,搜索引擎一般从文档的文本内容中检索这些信息。有时文档是由爬行器或自动化浏览器检索的,它们可追踪文档中或网站上的链接。传统爬行器一般通过检查词语以及它们的位置(例如,标题、头部或特殊字段)来将文档作为平面文本文件来分析。关于经分析的文档的数据可被存储在索引数据库中以供在稍后查询时使用。查询可包括单个单词或词语的组合。
动态报告是在文档在运行时创建的内容的文档或部分。每当运行动态报告时,从数据存储中收集最新的数据并将其提供给执行呈现动态报告的应用程序的本地计算设备。典型地,始终保持不变的报告定义被存储在该本地计算设备上。相反,静态报告通常是基于与报告定义(例如报告参数)一起存储在本地计算设备上的检索到的数据来生成的。
诸如以上讨论的传统搜索引擎检索文档内容并将它们作为纯文本来索引。因此,动态生成的报告中的数据对于传统搜索引擎而言可能无法被解析或索引。当动态生成的报告是诸如图表、图像或视频内容之类的非文本时,这种情况尤其真实。
发明内容
提供本概述是为了以简化的形式介绍将在以下详细描述中进一步描述的一些概念。本发明内容并非旨在标识所要求保护的主题的关键特征或必要特征,也不旨在用于帮助确定所要求保护的主题的范围。
实施例涉及动态生成的报告的解析和索引。在检测到动态生成的报告之后,可基于元数据或与报告相关联的其它信息来标识动态生成的报告的数据源。可使用数据源来生成可爬行的或机器可读的元数据和数据,使得报告中表示的数据和/或来自数据源的其他相关数据能够被索引和搜索。
通过阅读下面的具体实施方式并参考相关联的图形,这些及其他特点和优点将变得显而易见。可以理解,前述一般描述和以下具体实施方式均仅是说明性的,且不限制所要求保护的各方面。
附图说明
图1是描述在联网搜索环境中能够解析和索引动态生成的报告的搜索操作的概念图;
图2是描述文档的搜索的概念图,其中一些文档可包括直接连接到外部数据源的动态报告;
图3是描述文档的搜索的另一概念图,其中一些文档可包括通过中间层服务连接到外部数据源的动态报告;
图4描述了根据实施例的***中的示例情形,其中动态报告参数可在爬行时被修改;
图5是其中可实现根据各实施例的***的联网环境;
图6是其中可实现各实施例的示例计算操作环境的框图;以及
图7示出了根据各实施例的解析和索引动态报告的过程的逻辑流程图。
具体实施方式
如以上简要描述的,可检测动态生成的报告并且可基于元数据或与报告相关联的其它信息标识动态生成的报告的数据源。可使用数据源来生成机器可读元数据和数据,使得报告中表示的数据和/或来自数据源的其他相关数据能够被索引和搜索。在以下详细描述中,参考了构成了详细描述的一部分并作为说明示出了各具体实施方式或示例的附图。可组合些方面,可利用其他方面,并且可以做出结构上的改变而不背离本发明的精神或范围。因此,以下具体实施方式并不旨在限制,并且本发明的范围由所附权利要求及其等效方案来限定。
虽然在结合在个人计算机上的操作***上运行的应用程序执行的程序模块的一般上下文中描述了各实施方式,但是本领域技术人员会认识到各方面也可以结合其他程序模块实现。
一般而言,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、组件、数据结构和其他类型的结构。此外,如本领域技术人员理解的,各实施例可以用其他计算机***配置来实施,包括手持式设备、多处理器***、基于微处理器或可编程消费者电子产品、小型计算机、大型计算机以及类似计算设备。各实施方式还能在任务由通过通信网络链接的远程处理设备来执行的分布式计算环境中实现。在分布式计算环境中,程序模块可以位于本地和远程存储器存储设备中。
各实施例可被实现为计算机实现的过程(方法)、计算***、或者如计算机程序产品或计算机可读介质等制品。计算机程序产品可以是计算机***可读并且编码包括用于使得计算机或计算***执行示例过程的指令的计算机程序的计算机存储介质。例如,计算机可读存储介质可经由易失性计算机存储器、非易失性存储器、硬盘驱动器、闪存驱动器、软盘或紧致盘和类似介质中的一个或多个来实现。
贯穿本说明书,术语“平台”可以是用于管理计算机和网络操作(其可包括搜索)的软件和硬件组件的组合。平台的示例包括但不限于,在多个服务器上执行的托管服务、在单个服务器上执行的应用程序以及类似***。术语“服务器”一般指通常在联网环境中执行一个或多个软件程序的计算设备。然而,服务器还可被实现为视作网络上的服务器的、在一个或多个计算设备上执行的虚拟服务器(软件程序)。关于这些技术和示例操作的更多细节在以下提供。
图1包括概念图100,其描述了联网搜索环境中能够解析和索引动态生成的报告的搜索操作。图100中示出的联网搜索环境是为了描述的目的。可在诸如基于企业的网络、基于云的网络及其组合等各种联网环境中实现各实施例。
搜索引擎使用各种方法来对结果进行排名或基于文档与其他结果相比的相关性、流行度或权威性来对结果进行索引。索引还允许用户迅速找到所寻求的信息。当用户向搜索引擎提交查询(例如通过使用关键词)时,搜索引擎可检查其索引并根据预定准则提供匹配结果的列表。可根据从爬行到的文档的内容和/或用户数据中检索到的信息以及索引信息的方法来构建索引。查询可包括诸如布尔运算符(例如AND(与)、OR(或)、NOT(非)等)之类的参数,这些参数允许用户细化并扩展搜索的项。
如上所述的,动态报告在运行时创建以聚集来自数据存储的数据。数据存储可与呈现报告的应用程序位于同一计算设备上,或者位于通过网络连接的不同的计算设备上。报告可文本地或图形地呈现数据存储中的可用数据的一部分(或全部)。包括甚至还可以是视频格式(例如,呈现所选数据中的改变的时间依存报告)。因此,底层数据通常无法以文本格式由报告本身所提供。确实,报告甚至可能不包括正被用于执行搜索的关键词或搜索项。
根据实施例的搜索引擎允许增强的索引和搜索、检测报告类型、确定与检测的报告相关联的数据源、从数据源搜索底层数据、以及呈现机器可读的且因此可通过使用关键词或搜索项来搜索的动态报告。被提取的、被组织的、被排名的、以及被注释的信息可被索引和存储以供高速缓存以及当被用户搜索时的更快的搜索。
在图100的示例***中,用户102可通过它们的客户机104与各种联网服务交互。客户机104可指代执行一个或多个应用程序的计算设备、在一个或多个计算设备上执行的应用程序、或以分布式方式执行的且由用户102通过计算设备访问的服务。在典型的***中,客户机104可与一个或多个服务器(例如服务器112)通信。服务器112可为用户102执行搜索操作以在服务器112本身、其它客户机106、数据存储108、网络的其它服务器114、或网络110外部的资源上搜索文档。
在示例情形中,网络110可表示企业网络,其中用户102可提交搜索请求。服务器112上的搜索应用程序可爬行并评估文档,从而检测动态报告并确定相关联的数据源。爬行到的文档和检索到的信息可被用于对具有来自与爬行到的文档相关联的数据源的附加信息的计算机可读数据进行索引。搜索还可包括网络110外部的资源,诸如服务器116或服务器122以及数据存储120,它们可通过至少一个其它网络118来访问。搜索可在数据库资源、分析服务、门户、其它服务器、和/或台式机上执行。
已经用具体的服务器、客户机设备、软件模块和交互描述了图1的示例***。各实施例不限于根据这些示例配置的***。动态报告的解析和索引可以在采用更少或附加组件并执行其他任务的配置中实现。此外,可以使用此处描述的原理用相似的方式来实现具体的协议和/或接口。
图2是描述文档的搜索的概念图,其中一些文档可包括直接连接到外部数据源的动态报告。如上所述,动态生成的报告难以被爬行。尤其是当报告呈现为包含很少元数据且不是机器可读的图像或视频内容(而不是文本数据)时。一些动态生成的报告可能甚至不包括搜索项。根据实施例的搜索引擎确定报告的源,而不是尝试去解析和索引生成的报告本身。随后,基于报告的类型,从报告及其源来生成可爬行的元数据和数据。
根据实施例的搜索引擎(例如,搜索引擎226)可寻找包含文本数据、图形数据、视频数据、表格、图像以及类似形式的嵌入内容的文档。一些嵌入内容(或者整个文档)可以是动态生成的报告,其从诸如数据源224之类的外部数据源接收它们的数据。文档230是包含表格234(文本数据)、图表232以及视频数据236的示例文档。呈现的数据可能不与文档230本身物理地存储在一起。因此,传统的纯文本搜索可能不检测由任何这类元素所表示的动态数据。
在根据实施例的***中,搜索引擎226可首先基于与发布该文档的门户相关联的元数据或基于文档标识符(例如指派给该报告/文档的统一资源定位符“URL”)来检测动态报告的类型。接着,可执行分两步的爬行过程,其中首先解析文档的定义以及直接从定义中检索到的相关联的元数据和/或数据。爬行过程的第二步可包括检测文档(报告)的动态呈现部分,并基于报告类型,调用相关联的web服务、定制代码/方法/中间层服务器、本地报告呈现引擎、数据库、数据仓库、和/或其它数据源来将动态部分转换成机器可读格式。
搜索引擎226可随后对爬行结果进行索引以供更快的搜索相应,从而构建了索引。搜索引擎还可根据嵌入在文档中的报告类型和检索到的外部数据对搜索结果排名,并使得在由呈现应用程序228呈现搜索结果时能显示附加信息,以使得用户可确定文档对于他们的搜索而言的重要性/相关性。
图3包括描述文档的搜索的概念图300,其中一些文档可包括通过中间层服务连接到外部数据源的动态报告。图300中的文档230及其嵌入的示例报告与图2的图200中的相同。呈现应用程序228以及数据源224也与图2相同。
与图2不同的是,图3的文档230中的报告通过中间层服务340而不是直接地从数据源224接收其数据。因此,与文档230或其任何一份动态报告相关联的元数据可能不具体标识数据源224或与数据源相关联的任何特性。然而,搜索引擎326可从发布文档230的门户或文档的URL确定中间层服务340,并从中间层服务340检索与底层数据(例如数据类型、数据源224的URL等)相关联的信息。随后,如上讨论的,搜索引擎326可从动态报告中生成机器可读数据。
根据一些实施例,文档230可以是诸如包含表格、图表、报告、图示、经过滤的图表/表格以及类似元素的电子表格文档、控制板、或分数卡之类的商业智能文档。这些元素中的一些可以由应用程序而不是与电子表格文档相关联的电子表格应用程序生成,并且可被静态地或动态地(即元素数据驻存在外部源)嵌入在电子表格文档中。报告(例如图表和/或图示)可基于可从中间层服务340或数据源224可用的过滤数据来生成。因此,文档230中的报告可能不反映整个范围的可用数据。
由于外部数据可存储在诸如各数据库、服务器、表格等不同数据源中,因此与每一数据相关联的元数据和数据存储可以是不同的。搜索引擎326可确定与文档内的每个检测的报告相关联的数据类型、数据的范围以及数据存储类型。随后,爬行操作可被定制以检索与每个报告以及每个报告的数据相关联的信息。
另外,呈现应用程序228(或搜索引擎326)的用户界面可根据索引和排名策略来调整,使得不同种类的动态报告的搜索结果可以统一且一致的形式显示。例如,数据可被归类为与基于图表的报告、基于表格的报告、基于视频的报告等相关联,并且搜索结果可文本地和/或图形地指示每个结果的类别。
图4描述了根据实施例的***中的示例情形,其中动态报告参数可在爬行时被修改。由于动态报告所表示的数据可以是有限的(例如,从外部数据源处可用的数据经过滤而来),因此根据实施例的搜索引擎可从数据源检索附加信息来丰富搜索结果。例如,除应用过滤器的部分以外,附加尺寸(dimension)的部分也可从数据源处的数据中检索到,过滤参数的值可被修改,等等。
根据图400中显示的示例情形,文档446可包括基于来自外部数据源444的数据的动态生成的报告450。虽然存储在数据源444中的数据(452)可基于示例参数X、Y和Z,动态报告450可仅基于参数X来呈现数据(例如,数据源可按国家存储全球活动的销售数据,而报告可仅显示基于北美销售的图表)。为来自用户442的搜索请求作准备的爬行文档的搜索引擎425可寻找文档446、基于元数据448(例如标识符)来检测嵌入在文档中的报告的类型并聚集来自数据源444的相关信息,使得呈现的数据(基于参数X)以及附加可用数据(基于参数Y和Z)可被用于搜索。因此,根据实施例,用户442可能够基于所有的三个参数(单独地或组合地)从数据源444检索遵循报告450的显示格式(或以其它格式)的数据。
例如,来自用户的搜索请求454可基于参数Z来指示用户对数据的兴趣。在上述操作之后,搜索引擎426可修改动态报告的参数,并将从数据源444可用的基于参数Z的数据以搜索结果456的形式呈现给呈现应用程序428。根据上述示例,用户442可能对日本的销售数据感兴趣。在传统搜索中,由于报告450仅仅给出北美销售数据,因此报告450可能被丢弃,或者报告450被列在结果中但却因与用户无关而被跳过。根据实施例的搜索引擎不仅确定是否存在更多的与报告450相关联的底层数据,还将该数据呈现为可搜索的,并将其范围限制于用户搜索的焦点。因此,对日本内的销售数据的搜索的结果可能返回与报告450中显示的图表类似的、基于日本的销售数据的图表或者以可搜索形式对该数据的访问(同样基于日本的销售)。根据其它实施例,搜索引擎可将来自数据源444的全部数据呈现为可用。
图2、3以及4中的示例已通过具体文档类型、报告、数据类型和交互来进行描述。各实施例不限于根据这些示例配置的***。动态生成的报告的解析和索引可使用此处所描述的原理以类似方式采用其它类型的文档、报告和数据的配置来实施。
图5是可以实现各实施例的示例联网环境。提供搜索的、可确定动态报告以及将与动态报告相关联的数据呈现为机器可读的(以及由此是可搜索的)的平台可通过在一个或多个服务器514上执行的软件(诸如所主存的服务)来实现。该平台可以通过网络510来与诸如智能电话513、膝上型计算机512、或台式计算机511(‘客户机设备’)等各个计算设备上的客户机应用程序进行通信。
在客户机设备511-513的任何一个上执行的客户机应用程序可向客户机设备511-513上的、服务器514上的或个体服务器516上的搜索引擎提交搜索请求。搜索引擎可爬行具有动态报告的文档、检测报告类型、调用相关web服务或报告呈现引擎以基于如之前讨论的报告来生成可搜索格式的数据。该服务可直接从数据存储519中或通过数据库服务器518检索相关数据,并且通过客户机设备511-513将经排名的搜索结果提供给用户。服务可包括通过修改与动态报告相关联的过滤参数来进一步提供对结果的过滤和/或划定尺寸。
网络510可包括服务器、客户端、因特网服务供应商、以及通信介质的任何拓扑结构。根据各实施例的***可具有静态或动态拓扑结构。网络510可包括诸如企业网络等安全网络、诸如无线开放网络等非安全网络、或因特网。网络510还可通过诸如公共交换电话网络(PSTN)或蜂窝网络等其他网络来协调通信。此外,网络510可包括诸如蓝牙或类似网络等短程无线网络。网络510提供此处描述的节点之间的通信。作为示例而非限制,网络510可包括诸如声学、RF、红外线和其他无线介质等无线介质。
可以采用计算设备、应用程序、数据源和数据分发***的许多其它配置来实现用于解析和索引动态报告的框架。此外,图5中所讨论的联网环境仅用于说明目的。各实施方式不限于示例应用程序、模块、或过程。
图6及相关联的讨论旨在提供对其中可实现各实施方式的合适计算环境的简要概括描述。参考图6,示出了根据各实施例的、诸如计算设备600等用于应用程序的示例计算操作环境的框图。在基本配置中,计算设备600可以是根据各实施例的执行具有执行搜索能力的客户机应用程序的客户机设备、或执行具有执行搜索能力的服务的服务器,并且包括至少一个处理单元602和***存储器604。计算设备600还可包括协作执行程序的多个处理单元。取决于计算设备的确切配置和类型,***存储器604可以是易失性的(诸如RAM)、非易失性的(诸如ROM、闪存等)或是两者的某种组合。***存储器604通常包括适于控制平台操作的操作***605,诸如来自华盛顿州雷德蒙市的微软公司的操作***。***存储器604还可包括一个或多个软件应用程序,诸如程序模块606、有搜索能力的应用程序622、搜索引擎624和可任选地其它应用程序/数据626。
应用程序622可以是能够通过搜索引擎624对计算设备600中的其它应用程序/数据626和/或基于企业或基于云的联网环境中可用的各种数据执行搜索的任何应用程序。如之前所讨论的,通过检测动态报告、确定数据源、以及将所显示的数据呈现为可搜索的,搜索引擎624可爬行、索引、执行搜索、以及对结果排名。应用程序622以及搜索引擎624可以是独立的应用程序或者是所主存的服务的集成组件。该基本配置在图6中由虚线608内的那些组件示出。
计算设备600可具有附加特征或功能。例如,计算设备600还可包括附加数据存储设备(可移动和/或不可移动),诸如例如磁盘、光盘或磁带。在图6中通过可移动存储609和不可移动存储610示出了这样的附加存储。计算机可读介质可包括以用于存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。***存储器604、可移动存储609和不可移动存储610都是计算机可读介质的示例。计算机可读介质包括,但不限于,RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光存储、磁带、磁盘存储或其它磁存储设备、或能用于存储所需信息且可以由计算设备600访问的任何其它介质。任何这样的计算机可读介质都可以是计算设备600的一部分。计算设备600也可具有输入设备612,诸如键盘、鼠标、笔、语音输入设备、触摸输入设备和类似输入设备。还可包括输出设备614,诸如显示器、扬声器、打印机和其他类型的输出设备。这些设备在本领域中公知并且无需在此处详细讨论。
计算设备600还可包含通信连接616,该通信连接允许该设备诸如通过分布式计算环境中的有线或无线网络、卫星链接、蜂窝链接、短程网络和类似机制来与其他设备618进行通信。其他设备618可包括执行通信应用程序的计算机设备、其他web服务器和类似设备。通信连接616是通信介质的一个示例。通信介质可在其中包括计算机可读指令、数据结构、程序模块或其它数据。作为示例而非限制,通信介质包括有线介质,如有线网络或直接线连接,以及诸如声学、射频(RF)、红外线及其他无线介质之类的无线介质。
各示例实施例还包括各种方法。这些方法可以用任何数量的方式,包括本文中所描述的结构来实现。一种此类方式是通过本文中描述的类型的设备的机器操作。
另一可任选方式是结合一个或多个人类操作者执行该方法的各个操作中的某一些来执行该方法的一个或多个操作。这些人类操作者无需彼此同在一处,而是其每一个可以仅与执行程序的一部分的机器同在一处。
图7示出了根据各实施例的解析和索引动态报告的过程700的逻辑流程图。过程700可实现为在服务器或客户机设备上执行的应用程序的一部分。
过程700开始于操作710,在该处搜索内容被爬行以供索引。如之前讨论的,搜索可以在台式机环境、基于企业的网络、基于云的网络、或基于企业的网络与基于云的网络的组合中执行。在操作720,可基于与发布包含报告或报告/文档的标识符的文档的门户相关联的信息来检测动态报告。
在任选操作730,文档的静态部分可被解析并被检索数据/元数据用于索引。在操作740,可从元数据中确定与报告相关联的数据源。这之后跟着进行操作750,在该处,底层数据被呈现为可搜索的并且被索引的。响应于在操作760接收搜索请求,在操作770基于经索引的信息的搜索结果可被提供给请求方用户。
包括在过程700内的各操作仅出于说明目的。动态生成的报告的解析和索引可以使用此处所述的各原理通过具有更少或更多步骤的相似过程、以及以不同的操作次序来实现。
以上说明书、示例和数据提供了对各实施方式组成的制造和使用的全面描述。尽管用结构特征和/或方法动作专用的语言描述了本主题,但可以理解,所附权利要求书中定义的主题不必限于上述具体特征或动作。相反,上述具体特征和动作是作为实现权利要求和各实施方式的示例形式而公开的。

Claims (14)

1.一种至少部分地在计算设备中执行的用于解析和索引动态生成的报告的方法,所述方法包括:
检测用户向在客户机设备上执行的搜索引擎提交的搜索查询中的搜索请求,其中执行在所述客户机设备上的应用访问服务器以便执行所述搜索请求;
在与所述客户机设备相关联的台式机环境和联网环境中的一个上爬行所述搜索请求中搜索的内容;
检测与所搜索的内容的文档相关联的所述动态生成的报告,其中所述文档包括以下的一者或多者:商业智能文档、电子表格、控制板、以及分数卡,并且其中包括图表、报告、图示和表格的元素被静态和动态地嵌入在所述文档中,所述动态生成的报告包括报告定义并且呈现关于所述文档中的所搜索的内容部分的静态数据,使得所搜索的内容能够被索引和存储以供所述用户进行搜索时高速缓存和获取;
确定所述动态生成的报告的报告类型,所述动态生成的报告动态地显示来自外部数据源的数据;
基于与所述动态生成的报告相关联的元数据来确定与所述动态生成的报告相关联的数据源;
基于所述外部数据源的类型和与所述动态生成的报告相关联的数据的类型中的一者或多者来定制爬行操作;
从与所述动态生成的报告相关联的外部数据源检索数据;
基于与所述文档相关联的报告类型以及所检索的数据对爬行结果进行排名;以及
启用所呈现的可搜索数据的呈现以使得所述用户能够确定所述爬行结果的每一个文档的重要性。
2.如权利要求1所述的方法,其特征在于,还包括:
从与发布所检测的报告的门户相关联的元数据以及与所述动态生成的报告相关联的标识符中的一个来确定报告类型。
3.如权利要求2所述的方法,其特征在于,所述与所述动态生成的报告相关联的标识符是统一资源定位符(URL)。
4.如权利要求2所述的方法,其特征在于,所述动态生成的报告被嵌入到文档内,所述文档还包括存储在所述文档内的静态数据,并且所述方法还包括:
对存储在文档中的静态数据进行解析和索引。
5.如权利要求1所述的方法,其特征在于,所述动态生成的报告包括来自以下一组中的至少一个:图形地表示存储在外部数据源处的数据的一部分的图表、图示、图像、以及视频显示。
6.如权利要求1所述的方法,其特征在于,所述爬行在台式机环境和联网环境中的一个中执行,并且外部数据源包括以下之一:服务器、客户机设备、以及数据存储之一上的文档以及数据库。
7.一种用于在搜索操作中对动态生成的报告进行解析和索引的方法,所述方法包括:
检测用户向在客户机设备上执行的搜索引擎提交的搜索查询中的搜索请求,其中执行在所述客户机设备上的应用访问服务器以便执行所述搜索请求;
在与所述客户机设备相关联的台式机环境和联网环境中的一个上爬行所述搜索请求中搜索的内容;
检查嵌入在文档内的所述动态生成的报告,其中所述文档包括以下的一者或多者:商业智能文档、电子表格、控制板、以及分数卡,并且其中包括图表、报告、图示和表格的元素被静态和动态地嵌入在所述文档中,并且其中所述动态生成的报告包括报告定义和不可爬行的数据,并且所述文档还包括可爬行的动态数据;
基于与文档相关联的元数据和与所述动态生成的报告相关联的标识符来确定报告类型以及与所述动态生成的报告相关联的外部数据源;
确定与存储在外部数据源中的动态生成的报告相关联的数据的类型;
基于所述外部数据源的类型和与所述动态生成的报告相关联的数据的类型中的一者或多者来定制爬行操作;
从与所述动态生成的报告相关联的外部数据源检索数据;
对所述数据进行提取、组织、排名以及注释;以及
启用所呈现的可搜索数据的呈现以使得所述用户能够确定所述爬行结果的每一个文档的重要性。
8.如权利要求7所述的方法,其特征在于,所述动态生成的报告基于过滤参数的第一值来表示存储在外部数据源中的数据的一部分。
9.如权利要求8所述的方法,其特征在于,还包括:
确定过滤参数的范围;以及
基于过滤参数的整个范围将存储在外部数据源中的数据呈现为可爬行的。
10.如权利要求7所述的方法,其特征在于,还包括:
基于以下至少一个来实现呈现与所述动态生成的报告相关联的搜索结果:用动态生成的报告所使用的格式来显示的数据以及用文本格式显示的数据。
11.如权利要求7所述的方法,其特征在于,搜索是对以下一组中的至少一个来执行的:数据库源、分析服务、门户、另一服务器、以及台式机,且其中所述联网环境包括下列中的一个:基于企业的网络、基于云的网络、以及基于企业的网络和基于云的网络的组合。
12.一种用于在搜索操作中对动态生成的报告进行解析和索引的方法,所述方法包括:
检测用户向在客户机设备上执行的搜索引擎提交的搜索查询中的搜索请求,其中执行在所述客户机设备上的应用访问服务器以便执行所述搜索请求;
在与所述客户机设备相关联的台式机环境和联网环境中的一个上爬行所述搜索请求中搜索的内容;
检测与所搜索的内容的文档相关联的所述动态生成的报告,其中所述文档包括以下的一者或多者:商业智能文档、电子表格、控制板、以及分数卡,并且其中包括图表、报告、图示和表格的元素被静态和动态地嵌入在所述文档中,所述动态生成的报告包括报告定义并且呈现关于所述文档中的所搜索的内容部分的静态数据,使得所搜索的内容能够被索引和存储以供所述用户进行搜索时高速缓存和检索;
基于与所述动态生成的报告相关联的外部数据源的类型和数据的类型中的一者或多者来定制爬行操作;
基于与所述动态生成的报告相关联的标识符来确定报告类型;
通过解析文档的定义来从文档的静态部分检索数据和元数据;以及
从与动态生成的报告相关联的外部数据源检索数据和元数据。
13.如权利要求12所述的方法,其特征在于,所述方法还包括:
基于与报告相关联的元数据确定中间层服务;以及
基于从所述中间层服务检索到的数据和元数据中的一个来确定外部源。
14.如权利要求12所述的方法,其特征在于,所述方法还包括:
基于来自用户的搜索请求来修改过滤参数的值;
基于修改后的过滤参数来从外部数据源检索数据和元数据;以及
以动态生成的报告所使用的格式以及搜索结果所用的文本格式中的一个来显示所检索的数据。
CN201110081372.8A 2010-03-25 2011-03-24 对动态报告进行解析和索引 Active CN102200996B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US12/731,322 US20110238653A1 (en) 2010-03-25 2010-03-25 Parsing and indexing dynamic reports
US12/731,322 2010-03-25

Publications (2)

Publication Number Publication Date
CN102200996A CN102200996A (zh) 2011-09-28
CN102200996B true CN102200996B (zh) 2016-12-21

Family

ID=44657525

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110081372.8A Active CN102200996B (zh) 2010-03-25 2011-03-24 对动态报告进行解析和索引

Country Status (2)

Country Link
US (1) US20110238653A1 (zh)
CN (1) CN102200996B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102109990A (zh) * 2009-12-29 2011-06-29 捷达世软件(深圳)有限公司 报表智能化显示***及方法
US8527556B2 (en) * 2010-09-27 2013-09-03 Business Objects Software Limited Systems and methods to update a content store associated with a search index
US9104992B2 (en) 2010-12-17 2015-08-11 Microsoft Technology Licensing, Llc Business application publication
US9111238B2 (en) 2010-12-17 2015-08-18 Microsoft Technology Licensing, Llc Data feed having customizable analytic and visual behavior
US9069557B2 (en) * 2010-12-17 2015-06-30 Microsoft Technology Licensing, LLP Business intelligence document
US8352444B1 (en) * 2011-07-11 2013-01-08 Peter Hon-You Chang User-driven menu generation system with dynamic generation of target files with placeholders for persistent change or temporary security change over cloud computing virtual storage from template files
CN104778208A (zh) * 2015-03-11 2015-07-15 赵业东 一种搜索引擎 seo 网站数据的优化抓取方法及***
CN108540335B (zh) * 2017-12-20 2021-11-12 深圳市轱辘车联数据技术有限公司 设备分析报告的管理方法及管理装置
US11023551B2 (en) * 2018-02-23 2021-06-01 Accenture Global Solutions Limited Document processing based on proxy logs

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6434573B1 (en) * 1997-09-23 2002-08-13 At&T Corp. Method for effective indexing of partially dynamic documents
US6631402B1 (en) * 1997-09-26 2003-10-07 Worldcom, Inc. Integrated proxy interface for web based report requester tool set
CN101089856A (zh) * 2007-07-20 2007-12-19 李沫南 一种提取网页数据的方法和Web爬虫***
CN101263471A (zh) * 2005-09-12 2008-09-10 微软公司 用于客户机脚本网页的初始服务器侧内容呈现
CN101443751A (zh) * 2004-11-22 2009-05-27 特鲁维奥公司 用于应用爬取器的方法和装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6308168B1 (en) * 1999-02-09 2001-10-23 Knowledge Discovery One, Inc. Metadata-driven data presentation module for database system
US20040123246A1 (en) * 2002-12-23 2004-06-24 Ju Wu Apparatus and method for creating new reports from discrete reports
US20040187111A1 (en) * 2003-02-21 2004-09-23 Eakin William Joseph Content management portal and method for communicating media content
CA2545232A1 (en) * 2005-07-29 2007-01-29 Cognos Incorporated Method and system for creating a taxonomy from business-oriented metadata content
US20070250466A1 (en) * 2006-04-19 2007-10-25 Shriharsha Imrapur Method and system for generating an analytical report including a contextual knowledge panel
US20110082848A1 (en) * 2009-10-05 2011-04-07 Lev Goldentouch Systems, methods and computer program products for search results management

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6434573B1 (en) * 1997-09-23 2002-08-13 At&T Corp. Method for effective indexing of partially dynamic documents
US6631402B1 (en) * 1997-09-26 2003-10-07 Worldcom, Inc. Integrated proxy interface for web based report requester tool set
CN101443751A (zh) * 2004-11-22 2009-05-27 特鲁维奥公司 用于应用爬取器的方法和装置
CN101263471A (zh) * 2005-09-12 2008-09-10 微软公司 用于客户机脚本网页的初始服务器侧内容呈现
CN101089856A (zh) * 2007-07-20 2007-12-19 李沫南 一种提取网页数据的方法和Web爬虫***

Also Published As

Publication number Publication date
US20110238653A1 (en) 2011-09-29
CN102200996A (zh) 2011-09-28

Similar Documents

Publication Publication Date Title
CN102200996B (zh) 对动态报告进行解析和索引
US8285702B2 (en) Content analysis simulator for improving site findability in information retrieval systems
KR101168705B1 (ko) 이동통신 단말기와 아이피 기반 정보 단말기를 이용한 맞춤, 지능형 심볼, 아이콘 인터넷 정보 검색시스템
KR101665152B1 (ko) 컴퓨팅 장치, 비즈니스 데이터의 획득 방법 및 컴퓨터 판독 가능 저장 매체
US9311402B2 (en) System and method for invoking functionalities using contextual relations
US9305100B2 (en) Object oriented data and metadata based search
US20140074622A1 (en) Systems and methods for rule based inclusion of pixel retargeting in campaign management
CN102822820B (zh) 使用虚拟文档进行索引和搜索
US20110282861A1 (en) Extracting higher-order knowledge from structured data
US20160103861A1 (en) Method and system for establishing a performance index of websites
CN101454779A (zh) 基于搜索的应用开发框架
WO2011112744A2 (en) User role based customizable semantic search
US8671108B2 (en) Methods and systems for detecting website orphan content
US20160103913A1 (en) Method and system for calculating a degree of linkage for webpages
US8533176B2 (en) Business application search
US20100070856A1 (en) Method for Graphical Visualization of Multiple Traversed Breadcrumb Trails
US20150302090A1 (en) Method and System for the Structural Analysis of Websites
US20080243877A1 (en) Promoting content from one content management system to another content management system
US7650571B2 (en) Smart links and dynamic favorites
US20070168179A1 (en) Method, program, and system for optimizing search results using end user keyword claiming
US20050120299A1 (en) System and method for creation of a network server application page
Arnoux et al. Automatic clustering for the web usage mining
Bolchini et al. Using context for the extraction of relational views
Hernández et al. Model-driven development of multidimensional models from web log files
CA3217667A1 (en) Methods and systems for obtaining and storing web pages

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: MICROSOFT TECHNOLOGY LICENSING LLC

Free format text: FORMER OWNER: MICROSOFT CORP.

Effective date: 20150729

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20150729

Address after: Washington State

Applicant after: Micro soft technique license Co., Ltd

Address before: Washington State

Applicant before: Microsoft Corp.

C14 Grant of patent or utility model
GR01 Patent grant