CN101925899A - 对文件内容进行分布式索引 - Google Patents

对文件内容进行分布式索引 Download PDF

Info

Publication number
CN101925899A
CN101925899A CN2009801032026A CN200980103202A CN101925899A CN 101925899 A CN101925899 A CN 101925899A CN 2009801032026 A CN2009801032026 A CN 2009801032026A CN 200980103202 A CN200980103202 A CN 200980103202A CN 101925899 A CN101925899 A CN 101925899A
Authority
CN
China
Prior art keywords
content
index information
based index
file
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2009801032026A
Other languages
English (en)
Inventor
A·J·K·坦比拉特南
F·塞德
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of CN101925899A publication Critical patent/CN101925899A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices
    • G06F16/134Distributed indices

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Storage Device Security (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本文描述的是一种特别地用于对文件内容进行分布式索引的技术。对文件进行基于内容的索引涉及确定该文件的基于内容的索引信息是否可从外部源获得。这避免重复已执行的内容分析,尤其对于非文本文件而言内容分析是耗时且计算密集的。如果基于内容的索引信息可用,则从外部源接收它并存储它。如果基于内容的索引信息不可用或不完整,则生成并存储该文件的基于内容的索引信息。此外,与外部源共享所生成的基于内容的索引信息。一旦执行了该文件的内容分析从而生成了该文件的基于内容的索引信息,则在需要时该基于内容的索引信息是可用并可共享的。不需要重复对该文件的同一内容分析。

Description

对文件内容进行分布式索引
背景
信息被收集在各种类型的设备中(例如,计算机、服务器、存储介质、媒体播放器、电话等)以供私人使用和/或公共使用。信息的量继续增长。这一增长提出了关于访问感兴趣的信息和确定什么信息可用的挑战。
为这一信息创建索引帮助访问感兴趣的信息和确定什么信息可用。通常,这一信息包括若干类型的文件。文本文件、音频文件、视频文件、图像文件、以及图形文件是文件类型的示例。基于内容的索引信息和非基于内容的索引信息是可被包括在文件索引中的各类索引信息。基于内容的索引信息指的是从分析文件的内容而生成的索引信息。非基于内容的索引信息指的是从与文件相关联的除该文件的内容之外的任何数据生成的索引信息。元数据、文件名、以及文件描述是非基于内容的索引信息的源的示例。
已经部署了在网络级操作的索引实现(例如,因特网索引搜索引擎)和在设备级操作的索引实现(例如,计算机索引搜索引擎)。这些索引实现的有用性取决于若干因素,如其索引的范围和其索引中包括的索引信息的类型。被索引的文件的数量和这些文件的多样性反映了索引的范围。因为基于内容的索引信息一般比非基于内容的索引信息提供更多的文件知识,所以索引具有文件的基于内容的索引信息是合乎需要的。
虽然基于内容的索引信息是优选的,但存在着与在索引中包括基于内容的索引信息相关联的问题。尽管生成文本文件的基于内容的索引信息在准确度、所需时间努力、以及所需计算资源方面是切实可行的,但对非文本文件(例如,音频文件、视频文件、图像文件、以及图形文件)而言情况并非如此。非文本文件的基于内容的索引信息的准确度变化很大且在某些情况下不可使用。生成非文本文件的基于内容的索引信息需要大量计算资源并且是很耗时的。在进行作为后台操作来执行的索引的情况下,生成非文本文件的基于内容的索引信息可能因索引使用了过多计算资源而干扰正常使用模式,或者可能因未使用时间段和可用计算资源不足以支持索引而不能完成。
概述
提供本概述是为了以简化的形式介绍将在以下详细描述中进一步描述的一些概念。本概述并不旨在标识所要求保护的主题的关键特征或必要特征,也不旨在用于帮助确定所要求保护的主题的范围。
本文描述的是一种特别地用于对文件内容进行分布式索引的技术。基于文件的内容来创建其索引是合乎需要的。文件可以是文本文件或非文本文件(例如,音频文件、视频文件、图像文件、以及图形文件等)。基于内容对文件进行索引涉及确定该文件的基于内容的索引信息是否可从外部源获得。任何单个设备以及任何设备网络都是外部源的示例。这避免重复已执行的内容分析,尤其对于非文本文件而言内容分析是耗时且计算密集的。如果基于内容的索引信息可用,则从外部源接收它并存储它。如果基于内容的索引信息不可用或不完整,则生成并存储该文件的基于内容的索引信息。此外,与外部源共享所生成的基于内容的索引信息。一旦执行了该文件的内容分析从而生成了该文件的基于内容的索引信息,则在需要时该基于内容的索引信息是可用并可共享的。不需要重复对该文件的同一内容分析。
因此,各实施例提供了一种通过分布索引生成和共享分布式索引生成的结果来对文本文件和非文本文件进行基于内容的索引的切实可行的方式。各实施例允许基于内容的索引信息以各种方式变化。执行不同类型的内容分析、使用多个参数设置来进行内容分析、以及聚集对文件的不同部分执行的内容分析是使基于内容的索引信息变化的示例。
附图简述
合并在本说明书中并形成其一部分的附图示出了各实施例,并且与说明书一起用于解释各实施例的原理。
图1是根据各实施例的集中式索引源环境的框图。
图2是根据各实施例的分散式索引源环境的框图。
图3示出根据各实施例的用于对文件进行基于内容的索引的流程图。
图4示出根据各实施例的用于对文件进行基于内容的索引的流程图,其中文件的不同部分是单独索引的。
图5示出根据各实施例的用于对文件进行基于内容的索引的流程图,其中基于内容的索引包括各种索引模式,每一种索引模式都与不同类型的内容分析相对应。
图6示出根据各实施例的用于对文件进行基于内容的索引的流程图,其中基于内容的索引包括各种索引表现形式,每一种表现形式都与执行使用不同参数设置的内容分析相对应。
详细描述
现在将详细参考各优选实施例,其示例在各附图中示出。尽管将结合各优选实施例来描述本发明,但可以理解,其并不旨在将本发明限于这些实施例。相反,本发明旨在涵盖可被包括在权利要求书所定义的本发明的精神和范围内的替换、修改和等效技术方案。此外,在该详细描述中,阐明了众多具体细节以提供对本发明的全面理解。然而,本领域普通技术人员显然可以理解,无须这些具体细节也可以实现本发明。在其他情况下,未详细描述公知的方法、过程、组件和电路以免不必要地使本发明的各方面显得晦涩难懂。
概览
对文件进行基于内容的索引比对文件进行非基于内容的索引需要更多努力,尤其是对非文本文件(例如,音频文件、视频文件、图像文件、图形文件等)而言。然而,如果索引生成是分布式的并且如果共享分布式索引生成的结果,则基于内容的索引对任何类型的文件而言都是切实可行的。本文描述的是一种特别地用于对文件内容进行分布式索引的技术。文件可以是文本文件或非文本文件(例如,音频文件、视频文件、图像文件、以及图形文件等)。
根据各实施例,对文件进行基于内容的索引涉及确定该文件的基于内容的索引信息是否可从外部源获得。任何单个设备以及任何设备网络都是外部源的示例。这避免重复已执行的内容分析,尤其对于非文本文件而言内容分析是耗时且计算密集的。如果基于内容的索引信息可用,则从外部源接收它并存储它。如果基于内容的索引信息不可用或不完整,则生成并存储该文件的基于内容的索引信息。此外,与外部源共享所生成的基于内容的索引信息。一旦执行了该文件的内容分析从而生成了该文件的基于内容的索引信息,则在需要时该基于内容的索引信息是可用并可共享的。不需要重复对该文件的同一内容分析。
通过分布索引生成并共享该分布式索引生成的结果提供了一种对文件进行基于内容的索引的切实可行的方式。基于内容的索引信息能以各种方式变化。执行不同类型的内容分析、使用多个参数设置来进行内容分析、以及聚集对文件的不同部分执行的内容分析是使基于内容的索引信息变化的示例。
以下讨论将以对用于各实施例的索引源环境的描述开始。讨论随后进行至对分布式的基于内容的索引技术的描述。
索引源环境
根据各实施例,生成基于内容的索引信息的时间和计算负担被分布给任何类型的多个设备。基于内容的索引信息指的是从分析文件的内容而生成的索引信息。此外,一个设备所生成的基于内容的索引信息与其他设备进行共享。如果第一设备已经执行了对文件的内容分析而生成了该文件的基于内容的索引信息,则第二设备不需要对该文件重复同一内容分析,因为第一设备所生成的基于内容的索引信息是可用的并可与第二设备共享。即,外部源可以提供该文件的基于内容的索引信息以避免对该文件进行内容分析以生成该基于内容的索引信息的时间和计算负担。存在着协作以确保不重复基于内容的索引信息的繁重生成。
外部源可以是任何类型。外部源的示例包括计算机、服务器、存储介质、媒体播放器、以及电话。在一实施例中,外部源被实现成集中式索引源。即,文件的基于内容的索引信息是在集中式索引源处收集的,其接收对文件的基于内容的索引信息的请求并通过在所请求的基于内容的索引信息可用的情况下发送该信息来对这些请求作出响应。这一集中式索引源环境在图1中描绘并在以下详细描述。在一实施例中,外部源被实现成分散式索引源。即,文件的基于内容的索引信息以分布式方式存储在多个分散式索引源之中。每一分散式索引源都在需要时共享其各自的基于内容的索引信息。这一分散式索引源环境在图2中描绘并在以下详细描述。
图1是根据各实施例的集中式索引源环境100的框图。如图1所示,集中式索引源环境100包括中央索引源50和多个设备10、20、30及40。中央索引源50个多个设备10、20、30及40都耦合到网络80。网络80可以是因特网。设备10、20、30及40可以是任何类型的设备。计算机、服务器、存储介质、媒体播放器、以及电话是设备类型的示例。应当理解,集中式索引源环境100可具有其他配置。
设备A 10、设备B 20、设备C 30及设备D 40中的每一个都包括处理器(例如,分别是处理器14A-14D)、索引单元(例如,分别是索引单元17A-17D)、存储单元(例如,分别是存储单元12A-12D)、以及网络通信单元(例如,分别是网络通信单元16A-16D)。此外,设备A 10、设备B 20、设备C 30及设备D 40分别经由连接15、连接25、连接35及连接45耦合到网络80。连接15、25、35及45可以是有线的或是无线的。
每一索引单元17A-17D分别可用于利用相应处理器14A-14D来请求并从中央索引源50接收文件的基于内容的索引信息,中央索引源50是基于内容的索引信息的外部源。接收到的基于内容的索引信息可以存储在相应的存储单元12A-12D中。此外,每一索引单元17A-17D可用于利用相应处理器14A-14D来生成文件的基于内容的索引信息。所生成的基于内容的索引信息可以存储在相应的存储单元12A-12D中。此外,所生成的基于内容的索引信息与中央索引源50共享。结果,所生成的基于内容的索引信息可以经由中央索引源50来与设备10、20、30及40中的任一个进行共享。同样,每一索引单元17A-17D可用于利用相应处理器14A-14D来创建包括从中央索引源50接收到的基于内容的索引信息和所生成的基于内容的索引信息的索引。
在一实施例中,代替将从中央索引源50请求其基于内容的索引信息的文件或生成了其基于内容的索引信息的文件发送到中央索引源50,发送该文件的唯一标识符。发送文件是不切实际或不方便的,尤其是在该文件具有大量内容的情况下。唯一标识符比文件小。为了维持文件的内容的私密性,唯一标识符标识该文件而不公开该文件的内容。在一实施例中,每一索引单元17A-17D可用于利用相应处理器14A-14D来创建文件的唯一散列(例如,MD5(消息摘要算法5)散列),其中该散列是唯一标识符。对具有相同内容的任何两个文件而言,散列通常是相同的。出于速度、方便、以及私密性的目的,接收到的文件的基于内容的索引信息与该文件的散列相关联。类似地,所生成的文件的基于内容的索引信息与该文件的散列相关联。
在一实施例中,将安全特征添加到文件的基于内容的索引信息。该安全特征可以是数字签名。评估从中央索引源50接收到的基于内容的索引信息的安全特征来确定其是否可信。基于该评估,作出是否存储和使用接收到的基于内容的索引信息的决定。在一实施例中,每一索引单元17A-17D可用于利用相应处理器14A-14D来评估安全特征并将该安全特征添加到所生成的基于内容的索引信息。
在一实施例中,设备A 10、设备B 20、设备C 30及设备D 40中的每一个可用于使用被用来生成与中央索引源50共享的基于内容的索引信息的索引工具(例如,软件)的数字签名来对该基于内容的索引信息进行签名。这允许中央索引源50确定基于内容的索引信息的质量并确定其可信性。
在一实施例中,每一索引单元17A-17D包括内容分析器(例如,分别是内容分析器11A-11D)和搜索单元13(分别是搜索单元13A-13D)。每一搜索单元13A-17D可用于利用相应处理器14A-14D来搜索包括从中央索引源50接收到的基于内容的索引信息和所生成的基于内容的索引信息的索引。
继续,每一内容分析器11A-17D可用于利用相应处理器14A-14D来生成文件的基于内容的索引信息。文件可以是文本文件或非文本文件(例如,音频文件、视频文件、图像文件、以及图形文件等)。每一内容分析器11A-11D对文件的内容执行内容分析。该内容分析可以是任何类型的内容分析。字符分析、语音分析、视频分析、以及声学分析是内容分析类型的一些示例。字母数字字符、所讲词语、视觉元素、以及音乐特征的检测和识别是通过内容分析生成的基于内容的索引信息的一些示例。
如上所述,尤其是生成非文本文件的基于内容的索引信息需要大量计算资源并且是很耗时的。相应设备10、20、30及40的每一内容分析器11A-11D和处理器14A-14D可以对文件的整个内容执行内容分析。然而,文件内容的量越大,相应设备10、20、30及40的每一内容分析器11A-11D和处理器14A-14D能够对该文件的整个内容执行内容分析就越不实际,尤其是在其中进行基于内容的索引是后台操作的情况下。在一实施例中,相应设备10、20、30及40的每一内容分析器11A-11D和处理器14A-14D只对文件的一部分内容执行内容分析。即,内容分析被分成对相应设备10、20、30及40的每一内容分析器11A-11D和处理器14A-14D执行起来更实际的多个内容分析任务。每一内容分析任务都与对文件内容的不同部分执行内容分析以生成基于内容的索引信息的部分组相对应。例如,可以执行与1小时音频文件的5分钟段相对应的12个内容分析任务以生成基于内容的索引信息的12个单独的部分组。基于内容的索引信息的这些单独生成的部分组被组合或聚集以形成该文件的完整的基于内容的索引信息。
这一部分索引可以按协调方式或按非协调方式来实现。在一实施例中,协调方式涉及中央索引源50对将文件内容划分成多个部分进行管理和控制,其中对每一文件内容部分执行内容分析的结果是基于内容的索引信息的部分组。因此,中央索引源50响应于来自设备(设备A 10、设备B 20、设备C 30或设备D 40)的请求来选择各文件内容部分之一并将其分配给该设备,从而避免对同一文件内容部分进行重复内容分析。在一实施例中,非协调方式涉及任何设备(例如,设备A 10、设备B 20、设备C 30或设备D 40)挑选文件内容的一随机部分、对该随机部分执行内容分析以生成基于内容的索引信息的部分组、以及将所生成的基于内容的索引信息的部分组与索引源50(或以下参考图2描述的对等网络)进行共享。因此,将所生成的基于内容的索引信息的部分组与其他设备所生成的基于内容的索引信息的任何其他部分组进行归并是每一设备的责任。
因为存在许多类型的内容分析,所以对文件执行不同类型的内容分析是有利的。在一实施例中,相应设备10、20、30及40的每一内容分析器11A-11D和处理器14A-14D执行文件的内容分析以实现对该文件的若干类型的内容分析的执行。即,基于内容的索引包括各种索引模式,每一种索引模式都与不同类型的内容分析相对应。对于每一种索引模式,存在与对文件执行对应类型的内容分析相对应的一组基于内容的索引信息。作为示例,语音分析可以与第一索引模式相对应,视频分析可以与第二索引模式相对应,以及声学分析可以与文件的基于内容的多模索引的第三索引模式相对应。因此,可以满足不同的索引搜索需求。
这一多模索引可以按协调方式或按非协调方式来实现。在一实施例中,协调方式涉及中央索引源50负责响应于来自设备(设备A 10、设备B 20、设备C 30或设备D 40)的请求来选择用于生成并共享的索引模式并且将其分配给该设备,从而防止重复努力。在一实施例中,非协调方式涉及任何设备(例如,设备A 10、设备B 20、设备C 30或设备D 40)挑选各索引模式中的其基于内容的索引信息当前不可用的随机一种索引模式。生成与随机选择的索引模式相对应的基于内容的索引信息并将其与中央索引源50(或以下参考图2描述的对等网络)进行共享。
尤其是对于非文本文件而言,考虑到基于内容的索引信息的准确度可能变化很大,所以准确度的提高是合乎需要的。在一实施例中,相应设备10、20、30及40的每一内容分析器11A-11D和处理器14A-14D执行文件的内容分析以实现对该文件执行使用不同参数设置的内容分析。即,基于内容的索引包括各种索引表现形式,每一种表现形式与执行使用不同参数设置的内容分析相对应。对于每一种索引表现形式,存在与对文件执行使用对应的参数设置的内容分析相对应的一组基于内容的索引信息。将各组基于内容的索引信息进行归并以形成具有比单独各组基于内容的索引信息更高的准确度的经归并的基于内容的索引信息。作为示例,使用基于对话语音的隐马尔科夫模型参数设置的语音识别分析可以与第一索引表现形式相对应,使用基于广播新闻语音的隐马尔科夫模型参数设置的语音识别分析可以与第二索引表现形式相对应,并且使用基于干净阅读语音的隐马尔科夫模型参数设置的语音识别分析可以与文件的基于内容的多表现形式索引的第三索引表现形式相对应。可以使用诸如ROVER(识别器输出投票误差减少)等技术来归并来自第一、第二、以及第三索引表现形式的各组基于内容的索引信息以形成比来自第一、第二、以及第三索引表现形式的单独各组基于内容的索引信息具有更高准确度的经归并的基于内容的索引信息。
这一多表现形式索引可以按协调方式或按非协调方式来实现。在一实施例中,协调方式涉及中央索引源50负责响应于来自设备(设备A 10、设备B 20、设备C 30或设备D 40)的请求来选择用于生成并共享的索引表现形式并且将其分配给该设备,从而避免重复努力。在一实施例中,非协调方式涉及任何设备(例如,设备A 10、设备B 20、设备C 30或设备D 40)挑选各索引表现形式中的其基于内容的索引信息当前不可用的随机一种索引表现形式。生成与随机选择的索引表现形式相对应的基于内容的索引信息并将其与中央索引源50(或以下参考图2描述的对等网络)进行共享。
上述部分索引、多模索引、以及多表现形式索引可以按各种方式来组合。使用部分索引完成的索引模式、使用部分索引完成的索引表现形式、以及具有各种索引表现形式的单独索引模式都是将部分索引、多模索引、以及多表现形式索引进行组合的示例。此外,实现部分索引、多模索引、以及多表现形式索引是因为内容分析的分布和分布式内容分析的结果的共享。
返回到图1,中央索引源50包括处理器51、索引单元54、存储单元52、以及网络通信单元56。此外,中央索引源50经由连接55耦合到网络80。连接55可以是有线的或是无线的。在一实施例中,中央索引源50是服务器。
存储单元52存储文件的基于内容的索引信息。在一实施例中,文件的基于内容的索引信息是从设备10、20、30、及40接收的。在一实施例中,中央索引源50可以生成文件的基于内容的索引信息并将其存储在存储单元52中。出于速度、方便、以及私密性的目的,接收到的文件的基于内容的索引信息与该文件的散列相关联。类似地,所生成的文件的基于内容的索引信息与该文件的散列相关联。在一实施例中,中央索引源50帮助协调上述部分索引、多模索引、以及多表现方式索引。
索引单元54可用于利用处理器51来接收对文件的基于内容的索引信息的请求,并将文件的基于内容的索引信息发送到设备10、20、30、及40。此外,在一实施例中,索引单元54可用于利用处理器51来生成文件的基于内容的索引信息。
在一实施例中,中央索引源50被配置成基于存储在存储单元52中的基于内容的索引信息来维护索引,并被配置成允许对该索引执行搜索。索引单元54还可用于利用处理器51来搜索网络80(例如,因特网)以发现供包括在该索引的范围中的文件。同样,索引单元54可用于利用处理器51来接收并处理从设备10、20、30、及40接收到的基于内容的索引信息以检测并消除不规则性。不规则性的示例包括恶意索引信息、有害索引信息、以及非法索引信息。此外,索引单元54可用于利用处理器51来生成文件的非基于内容的索引信息。非基于内容的索引信息指的是从与文件相关联的除该文件的内容之外的任何数据生成的索引信息。元数据、文件名、以及文件描述是非基于内容的索引信息的源的示例。所生成的非基于内容的索引信息可以存储在存储单元52中并可以是所维护的索引的一部分。同样,所生成的文件的非基于内容的索引信息与该文件的散列相关联。因此,对于包括在所维护的索引的范围中的新文件,索引信息可以是从设备10、20、30、及40接收到的基于内容的索引信息;可以是索引单元54和处理器51所生成的基于内容的索引信息;和/或可以是索引单元54和处理器51所生成的非基于内容的索引信息。
图2是根据各实施例的分散式索引源环境200的框图。除非在以下说明,否则参考图1的讨论适用于图2。如图2所示,分散式索引源环境200包括耦合到网络80的多个设备10、20、30、及40。网络80可以是因特网。设备10、20、30及40可以是任何类型的设备。计算机、服务器、存储介质、媒体播放器、以及电话是设备类型的示例。应当理解,分散式索引源环境200可具有其他配置。
设备10、20、30、及40被配置成对等网络。每一设备10、20、30、及40将其本地生成的基于内容的索引信息展示给对等网络。该本地生成的基于内容的索引信息可由对等网络的其他设备通过在该对等网络中执行对该本地生成的基于内容的索引信息的搜索来发现。随后,从对等网络的适当设备10、20、30、及40请求并接收所需的基于内容的索引信息,其中对等网络的适当设备10、20、30、及40对于对等网络的发出请求的设备而言是基于内容的索引信息的外部源。即,参考图1描述的向中央索引源50的对基于内容的索引信息的请求由图2中描绘的对于对等网络中的本地生成的基于内容的索引信息的搜索来替换。此外,参考图1描述的将基于内容的索引信息传输到中央索引源50由图2中描绘的将本地生成的基于内容的索引信息展示给对等网络的发布操作来替换。因此,基于内容的索引信息经由对等网络来共享。
分布式的基于内容的索引技术
以下讨论详细阐明分布式的基于内容的索引技术的操作。参考图3-6,流程图300、400、500、及600各自示出分布式的基于内容的索引的各实施例所使用的示例步骤。流程图300、400、500、及600包括在各实施例中由处理器在存储于任何类型的计算机可读介质中的计算机可读和计算机可执行指令的控制下实现的各种过程。虽然在流程图300、400、500及600中公开了各具体步骤,但这些步骤是示例。即,各实施例很好地适于执行各种其他步骤或流程图300、400、500、及600中所描述的步骤的变型。可以明白,流程图300、400、500、及600中的步骤可以用与所呈现的不同的次序来执行,并且并非要执行流程图300、400、500及600中的全部步骤。
图3示出根据各实施例的用于对文件进行基于内容的索引的流程图300。出于讨论的目的,基于内容的索引在参考图1描述的集中式索引源环境100中发生。
在设备A中选择文件来进行索引(框310)。文件可以是文本文件或非文本文件(例如,音频文件、视频文件、图像文件、以及图形文件等)。在一实施例中,设备A的索引单元17A选择文件。
继续,设备A 10创建所选文件的唯一散列(例如,MD5(消息摘要算法5)散列),其中该散列是唯一标识符(框320)。在一实施例中,索引单元17A创建该唯一散列。
设备A 10从中央索引源50请求所选文件的基于内容的索引信息(框330)。在一实施例中,索引单元17A请求基于内容的索引信息。该请求包括所选文件的散列而非所选文件。因此,私密性和速度得到维持,因为所选文件未被发送到中央索引源50。
如果中央索引源50具有所选文件的基于内容的索引信息,则设备A 10从中央索引源50接收并存储所选文件的基于内容的索引信息(框340、框350、及框360)。所选文件现在可通过使用接收到的基于内容的索引信息来在设备A 10中搜索。在一实施例中,具有对接收到的基于内容的索引信息的安全特征(例如,数字签名)的评估,设备A 10决定是否存储和使用该接收到的基于内容的索引信息。
如果中央索引源50不具有所选文件的基于内容的索引信息,则设备A10生成并存储所选文件的基于内容的索引信息并且与中央索引源50共享所生成的基于内容的索引信息(框370、框380、及框390)。在一实施例中,内容分析器11A对所选文件执行内容分析以生成基于内容的索引信息。可以对所选文件的整个内容执行内容分析。所选文件现在可通过使用所生成的基于内容的索引信息来在设备A 10中搜索。在一实施例中,设备A 10将所选文件的唯一散列和所生成的基于内容的索引信息发送到中央索引源50。因此,在向中央索引源50请求的情况下,所选文件的所生成的基于内容的索引信息对设备B 20、设备C 30、及设备D 40可用。
图4示出根据各实施例的用于对文件进行基于内容的索引的流程图400,其中文件的不同部分是单独索引的。即,上述部分索引技术在图4中示出。出于讨论的目的,基于内容的索引在参考图1描述的集中式索引源环境100中发生。
在设备A中选择文件来进行索引(框410)。文件可以是文本文件或非文本文件(例如,音频文件、视频文件、图像文件、以及图形文件等)。在一实施例中,设备A的索引单元17A选择文件。
继续,设备A 10创建所选文件的唯一散列(例如,MD5(消息摘要算法5)散列),其中该散列是唯一标识符(框420)。在一实施例中,索引单元17A创建该唯一散列。
设备A 10从中央索引源50请求所选文件的基于内容的索引信息(框430)。在一实施例中,索引单元17A请求基于内容的索引信息。该请求包括所选文件的散列而非所选文件。因此,私密性和速度得到维持,因为所选文件未被发送到中央索引源50。
如果中央索引源50具有所选文件的基于内容的索引信息并且该基于内容的索引信息是完整的,则设备A 10从中央索引源50接收并存储所选文件的基于内容的索引信息(框440、框450、框455、及框460)。所选文件现在可通过使用接收到的基于内容的索引信息来在设备A 10中搜索。与参考图3的讨论相类似,在一实施例中,设备A 10基于对接收到的基于内容的索引信息的安全特征(例如,数字签名)的评估来决定是否存储并使用接收到的基于内容的索引信息。
如果中央索引源50不具有所选文件的基于内容的索引信息或者如果所选文件的基于内容的索引信息不完整,则中央索引源50选择所选文件的一部分,向设备A 10分配与对文件内容的所选部分执行内容分析以生成基于内容的索引信息的部分组相对应的内容分析任务,并发送来自已经执行的内容分析任务的基于内容的索引信息的任何可用的部分组(框440、框450、框465、及框470)。例如,该部分可以是非文本文件(例如,音频文件、视频文件等)的有限段(例如,5分钟段)。
图4的部分索引技术的一个好处是所选文件现在可在设备A 10中在来自已经执行的内容分析任务的被发送到设备A 10的基于内容的索引信息的任何可用部分组的程度上进行搜索的事实。即,在能够对所选文件执行搜索之前不必等待直至对整个所选文件进行了索引。这降低了所选文件可用的时间与所选文件可被搜索的时间之间的滞后时间。
设备A 10对文件内容的所选部分(例如,5分钟段)执行内容分析以生成基于内容的索引信息的部分组(框475)。此外,设备A 10将所生成的基于内容的索引信息的部分组与从中央索引源50接收到的基于内容的索引信息的任何部分组进行归和存储,并与中央索引源50共享所生成的基于内容的索引信息的部分组(框480和框485)。在一实施例中,内容分析器11A对文件内容的所选部分执行内容分析。所选文件现在可在设备A 10中在所生成的基于内容的索引信息的部分组的程度上进一步搜索。在一实施例中,设备A 10将所选文件的唯一散列和所生成的基于内容的索引信息的部分组发送到中央索引源50。中央索引源50将所生成的基于内容的索引信息的部分组与来自已经执行的内容分析任务的基于内容的索引信息的任何可用部分组相组合。如果该组合指示所选文件的基于内容的索引信息的完整性,则中央索引源50将所选文件指定为具有完整的基于内容的索引信息。同样,在向中央索引源50请求的情况下,所生成的所选文件的基于内容的索引信息的部分组对设备B 20、设备C 30、及设备D 40可用。在一实施例中,如果所选文件的基于内容的索引信息是不完整的,则设备A 10调度对中央索引源50中的基于内容的索引信息的新部分组的周期性检查。
图5示出根据各实施例的用于对文件进行基于内容的索引的流程图500,其中基于内容的索引包括各种索引模式,每一种索引模式都与不同类型的内容分析相对应。即,上述多模索引技术在图5中示出。出于讨论的目的,基于内容的索引在参考图1描述的集中式索引源环境100中发生。定义各索引模式。即,指定索引模式的数量(例如,三个)和每一模式的内容分析类型(例如,语音分析、视频分析、以及声学分析)。
在设备A中选择文件来进行索引(框510)。文件可以是文本文件或非文本文件(例如,音频文件、视频文件、图像文件、以及图形文件等)。在一实施例中,设备A的索引单元17A选择文件。
继续,设备A 10创建所选文件的唯一散列(例如,MD5(消息摘要算法5)散列),其中该散列是唯一标识符(框520)。在一实施例中,索引单元17A创建该唯一散列。
设备A 10从中央索引源50请求所选文件的每一索引模式(框530),其中对于每一索引模式,存在与对所选文件执行对应类型的内容分析相对应的一组基于内容的索引信息。在一实施例中,索引单元17A请求所选文件的每一索引模式。该请求包括所选文件的散列而非所选文件。因此,私密性和速度得到维持,因为所选文件未被发送到中央索引源50。
如果中央索引源50具有所选文件的索引模式并且这些索引模式是完整的,则设备A 10从中央索引源50接收并存储这些索引模式的各组基于内容的索引信息(框540、框550、框555、及框560)。所选文件现在可在设备A 10中在中央索引源50所发送的各索引模式的各组基于内容的索引信息的程度上搜索。与参考图3和图4的讨论相类似,在一实施例中,设备A 10基于对接收到的各组基于内容的索引信息的安全特征(例如,数字签名)的评估来决定是否存储并使用所接收到的各索引模式的各组基于内容的索引信息。
如果中央索引源50不具有所选文件的索引模式或者如果这些索引模式不完整,则中央索引源50选择所选文件的索引模式,分配设备A 10来对所选文件执行与所选索引模式相对应的类型的内容分析以生成所选索引模式的一组基于内容的索引信息,并发送任何可用索引模式的各组基于内容的索引信息(框540、框550、框565、及框570)。所选文件先在可在设备A 10中在中央索引源50所发送的任何可用索引模式的任何各组基于内容的索引信息的程度上搜索。
设备A 10对文件内容执行与所选索引模式相对应的内容分析(例如,语音分析)以生成并存储所选索引模式的一组基于内容的索引信息,并且与中央索引源50共享所生成的所选索引模式的该组基于内容的索引信息(框575、框580、及框585)。在一实施例中,内容分析器11A执行与所选索引模式相对应的内容分析。所选文件现在可在设备A 10中在所生成的所选索引模式的该组基于内容的索引信息的程度上进一步搜索。在一实施例中,设备A 10将唯一散列和所生成的所选索引模式的该组基于内容的索引信息发送到中央索引源50。中央索引源50收集所生成的所选索引模式的该组基于内容的索引信息与所选文件的任何可用索引模式的任何各组基于内容的索引信息。如果该集合指示所选文件的索引模式的完整性,则中央索引源50将所选文件指定为具有完整的索引模式。同样,在向中央索引源50请求的情况下,所生成的所选文件的所选索引模式的该组基于内容的索引信息对设备B 20、设备C 30、及设备D 40可用。在一实施例中,如果所选文件的索引模式是不完整的,则设备A 10调度对中央索引源50中的所选文件的索引模式的新的一(各)组基于内容的索引信息的周期性检查。
图6示出根据各实施例的用于对文件进行基于内容的索引的流程图600,其中基于内容的索引包括各种索引表现形式,每一种表现形式都与执行使用不同参数设置的内容分析相对应。即,上述多表现形式索引技术在图6中示出。出于讨论的目的,基于内容的索引在参考图1描述的集中式索引源环境100中发生。定义各索引表现形式。即,指定索引表现形式的数量(例如,三个)、内容分析类型(例如,语音识别分析)、以及每一索引表现形式的参数设置(例如,基于对话语音的隐马尔科夫模型参数设置、基于广播新闻语音的隐马尔科夫模型参数设置、以及基于干净阅读语音的隐马尔科夫模型参数设置)。
在设备A中选择文件来进行索引(框610)。文件可以是文本文件或非文本文件(例如,音频文件、视频文件、图像文件、以及图形文件等)。在一实施例中,设备A的索引单元17A选择文件。
继续,设备A 10创建所选文件的唯一散列(例如,MD5(消息摘要算法5)散列),其中该散列是唯一标识符(框620)。在一实施例中,索引单元17A创建该唯一散列。
设备A 10从中央索引源50请求所选文件的每一索引表现形式(框630),其中对于每一索引表现形式,存在与对所选文件执行使用对应参数设置的内容分析相对应的一组基于内容的索引信息。将各组基于内容的索引信息进行归并以形成具有比单独各组基于内容的索引信息更高的准确度的经归并的基于内容的索引信息。在一实施例中,索引单元17A请求所选文件的每一索引表现形式。该请求包括所选文件的散列而非所选文件。因此,私密性和速度得到维持,因为所选文件未被发送到中央索引源50。
如果中央索引源50具有所选文件的索引表现形式并且这些索引表现形式是完整的,则设备A 10从中央索引源50接收并归并这些索引表现形式的各组基于内容的索引信息以形成经归并的基于内容的索引信息,并存储该经归并的基于内容的索引信息(框640、框650、框655、框657、及框660)。所选文件现在可在设备A 10中在经归并的基于内容的索引信息的程度上搜索。与参考图3、图4和图5的讨论相类似,在一实施例中,设备A 10基于对接收到的各索引表现形式的各组基于内容的索引信息的安全特征(例如,数字签名)的评估来决定是否存储并使用所接收到的各索引表现形式的各组基于内容的索引信息。
如果中央索引源50不具有所选文件的索引表现形式或者如果这些索引表现形式不完整,则中央索引源50选择所选文件的索引表现形式,分配设备A 10来执行使用与所选索引表现形式相对应的参数设置的内容分析以生成所选索引表现形式的一组基于内容的索引信息,并发送任何可用索引表现形式的各组基于内容的索引信息(框640、框650、框665、及框670)。所选文件现在可在设备A 10中在中央索引源所发送的任何可用索引表现形式的任何各组基于内容的索引信息的程度上搜索。
设备A 10对该文件内容执行使用与所选索引表现形式相对应的参数设置(例如,基于对话语音的隐马尔科夫模型参数设置)的内容分析以生成所选索引表现形式的一组基于内容的索引信息,将所生成的所选索引表现形式的该组基于内容的索引信息与任何接收到的任何可用索引表现形式的各组基于内容的索引信息相归并以形成经归并的基于内容的索引信息,存储该经归并的基于内容的索引信息,并与中央索引源50共享所生成的所选索引表现形式的该组基于内容的索引信息(框675、框677、框680、以及框685)。在一实施例中,内容分析器11A执行使用与索引模式相对应的参数设置的内容分析。所选文件现在可在设备A 10中在所生成的所选索引表现形式的该组基于内容的索引信息的程度上进一步搜索。在一实施例中,设备A 10将唯一散列和所生成的所选索引表现形式的该组基于内容的索引信息发送到中央索引源50。中央索引源50收集所生成的所选索引表现形式的该组基于内容的索引信息与所选文件的任何可用索引表现形式的任何各组基于内容的索引信息。如果该集合指示所选文件的索引表现形式的完整性,则中央索引源50将所选文件指定为具有完整的索引表现形式。同样,在向中央索引源50请求的情况下,所生成的所选文件的所选索引表现形式的该组基于内容的索引信息对设备B 20、设备C 30、及设备D 40可用。在一实施例中,如果所选文件的索引表现形式是不完整的,则设备A 10调度对中央索引源50中的所选文件的索引表现形式的新的一(各)组基于内容的索引信息的周期性检查。
在一实施例中,中央索引源50归并文件的各索引表现形式也是可能的。因此,中央索引源50可以将文件的经归并的索引表现形式发送到设备A 10而非发送各单独的索引表现形式。此外,中央索引源50可以将从设备A 10接收到的索引表现形式与该文件的任何其他索引表现形式或经归并的索引表现形式相归并。
各实施例提供各种好处。使得对文本文件和非文本文件的基于内容的索引切实可行并且实际。出于准确度和多样性的目的,可以灵活地分布时间和计算负担以准许各种基于内容的索引信息。多个设备的集合避免了对大型索引专用计算资源的进行投资的需求。如上所述,这一协作可以是协调或非协调的。
提供所公开的各实施例的先前描述以使得本领域任何技术人员能够做出或使用本发明。对这些实施例的各种修改对于本领域技术人员将是显而易见的,并且本文中定义的普适原理可被应用于其他实施例而不会脱离本公开的精神或范围。因此,本发明不是旨在限于本文所示的各实施例,而是按照与本文所公开的原理和新颖特征相一致的最宽范围。

Claims (10)

1.一种对文件进行基于内容的索引的方法(300),所述方法包括:
确定所述文件的基于内容的索引信息是否可从外部源获得(340);
如果所述文件的所述基于内容的索引信息可从所述外部源获得,则从所述外部源接收并存储所述基于内容的索引信息(350、360);以及
如果发生所述文件的所述基于内容的索引信息不可从所述外部源获得和所述文件的所述基于内容的索引信息不完整中的任一种情况,则生成并存储所述文件的基于内容的索引信息并且与所述外部源共享所生成的基于内容的索引信息(370、380、390)。
2.如权利要求1所述的方法(300),其特征在于,所述生成并存储所述文件的所述基于内容的索引信息包括:
对所述文件的整个内容执行内容分析以生成所述基于内容的索引信息。
3.如权利要求1所述的方法(300),其特征在于,所述生成并存储所述文件的所述基于内容的索引信息包括:
对所述文件的内容的一部分执行内容分析以生成所述基于内容的索引信息。
4.如权利要求1所述的方法(300),其特征在于,所接收到的所述文件的基于内容的索引信息包括通过执行第一类型的内容分析而生成的基于内容的索引信息,并且其中所述生成并存储所述文件的所述基于内容的索引信息包括:
对所述文件的内容的至少一部分执行第二类型的内容分析以生成所述基于内容的索引信息。
5.如权利要求1所述的方法(300),其特征在于,所接收到的所述文件的基于内容的索引信息包括通过执行使用第一参数设置的内容分析而生成的基于内容的索引信息,并且其中所述生成并存储所述文件的所述基于内容的索引信息包括:
对所述文件的内容的至少一部分执行使用第二参数设置的内容分析以生成所述基于内容的索引信息。
6.如权利要求5所述的方法(300),其特征在于,所述生成并存储所述文件的所述基于内容的索引信息还包括:
将所接收到的基于内容的索引信息与所述所生成的基于内容的索引信息相归并以生成具有比所述所接收到的基于内容的索引信息的准确度和所述所生成的基于内容的索引信息的准确度更高的准确度的经归并的基于内容的索引信息。
7.如权利要求1所述的方法(300),其特征在于,还包括:
创建所述文件的不公开所述文件的内容的唯一标识符;以及
将所述唯一标识符与所接收到的基于内容的索引信息和所述所生成的基于内容的索引信息相关联。
8.如权利要求1所述的方法(300),其特征在于,还包括:
在存储所接收到的基于内容的索引信息之前,评估所述所接收到的基于内容的索引信息的第一安全特征以确定是否存储所述所接收到的基于内容的索引信息;以及
将第二安全特征添加到所生成的基于内容的索引信息。
9.如权利要求1所述的方法(300),其特征在于,所述外部源包括服务器(50)。
10.如权利要求1所述的方法(300),其特征在于,所述外部源包括对等网络的设备。
CN2009801032026A 2008-01-23 2009-01-23 对文件内容进行分布式索引 Pending CN101925899A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/018,203 US20090187588A1 (en) 2008-01-23 2008-01-23 Distributed indexing of file content
US12/018,203 2008-01-23
PCT/US2009/031913 WO2009094594A2 (en) 2008-01-23 2009-01-23 Distributed indexing of file content

Publications (1)

Publication Number Publication Date
CN101925899A true CN101925899A (zh) 2010-12-22

Family

ID=40877274

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009801032026A Pending CN101925899A (zh) 2008-01-23 2009-01-23 对文件内容进行分布式索引

Country Status (5)

Country Link
US (1) US20090187588A1 (zh)
EP (1) EP2235651A4 (zh)
JP (1) JP2011510422A (zh)
CN (1) CN101925899A (zh)
WO (1) WO2009094594A2 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102402587A (zh) * 2011-10-25 2012-04-04 上海聚力传媒技术有限公司 一种在对等网络中建立索引的方法、装置与***
CN108292302A (zh) * 2016-02-01 2018-07-17 微软技术许可有限责任公司 重复内容自动呈现

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8335776B2 (en) 2008-07-02 2012-12-18 Commvault Systems, Inc. Distributed indexing system for data storage
JP5310399B2 (ja) * 2009-09-01 2013-10-09 富士通株式会社 索引管理装置の処理方法および索引管理装置
CN102104526A (zh) * 2009-12-16 2011-06-22 华为技术有限公司 一种内容发布与获取的方法、装置和***
US8645485B1 (en) * 2012-01-30 2014-02-04 Google Inc. Social based aggregation of related media content
US9143742B1 (en) 2012-01-30 2015-09-22 Google Inc. Automated aggregation of related media content
US8805797B2 (en) * 2012-02-22 2014-08-12 International Business Machines Corporation Optimizing wide area network (WAN) traffic by providing home site deduplication information to a cache site
US9591337B1 (en) * 2012-03-27 2017-03-07 Cox Communications, Inc. Point to point media on demand
JP6064546B2 (ja) * 2012-11-27 2017-01-25 キヤノンマーケティングジャパン株式会社 情報処理装置、情報処理方法、プログラム、情報処理システム
US9444717B1 (en) * 2013-02-28 2016-09-13 Amazon Technologies, Inc. Test generation service
US9436725B1 (en) * 2013-02-28 2016-09-06 Amazon Technologies, Inc. Live data center test framework
US9396160B1 (en) * 2013-02-28 2016-07-19 Amazon Technologies, Inc. Automated test generation service
RU2580036C2 (ru) 2013-06-28 2016-04-10 Закрытое акционерное общество "Лаборатория Касперского" Система и способ создания гибкой свертки для обнаружения вредоносных программ
US10057325B2 (en) * 2014-03-31 2018-08-21 Nuvestack, Inc. Remote desktop infrastructure
CN109981529B (zh) * 2017-12-27 2021-11-12 西门子(中国)有限公司 报文获取方法、装置、***及计算机存储介质
US11416548B2 (en) 2019-05-02 2022-08-16 International Business Machines Corporation Index management for a database
US11144335B2 (en) * 2020-01-30 2021-10-12 Salesforce.Com, Inc. System or method to display blockchain information with centralized information in a tenant interface on a multi-tenant platform

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3362362B2 (ja) * 1992-01-08 2003-01-07 日本電信電話株式会社 マルチ情報カメラ
JP3433818B2 (ja) * 1993-03-31 2003-08-04 日本ビクター株式会社 楽曲検索装置
US6314420B1 (en) * 1996-04-04 2001-11-06 Lycos, Inc. Collaborative/adaptive search engine
US5983218A (en) * 1997-06-30 1999-11-09 Xerox Corporation Multimedia database for use over networks
JPH11213014A (ja) * 1997-11-19 1999-08-06 Nippon Steel Corp データベースシステム、データベース検索方法及び記録媒体
KR100312331B1 (ko) * 1998-02-14 2001-12-28 이계철 내용기반영상검색방법및장치
US6714909B1 (en) * 1998-08-13 2004-03-30 At&T Corp. System and method for automated multimedia content indexing and retrieval
US6564263B1 (en) * 1998-12-04 2003-05-13 International Business Machines Corporation Multimedia content description framework
JP2000250944A (ja) * 1998-12-28 2000-09-14 Toshiba Corp 情報提供方法、情報提供装置、情報受信装置、並びに情報記述方法
US6516337B1 (en) * 1999-10-14 2003-02-04 Arcessa, Inc. Sending to a central indexing site meta data or signatures from objects on a computer network
US7222163B1 (en) * 2000-04-07 2007-05-22 Virage, Inc. System and method for hosting of video content over a network
KR20040041082A (ko) * 2000-07-24 2004-05-13 비브콤 인코포레이티드 멀티미디어 북마크와 비디오의 가상 편집을 위한 시스템및 방법
US7685224B2 (en) * 2001-01-11 2010-03-23 Truelocal Inc. Method for providing an attribute bounded network of computers
JP2002245061A (ja) * 2001-02-14 2002-08-30 Seiko Epson Corp キーワード抽出
KR100434718B1 (ko) * 2001-02-15 2004-06-07 전석진 문서 색인 시스템 및 그 방법
JP4186456B2 (ja) * 2001-11-28 2008-11-26 沖電気工業株式会社 分散ファイル共有システムおよびその制御方法
US7020654B1 (en) * 2001-12-05 2006-03-28 Sun Microsystems, Inc. Methods and apparatus for indexing content
KR20030065684A (ko) * 2002-01-30 2003-08-09 주식회사 리얼타임테크 색인 기반의 동영상 컨텐츠 관리 시스템 및 그 서비스 방법
US7735104B2 (en) * 2003-03-20 2010-06-08 The Directv Group, Inc. System and method for navigation of indexed video content
US7174433B2 (en) * 2003-04-03 2007-02-06 Commvault Systems, Inc. System and method for dynamically sharing media in a computer network
US8095500B2 (en) * 2003-06-13 2012-01-10 Brilliant Digital Entertainment, Inc. Methods and systems for searching content in distributed computing networks
DE10333530A1 (de) * 2003-07-23 2005-03-17 Siemens Ag Automatische Indexierung von digitalen Bildarchiven zur inhaltsbasierten, kontextsensitiven Suche
US8694317B2 (en) * 2005-02-05 2014-04-08 Aurix Limited Methods and apparatus relating to searching of spoken audio data
US7610273B2 (en) * 2005-03-22 2009-10-27 Microsoft Corporation Application identity and rating service
US7991767B2 (en) * 2005-04-29 2011-08-02 International Business Machines Corporation Method for providing a shared search index in a peer to peer network
US20080228900A1 (en) * 2007-03-14 2008-09-18 Disney Enterprises, Inc. Method and system for facilitating the transfer of a computer file

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102402587A (zh) * 2011-10-25 2012-04-04 上海聚力传媒技术有限公司 一种在对等网络中建立索引的方法、装置与***
CN108292302A (zh) * 2016-02-01 2018-07-17 微软技术许可有限责任公司 重复内容自动呈现
CN108292302B (zh) * 2016-02-01 2022-06-24 微软技术许可有限责任公司 用于重复内容的自动呈现的方法和***

Also Published As

Publication number Publication date
WO2009094594A3 (en) 2009-09-17
EP2235651A2 (en) 2010-10-06
JP2011510422A (ja) 2011-03-31
US20090187588A1 (en) 2009-07-23
EP2235651A4 (en) 2013-01-02
WO2009094594A2 (en) 2009-07-30

Similar Documents

Publication Publication Date Title
CN101925899A (zh) 对文件内容进行分布式索引
US10776170B2 (en) Software service execution apparatus, system, and method
JP4940410B2 (ja) ユーザ・ツー・ユーザレコメンダ
KR20200069352A (ko) 융합 데이터 처리 방법 및 정보 추천 시스템
JP6281225B2 (ja) 情報処理装置
US20130325847A1 (en) Graph-based searching
US9135307B1 (en) Selectively generating alternative queries
KR20090073181A (ko) 자주 문의되는 질문 리스트를 자동으로 생성하기 위한 컴퓨터 구현 방법 및 컴퓨터 판독가능 매체
KR101761263B1 (ko) 이미지 기반의 관심 제품과 관심 부품의 검색 방법 및 그 시스템
US10656624B2 (en) Identify a model that matches a 3D object
US20120254148A1 (en) Serving multiple search indexes
JP6430515B2 (ja) 証明文書の自動生成
JP2018067302A (ja) ソフトウェアサービス実行装置、システム、及び方法
US8266178B2 (en) Management apparatus, information processing apparatus, and method therefor
JP2010282241A (ja) ファイル管理装置、ファイル管理システム、ファイル管理方法、および、プログラム
JP6237633B2 (ja) 分散ストレージ装置、ストレージノード、データ提供方法およびプログラム
TW201447614A (zh) 使用導航模式進行搜尋任務
JP5181283B2 (ja) データ処理装置、ワークフローシステム、データ処理方法及びコンピュータプログラム
CN111767060A (zh) 多阶段灰度验证方法、装置、电子设备及介质
KR101417395B1 (ko) 공급기업 발굴을 위한 시스템 및 그 방법
CN102609419B (zh) 相似数据排重方法
CN110188247A (zh) 情报生成方法、装置、计算机设备及计算机可读存储介质
WO2013153725A1 (ja) データ検索装置、データ検索方法およびデータ検索用プログラム
CN102968593A (zh) 用于多租户环境下定位应用程序的隔离点的方法和***
JP2009199552A (ja) 検索ナビゲーション装置及び方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20101222