CN1975729A

CN1975729A - 搜索文本中关键词的***及其方法

Info

Publication number: CN1975729A
Application number: CNA2006101463951A
Authority: CN
Inventors: 宅间大介; 坪井裕太; 吉田一星
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2005-12-02
Filing date: 2006-11-13
Publication date: 2007-06-06
Anticipated expiration: 2026-11-13
Also published as: US7945552B2; US7584184B2; CN100449546C; JP2007156739A; US20070136274A1; KR20070058333A; US20090030892A1; JP4172801B2; KR100962923B1

Abstract

本发明的目的是比以前更有效地搜索关键词，该关键词在文本中以高频率使用，每个关键词满足预定的条件。本发明的***存储：第一索引，其从各个文本的标识符指明包含在文本中的关键词的列表；第二索引，其从各个关键词的标识符指明包含关键词的文本的列表；以及包含各个关键词的文本的数量。然后，接收到文本搜索条件的输入，***计算通过第一索引的搜索时间的估计和通过第二索引的搜索时间的估计，并且确定第一和第二索引的哪一个使得搜索更快。然后，通过使用已经被确定的使得搜索更快的索引，***搜索以更高频率出现在满足文本搜索条件的文本中的关键词。

Description

搜索文本中关键词的***及其方法

技术领域

本发明涉及搜索文本中关键词的***及其方法，并且更具体地涉及通过使用预先准备的索引有效地搜索关键词的***及其方法。

背景技术

随着最近通信网络和信息处理设备的发展，许多文本被存储为数字数据。因此，文本挖掘作为从这些文本中获得有用信息的技术已经引起注意。在文本挖掘中，存在一个实际的问题，即“从在任何搜索条件下已经被限制的文本的集合中，以出现频率的降序检测属于任何范畴的N个关键词(参见非专利文献1)”。

以上问题的一个解决方案可以通过以文本的标识符和关键词的标识符作为主要的关键构造RDB(关系数据库)获得。该RDB是，例如，以关键词对应文本的方式记录包含在特定文本中的关键词的数据库。然而，在使用这种RDB的情况下，如果文本数量变得巨大，则搜索时间也变得极长。因此，迄今为止，已经提出通过使用多个信息处理设备并行地计算以上问题的技术(参见非专利文献1)。

稍后描述非专利文献2和3。

[非专利文献1]Yu C，Philip G，Meng WY.Distributed top-nquery processing with possibly uncooperative local system(以可能不合作的本地***处理的分布式的前n个查询)，Proc.Of the 29^th Int’1Conf.on Very Large Data Bases. Berlin：Morgan KaufmannPublishers，2003.117-128。

[非专利文献2]Wei Wang，Jiong Yang，Richard Muntz：STING：A Statistical Information Grid Approach to Spatial Data Mining(空间数据挖掘的统计信息栅格途径)，Proceedings of the 23^rd VLDBConference，Athens，Greece Aug 1997。

[非专利文献3]Nasukawa，T.and Nagano，T.“Text analysis andknowledge mining system(文本分析和知识挖掘***)”，IBM systemsJournal 40(4)：967-984(2001)。

然而，上述非专利文献1的方法需要并行/分布式的计算***，并且花费大量的金钱和时间。即，例如，必须建立多个信息处理设备，并且这些信息处理设备必须以快速的通信网络连接。因此，需要开发有效的搜索技术，使得可能通过使用单个的信息处理设备进行搜索。例如可能会想到，通过应用传统的文本搜索技术，通过使用文本和关键词的标识符作为号码，以及通过基于该号码预先准备用于索引的数据和散列(hash)结构，有可能加速搜索。特别地，可以考虑以下两种索引。

(1)KEY_TO_DOC索引

该索引是从以出现频率的降序排列的关键词的标识符到包含关键词的文本的标识符列表的引用。

(2)DOC_TO_KEY索引

索引是从文本标识符到包含在文本中的关键词的列表的引用。

在使用上述的索引(1)的过程中，例如，以出现频率的降序顺序选择关键词，并且确定包含关键词的文本的列表是否满足文本搜索条件。以满足文本搜索条件的文本数量的降序选择N个关键词，并且选择结果变为搜索结果。然而，在存在许多种类的关键词作为搜索目标的情况下，需要依赖于关键词种类数的搜索时间。

在使用上述索引(2)的过程中，例如，选择满足文本搜索条件的文本，并且获取相应于文本标识符的关键词列表。然后，为各个关键词计数包含关键词的文本的数量。然而，在存在许多种类的文本作为搜索目标的情况下，需要依赖于文本种类数的搜索时间。尽管可想像通过采样一些文本加速搜索，但是在没有准备足够数量的文本的情况下，搜索精确度减小。

发明内容

因此，本发明的目的是提供一种***、方法和程序，使得能够解决上述的问题。通过组合在权利要求范围内的独立权利要求中叙述的特征实现此目的。此外，从属权利要求定义本发明的更有利的特定实例。

为了解决上述问题，在本发明的第一实施方案中，提供了一种用于搜索文本中关键词的***，该***包括：第一索引存储单元，用于存储从各个文本的标识符指明包含在文本中的关键词的列表的第一索引；第二索引存储单元，用于存储以第二索引对应于包含各个关键词的文本的数量的方式、从各个关键词的标识符指明包含关键词的文本的列表的第二索引；输入单元，用于接收作为关键词的搜索目标的文本条件的文本搜索条件的输入；确定单元，基于在作为搜索目标的多个文本中满足文本搜索条件的文本数量，并且基于以该数量对应于第二索引的方式所存储的文本的数量，计算通过第一索引的搜索时间的估计和通过第二索引的搜索时间的估计，并确定第一和第二索引哪一个使得搜索更快；以及搜索单元，通过使用被确定为使得搜索更快的索引，搜索并输出以高于预定标准的频率出现在满足文本搜索条件的文本中的关键词。也提供了由该***搜索关键词的方法，以及用于使信息处理设备作为该***运行的程序。

本发明的第二方面提供一种用于搜索文本中关键词的***，该***包括：第二索引存储单元，用于存储从各个关键词的标识符指明包含关键词的文本的列表的第二索引；输入单元，用于接收作为关键词的搜索目标的文本条件的文本搜索条件的输入；以及搜索单元，通过以文本数量的降序来选择关键词的预定标准数量来搜索高频词，该文本包含多个关键词中的关键词并且满足文本搜索条件，该搜索单元进一步包括：候选词存储单元，用于存储候选词出现的数量，以该数量对应于待候选为高频词的候选词的方式存储，该数量是包含候选词并且满足文本搜索条件的文本的数量；选择单元，用于以包含关键词的文本数量的降序顺序地选择多个关键词，多个关键词中的每个被选作目标词以作为被确定是否是高频词之一的目标；比较单元，用于从第二索引存储单元读取包含目标词的文本的数量，并且将所读取的文本数量与候选词出现的数量相比较；计算单元，倘若所读取的文本的数量大于任何一个候选词出现的数量，则从第二索引存储单元读取包含目标词的文本的列表，并且计算所读取的文本列表中满足文本搜索条件的文本的数量；以及更新单元，倘若所计算的文本的数量大于任何一个候选词出现的数量，则添加目标词作为候选词到候选词存储单元，并且从候选词存储单元中去除存储在候选词存储单元中的另一候选词，其中，倘若包含由选择单元顺序地选择的目标词的文本的数量小于任何一个候选词出现的数量，则搜索单元输出作为高频词存储在候选词存储单元中的关键词。也提供了一种由该***搜索关键词的方法，以及使信息处理设备作为该***运行的程序。

附带地，本发明的上述概要不列举本发明的全部方面，并且这些方面的子组合也可以作为本发明。

本发明使得比现有技术更有效地搜索在满足预定条件的文本中以高频率使用的关键词。

附图说明

图1是示出搜索***10的整体结构的框图。

图2是示出第一索引存储单元200的数据结构的实例的框图。

图3是示出第二索引存储单元300的数据结构的实例的框图。

图4是示出搜索单元400的功能结构的框图。

图5是示出确定单元500的功能结构的框图。

图6是使用搜索***10搜索关键词的流程图。

图7是示出S650中的过程细节的流程图。

图8是示出S620中的过程细节的流程图。

图9是示出S810中计算的函数的曲线图。

图10是示出由本实施方案搜索关键词的搜索结果的表格。

图11是示出传统技术搜索关键词所需的时间与提议的技术搜索关键词所需时间之间的对比的表格。

图12是示出使用第一索引搜索所需的时间与使用第二索引搜索所需的时间之间的对比的表格。

图13是示出作为本实施方案的搜索***10运行的信息处理设备900的硬件结构的实例的框图。

附图中：

10 搜索***

15 文本DB

100 输入单元

200 第一索引存储单元

210 散列文件

220 关键词列表文件

300 第二索引存储单元

310 摘要文件

320 分布文件

400 搜索单元

405 候选词存储单元

410 选择单元

420 比较单元

440 计算单元

450 更新单元

500 确定单元

510 比率计算单元

520 函数计算单元

530 阈值计算单元

540 第二搜索时间计算单元

550 第一搜索时间计算单元

900 信息处理设备

具体实施方式

尽管在下文中将使用实施方案来描述本发明，但实施方案不意在限制依据权利要求范围的本发明，并且在实施方案中描述的特征的所有组合对本发明的解决手段来说不一定是必要的。

图1是示出搜索***10的整体结构的框图。搜索***10是从存储在文本DB 15中的多个文本中检测关键词、并且输出这样检测出的关键词的列表给用户的***。特别地，搜索***10是通过以文本的数量的降序选择关键词的预定标准数目而搜索高频词的***，该文本包含多个关键词中的该关键词并且满足特定的文本搜索条件。通过指明用于指定用户自己感兴趣的目标作为文本搜索条件，用户能够发现在用户感兴趣的领域中经常使用的关键词。

本实施方案的搜索***10的目的是比以前更有效地执行这种关键词的搜索过程。

搜索***10包括输入单元100、第一索引存储单元200、第二索引存储单元300、搜索单元400，和确定单元500。输入单元100从用户接收文本搜索条件的输入作为将成为搜索目标的文本的条件用于搜索关键词。特别地，输入单元10可接收期望包含在文本中的关键词的输入，作为文本搜索条件。另外，输入单元10接收将成为搜索目标的关键词种类的输入。特别地，输入单元10可接收其中使用作为搜索目标的关键词的字段，或示出关键词的词类的信息，作为种类。

第一索引存储单元200为关键词的每个种类存储第一索引，第一索引通过使用各个文本的标识符指明包含在文本中的关键词的列表。基于存储在文本DB 15中的多个文本预先产生第一索引，并且在关键词的搜索之前将其存储在第一索引存储单元200中。第二索引存储单元300为关键词的每个种类存储第二索引，第二索引通过使用各个关键词的标识符指明包含关键词的文本的列表。此外，第二索引存储单元300以数量对应于第二索引的方式存储包含各个关键词的文本的数量。如第一索引的情况，也基于存储在文本DB 15中的多个文本预先产生第二索引。

确定单元500从第二索引存储单元300读取包含各个关键词的文本的数量，以该数量对应于第二索引的方式存储该数量。确定单元500基于包含相应于所输入的种类的关键词的文本的数量，并且基于作为搜索目标的多个文本中满足文本搜索条件的文本的数量，计算使用通过第一索引的搜索时间的估计和使用通过第二索引的搜索时间的估计。然后，确定单元500基于这些计算出的估计确定第一和第二索引中的哪一个使得搜索更快。

搜索单元400通过使用已经被确定为使得搜索更快的索引，为具有比预定标准更高的出现频率的关键词搜索满足文本搜索条件的文本，并且将关键词输出给用户。如上所述，此标准是例如，依包含关键词的文本数量的降序的关键词的预定标准数量。搜索单元400输出满足这样的标准的关键词的列表。

图2是示出第一索引存储单元200的数据结构的实例的视图。第一索引存储单元200存储分别为各个种类而提供的散列文件210-1到210-N，和分别为各个种类而提供的关键词列表文件220-1到220-N。在本实施方案中，为了避免冗余的描述，描述散列文件210-1以代表散列文件210-1到210-N，并且描述关键词列表文件220-1以代表关键词列表文件220-2到220-N。附带地，各个散列文件210-2到210-N的结构基本上与散列文件210-1的结构相同，并且各个关键词列表文件220-2到220-N的结构基本上与关键词列表文件220-1的结构相同。

散列文件210-1记录分别指示包含在文本中的关键词的列表的指针，以指针对应于各个文本的识别符的方式记录。例如，对应于文本0的指针AAAA是包含在文本0中的关键词列表的指针。此指针可以是例如，在稍后描述的关键词列表文件220-1中记录的列表的记录位置。

关键词列表文件220-1为每个文本记录包含在该文本中的关键词的列表。例如，关键词列表文件220-1以关键词列表对应于文本0的方式记录由OS、Linux和ssh组成的关键词列表。此外，关键词列表文件220-1以值对应于文本1的方式存储指示文本1中关键词不存在的值(例如，NULL)。在本实施例中，尽管出于描述的方便将关键词显示为字符串，但各个关键词的标识符实际上记录在关键词列表文件220-1中。

这里，希望散列文件210-1具有散列结构，其中文本的每个标识符是散列密钥(hash key)，并且其中指向关键词的每个指针是散列值。这使得可能快速地获得包含在指定文本中的关键词列表。另一方面，关键词列表220-1可以记录列表结构中的数据作为关键词列表，在列表结构中多个关键词顺序连接。在此情况中，当从关键词列表获取各个关键词时，需要依赖于关键词列表长度的处理时间。

图3是示出第二索引存储单元300的数据结构的实例的视图。第二索引存储单元300存储摘要文件310-1到310-N和分布文件320-1到320-N。第二索引存储单元300存储分别为各个种类而提供的摘要文件310-1到310-N、和分别为各个种类而提供的分布文件320-1到320-N。在本实施方案中，为了避免冗余的描述，描述摘要文件310-1以代表摘要文件310-1到310-N，并且描述分布文件320-1以代表分布文件320-1到320-N。附带地，摘要文件310-2到310-N的结构基本上与摘要文件310-1的结构相同，并且分布文件320-1到320-N的结构基本上与分布文件320-1的结构相同。

摘要文件310-1为每个关键词记录包含该关键词的文本的数量，以该数量对应于关键词标识符的方式记录。例如，关键词15245对应于“问题”，并且存在999000个文本包含该关键词。分布文件320-1为每个关键词记录包含该关键词的文本的列表。例如，分布文件320-1记录包含关键词15245的文本的标识符(0，1，2，3，...)，以该标识符对应于关键词15245的方式记录。即，关键词“问题”包含在文本0，文本1和文本2中。

这里，希望摘要文件310-1具有散列结构，其中关键词的每个标识符是散列密钥，并且其中包含关键词的文本的每个数量是散列值。这使得能够快速地获取包含指定关键词的文本的列表。此外，希望摘要文件310-1以关键词的标识符按照包含该关键词的文本的数量的降序排列的方式记录关键词的标识符。这使得能够提高按照在稍后描述的选择单元410的处理过程中出现的频率的降序选择关键词的处理过程的效率。另一方面，分布文件320-1可以记录列表结构中的数据作为文本列表，在该列表结构中直接连接多个文本的标识符。在此情况中，当从文本列表获取各个文本的标识符时，需要依赖于文本列表长度的处理时间。

附带地，作为图3实例的备选，或除了该实例以外，摘要文件310-1可记录包含所有关键词的文本的总数，以该总数对应于特定关键词的标识符的方式记录，包含关键词的文本的数量大于包含该特定关键词的文本的数量。即，摘要文件310-1可以进一步记录相应于安排为后面跟随特定关键词的所有关键词的文本的总数，以该总数对应于特定关键词的方式记录。这使得能够加速由稍后描述的第二搜索时间计算单元540进行的估计搜索时间的处理进程。

图4是示出搜索单元400的功能结构的框图。在图4中，描述了通过使用第二索引由搜索单元400执行的搜索功能。搜索单元400包括候选词存储单元405，选择单元410，比较单元420，计算单元440，以及更新单元450。在多个关键词中，搜索单元400致力于搜索那些包含在包含关键词并满足文本搜索条件的文本中的预定标准数量的关键词，搜索的关键词以文本数量的降序排列。这样的待搜索的关键词被称作高频词。

候选词存储单元405存储候选词出现的数量，该数量是包含候选词并满足文本搜索条件的文本的数量，以出现数量对应于作为高频词的候选的候选词的方式存储。即，例如，当意图搜索N个高频词时，候选词存储单元405存储N个候选词。这些候选词在初始阶段可以是任何关键词。选择单元410按照包含关键词的文本的数量的降序顺序地选择多个关键词作为搜索目标，所选的关键词被选为目标词，目标词是确定它们是否是高频词的目标。例如，选择单元410可以以所排列的次序顺序地获取在第二索引存储单元300的摘要文件310-1中排列和记录的多个关键词的标识符。

比较单元420从第二索引存储单元300的摘要文件310-1读取包含特定目标词的文本的数量。然后，比较单元420比较所读取的文本的数量与存储在候选词存储单元405中的候选词出现的数量。倘若所读取的文本的数量大于候选词中任何一个出现的数量，计算单元440从第二索引存储单元300读取包含此目标词的文本的列表。然后，计算单元440计算文本列表中满足文本搜索条件的文本数量。倘若所计算的文本数量大于候选词中任何一个所出现的数量，更新单元450将该目标词作为候选词添加到候选词存储单元405中。然后，更新单元450从候选词存储单元405去除存储在候选词存储单元405中的候选词之一。例如，在N个候选词已经存储在候选词存储单元405中的情况下，更新单元450从候选词存储单元405以候选词出现数量的降序去除第N个候选词。

每次目标词由选择单元410选出时，比较单元420、计算单元440、和更新单元450重复地执行上述过程。倘若包含由选择单元410选出的目标词的文本的数量小于候选词中任何一个出现的数量，搜索单元400输出存储在候选词存储单元405中的关键词作为高频词。

图5是示出确定单元500的功能结构的框图。确定单元500包括比率计算单元510、函数计算单元520、阈值计算单元530、第二搜索时间计算单元540、和第一搜索时间计算单元550。比率计算单元510计算指示作为搜索目标的所有文本中满足文本搜索条件的文本的占有率的条件满足率。对于各个关键词，函数计算单元520基于所计算的条件满足率近似地计算指示包含关键词并且满足文本搜索条件的文本的数量的随机变量的概率分布。特别地，函数计算单元520使用上述的条件满足率，估计包含各个关键词的文本满足文本搜索条件的概率，并且作为二项式分布计算随机变量的概率分布。

然后，函数计算单元520计算阈值的函数以获取各个关键词的随机变量不小于特定阈值的概率的和。阈值计算单元530计算一阈值，在该阈值处这样计算出来的函数值大约与标准量相等。第二搜索时间计算单元540使用第二索引存储单元300的摘要文件310-1，选择包含在其数量大于所计算的阈值的文本中的各个关键词。然后，使用摘要文件310-1，第二搜索时间计算单元540计算包含所选关键词的文本的总数。附带地，如上所述，包含特定关键词的文本的总数、该关键词的出现频率大于其他关键词的出现频率，可以预先计算，并记录在摘要文件310-1中。在此情况中，第二搜索时间计算单元540可以从摘要文件310-1获取以上总和。

然后，第二搜索时间计算单元540计算所计算的总和与预定的访问时间的乘积，作为通过第二索引的搜索时间的估计。第一搜索时间计算单元550计算满足文本搜索条件的文本数量与预定访问时间的乘积，作为通过第一索引的搜索时间的估计。此预定的访问时间例如，通过将从关键词列表顺序读取关键词的时间(顺序访问时间)和文本的关键词数量的乘积，加到通过包含在第一索引中的文本的标识符中找到一个标识符来获取关键词列表的时间(随机访问时间)而获取。或者，可以由上述的随机访问时间或由另一预定值估计预定访问时间。一旦计算出搜索时间的估计，倘若由第二搜索时间计算单元540计算的搜索时间的估计小于由第一搜索时间计算单元550计算的搜索时间的估计，确定单元500确定由第二索引搜索更快。

图6是使用搜索***10搜索关键词的流程图。输入单元100接收文本搜索条件的输入(S600)和种类的输入(S610)。确定单元500基于满足文本搜索条件的文本的数量和包含各个关键词的文本的数量计算通过第一索引的搜索时间的估计和通过第二索引的搜索时间的估计(S620)。确定单元500比较通过第一索引的搜索时间的估计和通过第二索引的搜索时间的估计，并且确定哪个索引使得搜索更快(S630)。

然后，如果确定使用第一索引的搜索快于使用第二索引的搜索(S630：是)，则搜索单元400使用第一索引进行搜索(S640)。另一方面，如果确定了使用第二索引的搜索快于使用第一索引的搜索(S630：否)，则搜索单元400使用第二索引进行搜索(S650)。

图7是示出S650中的处理过程的细节的流程图。选择单元410确定在所输入的种类中是否存在尚未被选作目标词的关键词(S700)。在存在这样的关键词的情况下(S700：是)，选择单元410从尚未被选作目标词的关键词中选择一个关键词作为目标词，该关键词包含在数量最大的文本中(S710)。然后，比较单元420比较包含此目标词的文本的数量和存储在候选词存储单元405中的候选词出现的数量(S720)。

倘若包含此目标词的文本的数量大于候选词的任何一个出现的数量(S730：是)，则计算单元440从第二索引存储单元300获取包含此目标词的文本列表(S740)。然后，计算单元440计算在包含在以上的文本列表中的文本中满足文本搜索条件的文本的数量(S750)。倘若所计算的文本数量大于候选词中任何一个的出现数量，则更新单元450从此目标词和候选词中，以候选词的数量限制在标准数量以内的方式，按照包含各词的文本的数量的降序，选择新的候选词，并且更新候选词存储单元405(S760)。特别地，更新单元450将此目标词作为候选词添加到候选词存储单元405(S760)。在上述条件使得候选词的数量超过标准量的情况下，更新单元450从候选词存储单元405去除存储在候选词存储单元405中的候选词之一。

在所输入种类的所有关键词都已经被选为目标词的情况下(S700：否)，搜索单元400使进程进行到S770。此外，倘若包含目标词的文本的数量小于候选词中任何一个出现的数量(S730：否)，则搜索单元400使进程进行到S770。在S770中，搜索单元400输出存储在候选词存储单元405中的候选词作为高频词(S770)。

如上所述，在图7的S730中示出的过程中，即使在并非所有关键词都被选作目标词的情况下，当确定在接下来的过程中不搜索高频词时，也终止过程。这使得可能令图7示出的重复过程的数量少于关键词的数量，从而使得可能提高搜索高频词的效率。由发明者进行的实验表明，在实践应用的大多数情况下，图7中的过程比使用第一索引的搜索执行得更快。

附带地，通过检查图7中过程的效率，发现在下面两种情况下此过程的效率降低：

(1)由于目标词的数量大，重复的过程的数量的上限高的情况。

这是所输入的种类包含许多关键词的情况。这样的种类的典型实例是“名词”等。

(2)由于S730中的确定不是“否”，重复的过程的数量大约等于目标词的数量的情况。

这是所输入的种类包含许多关键词，其数量基本上等于文本的数量的情况。例如，在呼叫中心通过电话接收关于产品的评论和请求，接线员在文本上记录客户姓名、评论等。为各个用户管理文本，并且为了用于将来改进产品而静态地分析。在这种情况下，如果罕见地，接线员从相同的客户得到了多条评论，属于客户姓名的种类的关键词是情况(2)的典型实例。

本实施方案的搜索***10基于关键词等出现的数量的分布，预先确定比如上述的搜索环境，并且合适地确定使用第二索引的搜索是否更快。以下，参考图8描述其过程。

图8是示出S620中的过程的细节的流程图。图9是示出在S810中计算的函数的视图。比率计算单元510计算条件满足率(S800)。分别以#D表示作为搜索目标的所有文本的数量并且以#Ds表示满足文本搜索条件的文本的数量，则条件满足率由#Ds/#D表示。

接下来，函数计算单元520计算阈值的函数，用于获取各个关键词的随机变量不少于特定阈值的概率的和(S810)。特别地，首先，对于各个关键词，函数计算单元520基于所计算的条件满足率近似地计算指示包含关键词并且满足文本搜索条件的文本数量的随机变量的概率分布。此概率分布的实例是二项式分布。通过对关键词的任何一个假设，包含关键词的文本满足文本搜索条件的概率是上述的条件满足率，确定概率分布。

这里，为关键词i定义随机变量X_i。指示包含关键词i的文本的数量的分布的二项式分布是由B(n，p)＝B(#D_i，#Ds/#D)表达的。注意包含关键词i的文本的数量由#D_i表示。此外，对于关键词i和指示特定阈值的整数M，定义下面的随机变量Y_i。

Y_i＝1(X_i≥M)

Y_i＝0(X_i＜M)

使用此随机变量Y_i，函数计算单元520计算阈值M的函数用于获取各个关键词的随机变量不小于该阈值M的概率的和。此函数由E(Y)表示如下：

E(Y)＝E(∑_{i＝1，2，...，I}Y_i)＝∑_{i＝1，2，...，I}E(Y_i)

＝∑_{i＝1，2，...，I}P(Y_i≥M)

阈值计算单元530计算函数E(Y)约等于标准量N的阈值M(S820)。此时的阈值M由M^*表示。如图9所示，对于该阈值M函数E(Y)变为单调减函数。因此，例如，阈值计算单元530可采用对分搜索计算函数E(Y)的值变为N处的M的值。此外，阈值计算单元530可采用例如，所谓的STING算法(非专利文献2的第6页中)的计算过程，计算对于特定阈值M的P(Y_i≥M)的值。这使得可能实现S820中阈值M计算的加速。

随后，第二搜索时间计算单元540使用此阈值计算使用第二索引搜索的过程时间的估计(S830)。特别地，首先，第二搜索时间计算单元540通过使用第二索引存储单元300的摘要文件310-1选择包含在数量大于所计算的阈值的文本中的各个关键词。然后，第二搜索时间计算单元540计算包含通过使用摘要文件310-1这样选择的关键词的文本总数。附带地，如已经提及的，包含其出现数量大于特定关键词的出现数量的关键词的文本总数可以被预先计算，并且记录在摘要文件310-1中。在这种情况下，第二搜索时间计算单元540可从摘要文件310-1获取该总数。第二搜索时间计算单元540输出上面计算出的总数与预定访问时间的乘积，作为搜索的过程时间的估计。

这里，希望预定访问时间是选择各个关键词、而同时从如图3所示的分布文件320-1中的一个文本中的关键词列表的头部顺序追踪关键词的过程所需的时间。例如，第二搜索时间计算单元540可计算关键词列表长度的平均值，并且计算追踪关键词列表过程的时间作为访问时间，该列表的长度与其平均值相等。或者，预定访问时间可以由预定常数值估计并设置。

然后，第一搜索时间计算单元550计算使用第一索引搜索的过程时间的估计(S840)。例如，第一搜索时间计算单元550计算满足文本搜索条件的文本数量与预定访问时间的乘积，作为通过第一索引的搜索时间的估计。这里，例如由以下的等式计算预定访问时间：

随机访问时间+包含在一个文本中的关键词数量的平均值×顺序访问时间

这里，随机访问时间是选择满足文本搜索条件的各个文本和选择相应于所选各个文本的关键词列表的过程所需的时间。此外，顺序访问时间是对于一个文本顺序选择该文本中包含的关键词和合计每个关键词的每个出现数量的过程所需的时间。随机访问时间和顺序访问时间可由预定的常数值近似，独立于作为搜索目标的关键词估计。

如上参考图8和9所述，确定单元500能够快速地计算使用第一索引的搜索所需的时间和使用第二索引的搜索所需的时间，而不进行实际的搜索过程。结果，在实际的搜索过程之前，可能适当地确定应使用哪个索引用于搜索关键词。

图10是示出由本实施方案搜索关键词的搜索结果的表格。在文本的集合中，图10的垂直轴示出在指定词类的“实词”作为种类的情况下由搜索***10搜索的高频词列表。此外，在相同文本的集合中，图10的水平轴示出在指定文本内容的“主题”作为种类的情况下由搜索***10搜索的高频词列表。

关于实词，比如中国、路透社、日本和东京的关键词作为以此顺序频繁出现的关键词而被搜索。关于主题，比如社会、体育、商业和国际的关键词作为以此顺序频繁出现的关键词而被搜索。以这种方式，本实施方案的搜索***10使得可能快速地搜索频繁出现在各个种类中的关键词。

此外，在垂直轴和水平轴的每个交叉点，指示了各个关键词一起出现的文本的数量。在指示文本数量的行下面的每一行上，指示示出各个关键词的相关性级别的索引值。既然本实施方案的搜索***10能够通过使用第二索引获取包含各个关键词的文本列表，那么也可能有效地计算其中多个关键词一起出现的文本数量。

图11是示出通过传统技术搜索关键词所需的时间和通过提议的技术搜索关键词所需的时间之间的比较的表格。在此搜索中，包含在文本中的关键词被用作文本搜索条件。即，在此搜索中，包含“WIN95”作为关键词的文本是搜索的目标。此外，在此搜索中，通用名词、名词、固有名词、命令、硬件、软件和技术术语分别被用作关键词的种类。然后，对于各个种类，进行搜索所需的测量时间的实验。

图11示出由本实施方案的搜索***10搜索所需的时间与由非专利文献3中描述的技术搜索所需的时间之间的比较。可以确认的是，在任何种类中，由搜索***10搜索关键词比传统技术快很多。

图12是示出使用第一索引(DOC_TO_KEY索引)搜索所需的时间与使用第二索引(KEY_TO_DOC索引)搜索所需的时间之间的比较的表格。如图12中所示的所需时间是在相同条件下执行使用第一索引的搜索和使用第二索引的搜索两者所需的时间，独立于由确定单元500作出的确定结果。图12中下划线的所需时间示出使用由确定单元500确定的使得更快搜索关键词的索引搜索所需的时间。如图12中清楚见到的，确认了在五种情况中的四种中作出了关于更快搜索的正确决定。此外，尽管对于剩余的一种情况作出了不正确的决定，也确认了该搜索所需的时间非常接近正确决定的情况中的时间。

图13是示出作为本实施方案的搜索***10运行的信息处理设备900的硬件结构的实例的框图。信息处理设备900包括：CPU***单元，其具有通过主控制器1082相互连接的CPU 1000、RAM 1020、和图形控制器1075；输入/输出单元，其具有通过输入/输出控制器1084连接到主控制器1082的通信接口1030、硬磁盘驱动器1040、和CD-ROM驱动器1060；和冗余的输入/输出单元，其具有连接到输入/输出控制器1084的BIOS 1010、软盘驱动器1050、和输入/输出芯片1070。

主控制器1082连接RAM 1020、以高传输速度访问RAM 1020的CPU 1000、和图形控制器1075。CPU 1000基于BIOS 1010和RAM 1020中存储的程序工作，并且控制各个单元。图形控制器1075获取在提供到RAM 1020的帧缓冲器上由CPU 1000等产生的图像数据，并且在显示设备1080上显示该图像数据。或者，图形控制器1075可在其中包括存储由CPU 1000等产生的图像数据的帧缓冲器。

输入/输出控制器1084连接主控制器1082、作为相对快速的输入/输出设备的通信接口1030、硬磁盘驱动器1040、和CD-ROM驱动器1060。通信接口1030通过网络与外部设备通信。硬磁盘驱动器1040存储由信息处理设备900使用的程序和数据。CD-ROM驱动器1060从CD-ROM 1095读取程序或数据，并且提供程序或数据给RAM 1020或硬磁盘驱动器1040。

此外，BIOS 1010和相对慢的输入/输出设备，比如软盘驱动器1050或输入/输出芯片1070，被连接到输入/输出控制器1084。BIOS 1010存储当启动信息处理设备900时由CPU 1000执行的引导程序、依赖于信息处理设备900的硬件的程序等。软盘驱动器1050从软盘1090读取程序或数据，并且经输入/输出芯片1070将程序或数据提供给RAM 1020或硬磁盘驱动器1040。输入/输出芯片1070通过例如，并行端口、串行端口、键盘端口、鼠标端口等连接软盘1090和各种输入/输出设备。

提供给信息处理设备900的程序被存储在比如软盘1090、CD-ROM 1095或IC卡的记录介质中，并由用户提供。通过输入/输出芯片1070和/或输入/输出控制器1084从记录介质读取程序，在信息处理设备900中安装并且执行。依靠程序的执行由信息处理设备900等执行的操作与由图1到12中描述的搜索***10执行的操作一样，因此省略其描述。

可以在外部记录介质中存储上述程序。作为记录介质，除了软盘1090和CD-ROM 1095以外，可以使用比如DVD或PD的光学记录介质、比如MD的磁光记录介质、磁带记录介质、比如IC卡的半导体存储器等。此外，可以使用比如提供给连接到专用通信网络和因特网的服务器***的硬盘或RAM的存储设备作为记录介质，并且可通过网络给信息处理设备900提供程序。

如上所述，尽管已经通过使用实施方案描述了本发明，但本发明的技术范围不限于在上述实施方案中叙述的范围。很显然对本领域的技术人员来说，可以添加各种变更或改进到上述的实施方案。例如，本实施方案中描述的搜索***10可以不但应用于文本挖掘而且应用于由具有包括种类信息的注解的记录组成的数据库的数据挖掘。即，在其中每个种类之间定义分级结构的数据库中，将上类作为本实施方案的种类，并且将下类作为关键词，从而可能依靠种类的可能性的级别列举用户感兴趣的下类。从权利要求的范围的描述可显见，添加这种更改或改进的实施方案也包括在本发明的技术范围中。

Claims

1.一种用于搜索文本中的关键词的***，该***包括：

第一索引存储单元，用于存储从各个文本的标识符指明包含在文本中的关键词的列表的第一索引；

第二索引存储单元，用于以第二索引对应于包含各个关键词的文本的数量的方式，存储从各个关键词的标识符指明包含关键词的文本的列表的第二索引；

输入单元，用于接收作为关键词的搜索目标的文本条件的文本搜索条件的输入；

确定单元，基于在作为搜索目标的多个文本中满足文本搜索条件的文本数量，并且基于以该数量对应于第二索引的方式存储的文本的数量，计算通过第一索引的搜索时间的估计和通过第二索引的搜索时间的估计，并确定第一和第二索引哪一个使得搜索更快；和

搜索单元，通过使用被确定为使得搜索更快的索引，搜索并输出以高于预定标准的频率出现在满足文本搜索条件的文本中的关键词。

2.按照权利要求1的***，其中

***通过以文本数量的降序选择关键词的预定标准数量搜索高频词，该文本包含多个关键词中的关键词并且满足文本搜索条件，其中

在通过第二索引搜索的情况中，该搜索单元包括：

候选词存储单元，用于存储候选词出现的数量，以该数量对应于候选为高频词的候选词的方式存储，该数量是包含候选词并且满足文本搜索条件的文本的数量；

选择单元，用于以包含关键词的文本数量的降序顺序地选择多个关键词，多个关键词中的每个被选作目标词以作为被确定是否是高频词之一的目标；

比较单元，用于从第二索引存储单元读取包含目标词的文本的数量，并且将所读取的文本数量与候选词出现的数量相比较；

计算单元，倘若所读取的文本的数量大于任何一个候选词出现的数量，则从第二索引存储单元读取包含目标词的文本的列表，并且计算所读取的文本列表中满足文本搜索条件的文本的数量；和

更新单元，倘若所计算的文本的数量大于任何一个候选词出现的数量，则以新候选词的数量限制在标准数量以内的方式，从目标词和候选词中以包含各个关键词的文本数量的降序选择新的候选词，并且更新候选词存储单元，其中

倘若包含由选择单元顺序地选择的目标词的文本的数量小于任何一个候选词出现的数量，则搜索单元输出存储在候选词存储单元中的关键词作为高频词。

3.按照权利要求2的***，其中确定单元包括：

比率计算单元，用于计算指示作为搜索目标的所有文本中满足文本搜索条件的文本的占有率的条件满足率；

函数计算单元，用于基于该条件满足率近似地计算指示包含各个关键词并且满足文本搜索条件的文本的数量的随机变量的概率分布，并且基于所计算的概率分布，计算阈值的函数以获取各个关键词的随机变量不小于该阈值的概率和；

阈值计算单元，用于计算算出的函数基本上等于标准数量处的阈值；

第二搜索时间计算单元，基于存储在第二索引存储单元中的文本的数量，计算包含各个关键词的文本的数量，其中关键词包含在其数量大于所计算的阈值的文本中，并且计算算出的文本数量与预定访问时间的乘积，作为通过第二索引的搜索时间的估计；和

第一搜索时间计算单元，用于计算作为搜索目标的多个文本中满足文本搜索条件的文本数量与预定访问时间的乘积，作为通过第一索引的搜索时间的估计，其中

倘若由第二搜索时间计算单元计算的搜索时间的估计小于由第一搜索时间计算单元计算的搜索时间的估计，则预定单元确定由第二索引搜索更快。

4.按照权利要求3的***，其中函数计算单元通过使用条件满足率估计包含关键词的各个文本满足文本搜索条件的概率，计算作为二项式分布的随机变量的概率分布，并且基于算出的概率分布计算阈值的函数。

5.按照权利要求1的***，其中

第一索引存储单元为关键词的每个种类存储从各个文本的标识符指明包含在文本中的种类的关键词的列表的第一索引；

第二索引存储单元为关键词的每个种类存储包含在该种类中的关键词的第二索引、和包含该种类中包含的各个关键词的文本的数量；

输入单元进一步接收作为搜索目标的关键词的种类的输入；和

确定单元基于包含对应于该种类的各个关键词的文本的数量确定第一和第二索引的哪一个使得搜索更快，两个索引都对应于输入的种类。

6.一种用于搜索文本中关键词的***，该***包括：

第二索引存储单元，用于存储从各个关键词的标识符指明包含关键词的文本的列表的第二索引；

输入单元，用于接收是作为关键词的搜索目标的文本条件的文本搜索条件的输入；和

搜索单元，通过以文本数量的降序选择关键词的预定标准数量来搜索高频词，该文本包含多个关键词中的关键词并且满足文本搜索条件，该搜索单元进一步包括：

更新单元，倘若所计算的文本的数量大于任何一个候选词出现的数量，则以新候选词的数量限制在标准数量以内的方式，从目标词和候选词中以包含各个关键词的文本数量的降序选择新候选词，并且更新候选词存储单元，其中

7.按照权利要求6的***，其中

第二索引存储单元以文本数量对应于第二索引的方式，并且进一步以第二索引对应于包含各个关键词的文本的数量的方式，存储文本的数量，第二索引存储单元进一步包括：

阈值计算单元，用于计算算出的函数基本上等于标准数量处的阈值；和

第二搜索时间计算单元，基于存储在第二索引存储单元中的文本的数量，计算包含各个关键词的文本的数量，其中关键词包含在其数量大于所计算的阈值的文本中，并且计算算出的文本数量与预定访问时间的乘积，作为通过第二索引的搜索时间的估计。

8.一种通过使用用于搜索文本中的关键词的***搜索关键词的方法，该***包括：

第一索引存储单元，用于存储从各个文本的标识符指明包含在文本中的关键词的列表的第一索引；和

第二索引存储单元，用于以第二索引对应于包含各个关键词的文本的数量的方式，存储从各个关键词的标识符指明包含关键词的文本的列表的第二索引；该***包括以下步骤：

接收作为关键词的搜索目标的文本条件的文本搜索条件的输入；

基于在作为搜索目标的多个文本中满足文本搜索条件的文本数量，并且基于以该数量对应于第二索引的方式存储的文本的数量，计算通过第一索引的搜索时间的估计和通过第二索引的搜索时间的估计，并确定第一和第二索引哪一个使得搜索更快；和

通过使用被确定为使得搜索更快的索引，搜索并输出以高于预定标准的频率出现在满足文本搜索条件的文本中的关键词。

9.一种用于使信息处理设备作为搜索文本中的关键词的***运行的程序，该程序使信息处理设备作为：

10.一种通过使用用于搜索文本中的关键词的***搜索关键词的方法，该***包括用于存储从各个关键词的标识符指明包含关键词的文本的列表的第二索引的第二索引存储单元，该***包括以下步骤：

接收作为关键词的搜索目标的文本条件的文本搜索条件的输入；和

通过以文本数量的降序选择关键词的预定标准数量来搜索高频词，该文本包含多个关键词中的关键词并且满足文本搜索条件，该***进一步包括：

候选词存储单元，用于存储候选词出现的数量，以该数量对应于候选为高频词的候选词的方式存储，该数量是包含候选词并且满足文本搜索条件的文本的数量，其中

搜索并输出候选词的步骤进一步包括以下步骤：

以包含关键词的文本数量的降序顺序地选择多个关键词，多个关键词中的每个被选作目标词以作为被确定是否是高频词之一的目标；

从第二索引存储单元读取包含目标词的文本的数量，并且将所读取的文本数量与候选词出现的数量相比较；

倘若所读取的文本的数量大于任何一个候选词出现的数量，则从第二索引存储单元读取包含目标词的文本的列表，并且计算所读取的文本列表中满足文本搜索条件的文本的数量；和

倘若所计算的文本的数量大于任何一个候选词出现的数量，则以新候选词的数量限制在标准数量以内的方式，从目标词和候选词中以包含各个关键词的文本数量的降序选择新候选词，并且更新候选词存储单元，

该方法中

倘若包含在比较的步骤中作为比较目标的目标词的文本的数量小于任何一个候选词出现的数量，则搜索单元输出存储在候选词存储单元中的关键词作为高频词。

11.一种用于使信息处理设备作为搜索文本中的关键词的***运行的程序，该程序使信息处理设备作为：

搜索单元，通过以文本数量的降序选择关键词的预定标准数量来搜索高频词，该文本包含多个关键词中的关键词并且满足文本搜索条件，其中该搜索单元包括：