CN102023989B

CN102023989B - 一种信息检索方法及其***

Info

Publication number: CN102023989B
Application number: CN200910174208A
Authority: CN
Inventors: 罗翼
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2009-09-23
Filing date: 2009-09-23
Publication date: 2012-10-10
Anticipated expiration: 2029-09-23
Also published as: JP5638616B2; US9367605B2; EP2480996A1; US20110218989A1; US20160210352A1; WO2011037721A1; HK1154093A1; CN102023989A; EP2480996A4; JP2013505514A

Abstract

本申请公开了一种信息检索方法及其***，应用于每个文档对应有正排索引数据的信息检索***，以解决现有信息检索技术中检索效率低的问题。该方法包括：接收查询词，通过分词处理得到该查询词中所包含的关键词；通过所述信息检索***的倒排索引数据查找与所述关键词匹配的文档，以及与所述文档对应的正排索引数据；根据所述文档对应的正排索引数据确定出所述文档的摘要，将所述文档的摘要以及文档的信息作为检索结果进行输出。采用本申请，可提高信息检索的效率，同时在一定程度上保证检索的准确性。

Description

一种信息检索方法及其***

技术领域

本申请涉及通信领域中的全文数据检索技术，尤其涉及一种信息检索方法和信息检索***。

背景技术

伴随着互联网搜索引擎技术的飞速普及以及互联网搜索企业的快速发展，信息检索***（也称搜索引擎）已经成为越来越多的人使用互联网时必不可少的工具。

人们在使用搜索引擎的时候，通常的使用场景是通过输入查询词，然后从搜索引擎后端获取需要的搜索结果。而组成搜索结果的三大要素为：标题、摘要和网址链接（业界俗称TAU，为Title、Abstract、Url三个英文单词的首字母缩写）。而摘要（Abstract）在这三大要素中，就信息量而言，其所含信息量最大；从最终页面显示效果而言，其占据最大篇幅；从最终用户感受而言，其能在很大程度上决定搜索结果的正确与否，使用户能够根据摘要提供的信息判断搜索的结果是否为用户所需要。因此，一套高性能、可伸缩、易定制并且人机界面优秀的摘要生成***，是每一个搜索引擎（即信息检索***）不可或缺的重要组成部分。

传统的摘要生成方法是根据用户所输入的查询词实时检索全文数据，并在全文数据的检索结果的基础上，通过计算词频、词距以及其他参数，通过文本匹配和加权记分等算法，提取出与查询词最相匹配的文本段落作为摘要，然后将包含有标题、摘要和网址链接的检索结果返回给检索客户端，供最终展现。

由于利用传统的搜索引擎进行信息检索时，需要在整个全文数据中进行匹配检索，摘要的生成也是依据全文数据，因全文数据通常信息量大，因此导致检索时间较长、检索效率较低。

发明内容

本申请实施例提供一种信息检索方法及其***，用以解决现有信息检索技术中检索效率低的问题。

本申请提供的信息检索方法，应用于每个文档对应有正排索引数据的信息检索***，其中，每个文档的正排索引数据以该文档中的各单词为索引，记录各单词在该文档中的位置，该方法包括以下步骤：

接收查询词，通过分词处理得到该查询词中所包含的关键词；

通过所述信息检索***的倒排索引数据查找与所述关键词匹配的文档，以及与所述文档对应的正排索引数据；

针对所述文档中的每个文档，执行以下步骤：

逐一遍历该文档的正排索引数据中的单词，在第一数据结构中以单词位置为索引记录每个遍历到的单词，并当遍历到的单词与所述关键词匹配时，在第二数据结构中以单词为索引记录该单词的位置；

根据第二数据结构的记录，确定出摘要的起始位置；根据规定的摘要长度和第一数据结构的记录，确定出摘要的截止位置；

根据确定出的摘要的起止位置以及正排索引数据生成文档的摘要

将所述文档的摘要以及文档的信息作为检索结果进行输出。

本申请提供的信息检索***，包括存储有该***倒排索引数据和每个文档对应的正排索引数据的存储模块，其中，每个文档的正排索引数据以该文档中的各单词为索引，记录各单词在该文档中的位置，该***还包括：

输入模块，用于接收输入到该***的查询词；

检索模块，包括：

检索子模块，用于对所述查询词进行分词处理得到其所包含的关键词，通过所述倒排索引数据查找与所述关键词匹配的文档，以及与所述文档对应的正排索引数据；

摘要生成子模块，用于针对所述文档中每个文档对应的正排索引数据，逐一遍历其中的每个单词，在第一数据结构中以单词位置为索引记录每个遍历到的单词，并当遍历到的单词与所述关键词匹配时，在第二数据结构中以单词为索引记录该单词的位置；以及，根据第二数据结构的记录，确定出摘要的起始位置，根据规定的摘要长度和第一数据结构的记录，确定出摘要的截止位置；然后，根据确定出的摘要的起止位置以及从正排索引数据生成文档的摘要；

输出模块，用于将所述文档的摘要以及文档的信息作为检索结果进行输出。

本申请的上述实施例，利用倒排索引数据进行信息检索，得到与查询词匹配的文档后，利用文档的正排索引数据生成文档的摘要，从而充分利用了文档的正排索引数据比全文数据的数据量少但内容描述具有一定准确性的特点，与传统信息检索***通过全文检索得到的检索结果相比，可提高进行查询词匹配检索的效率，以及提高摘要生成的效率，同时还能在一定程度上保证检索结果以及生成的摘要的准确性。

附图说明

图1为本申请实施例中的信息检索的流程示意图；

图2为本申请实施例中的信息检索***的结构示意图；

图3A、图3B为本申请实施例中的信息检索***的检索模块的处理流程示意图。

具体实施方式

下面结合附图对本申请实施例进行详细描述。

本申请实施例所提供的信息检索方法应用于信息检索***，该信息检索***中不仅要保存文档（即全文数据，以下同）集合的倒排索引数据，还要能够提供每个文档对应的独立的正排索引数据。目前的通用信息检索***中，通常包含有文档集合的倒排索引数据，同时包含每篇文档对应的独立的正排索引数据（例如通用的PostgreSQL，开源软件的全文检索***）。针对暂不包含每篇文档独立的正排索引数据的信息检索***，可以采用各种技术方案从整个文档集合的倒排索引数据得到每个文档独立的正排索引数据，该过程可以在离线状态下完成，不会对信息检索***在线提供信息检索服务的性能造成影响。

所谓文档集合的倒排索引数据就是根据单词建立的文档索引，如，每个单词在数据库里是一条记录，单词作为关键字，后面跟着文档标识ID、位置等信息。假设有3篇文档：file1、file2和file3，文档内容如下：

file1(单词1，单词2，单词3，单词4....)

file2(单词a，单词b，单词c，单词d，单词a，单词c，单词d....)

file3(单词1，单词a，单词3，单词d....)

上述文档组成的文档集合的倒排索引数据包括：

单词1(file1,file3)，单词2(file1)，单词3(file1,file3)，单词a(file2,file3)等等。

所谓文档的正排索引数据就是根据该文档中包括的单词建立的单词位置在该文档的索引。例如，对于上述file2文档，如果各单词在file2出现的位置依次记为pos1，pos2…，则其正排索引数据为：

file2（单词a：pso1，pos5；单词b：pos2；单词c：pos3，pos6；单词d：pos4，pos7…）

可见，根据文档及其倒排索引数据，可以得到各文档各自的正排索引数据。

为便于数据维护和管理，文档集合及其倒排索引数据，以及各文档独立的正排索引数据可以以数据库形式组织，当然也可以以其他形式组织，如文件形式。本申请中的实施例按照以数据库形式组织的文档集合及各文档独立的正排序索引数据为例进行描述。

参见图1，为本申请实施例中的信息检索***为用户提供信息检索服务的流程示意图。以下流程中的信息检索***，包括存储有文档全文数据的全文数据库，以及存储有倒排索引数据的倒排索引库和存储有各文档各自对应的正排索引数据的正排索引库，全文数据库与正排索引库，以及全文数据库与倒排索引库之间通过定义的索引（如文档ID）关联，使各文档的正排索引与其文档一一对应。

基于上述信息检索***的信息检索流程包括：

步骤101、信息检索***接受用户提交的查询词。

信息检索***可为用户提供信息检索界面，该界面可为用户提供输入查询词以及提交查询词到信息检索***的操作命令。用户输入的查询词可以是单词，也可以是由多个单词组成短语，还可以是通过关系运算符（and、or等）连接的多个单词（或短语）。

步骤102、信息检索***对用户提交的查询词进行分词处理，得到查询词中包含的所有关键词，然后通过倒排索引库中的倒排索引数据找到与这些关键词匹配的文档，并根据找到的各文档从正排索引库中找到这些文档所对应的正排索引数据，并分别根据每个文档的正排索引数据生成各文档的摘要，将生成的文档摘要以及对应文档的标题、Url等信息作为检索结果。

该步骤中，信息检索***确定出与关键词匹配的文档后，可获得这些文档各自对应的正排索引数据。由于信息检索***检索出的文档可为多个，为了提高信息检索结果对于用户的可用性以及提高用户感受，信息检索***可以按照文档与关键词的匹配程度从高到低对检索到的文档进行排序，从而得到对应的文档ID序列。

步骤103、信息检索***根据生成的检索结果以及文档ID序列输出检索结果，检索结果可呈现在信息检索***提供的检索结果界面上，检索结果可包括：文档的标题、Url和文档摘要。文档摘要通常都包含有关键词，较佳地，可以是文档中与关键词匹配程度高的那部分文本内容。

该步骤中，信息检索***可根据上个步骤得到的文档ID序列，从全文数据库中获得对应文档的标题、Url等信息（通常情况下，全文索引库可使用文档ID、标题、Url等作为文档全文内容的索引数据），当然，如果正排索引库中也包含有文档标题和Url等信息，也可以直接从正排索引库中获得这些信息，然后按照该文档ID序列的顺序进行输出或显示。信息检索***还可对输出的检索结果的格式和文档摘要的长度进行规定。

上述信息检索***，如图2所示，可包括以下功能模块：输入模块21、检索模块22和输出模块23，还包括全文数据库24、倒排索引库25和正排索引库26。其中，全文检索数据库24中存储有各文档的全文数据，可以用文档ID、文档标题、Url作为索引来存储文档的全文数据；倒排索引库25中存储有倒排索引数据；正排索引库26中存储有各文档各自的正排索引数据。各模块所实现的功能可分别与上述流程中的相应步骤对应。其中，检索模块22可进一步包括检索子模块221、摘要生成子模块222和结果提交子模块223。

下面结合图2所示的信息检索***，对信息检索的流程进一步详细描述。

输入模块21接收用户提交的查询词后，将该查询词提交到检索模块22；检索模块22对查询词进行分词处理后得到关键词，根据该关键词在倒排索引库25中进行检索，以检索出与关键词匹配的文档，然后根据正排索引库26中的相应文档的正排索引数据生成该文档的摘要，然后将包含有文档摘要的检索结果提交给输出模块23，其中，如果需要输出文档的标题和Url，还可进一步从全文数据库24或倒排索引数据库25中获取文档标题和Url；输出模块23接收到检索结果后输出该检索结果。

对于每个与关键词匹配的文档，检索模块22可通过扫描正排索引库26中相应正排索引数据中的每一个单词，建立所有单词的正排序列和仅包括关键词的正排索引序列，然后根据这两个序列确定出文档摘要文本段在该正排序列或全文数据中的起始和截至位置，从而得到文档摘要。检索模块22的信息检索功能的具体实现过程需要一些变量，这些变量可包括：

文档ID序列：用于存储检索到的文档的ID；

Array_A数组：用于存储检索到的文档所包含的所有单词的正排序列，该正排序列按序记录了各单词文本及其在该文档全文数据中出现的位置，可以用单词文本与位置链表的形式表现，如：

Array_A记录有（pos1:word1,pos2:word2,pos3:word3,pso4:word1……）

其中，pos表示相应单词文本的第一个字符在全文数据中的字符位置，word表示单词文本。即，Array_A中以单词位置为索引记录各单词的文本。

Map_A数组：用于存储对查询词进行分词处理后得到的各关键词的正排索引序列，该正排索引序列记录了各关键词在相应文档全文数据中出现的位置，可以用红黑树结构（红黑树是一种特定类型的二叉树，它是在计算机科学中用来组织数据比如数字的块的一种结构。所有数据块都存储在节点中。）组织并存储关键词文本与位置链表，例如，如果上述Array_A中的word1和word2为关键词，则：

Map_A记录有（word1:pos1,pos4;word2:pos2……）

其中，pos表示相应关键词文本的第一个字符在全文数据中的字符位置，keyword表示关键词文本。即，Map_A中以单词文本（该单词是与关键词匹配的单词）为索引记录各单词的位置。

Res_Beg、Res_End：用于表示摘要文本段的起止位置；

Best_Path：用于表示最佳摘要路径，其中包括文本起止位置参数，通过该参数可在正排索引数据或全文数据中界定出相应的文本段，由该最佳摘要路径所界定出的文本段与关键词的匹配程度较相应其他文本段要高；

RL：赋值为摘要文本的长度，通常用字数表示，可在***初始化时赋值。

检索模块22的信息检索过程可分为2个阶段：文档检索阶段，以检索出与关键词匹配的文档（如包含有关键词的文档，或包含有与关键词具有等同含义的单词的文档）；摘要生成阶段，以针对检索出的文档生成对应的摘要。

在文档检索阶段，检索子模块221将用户提交的查询词进行分词处理，得到查询词中包含的所有关键词。然后，在倒排索引库25中进行匹配查找，以查找与关键词匹配的文档的ID，并按照匹配程度从高到低的顺序对文档ID进行排序，并将排序后的文档ID存储为文档ID序列。该阶段所进行的分词处理可采用多种技术实现，如现有中文分词处理技术；在倒排索引库25中进行匹配查找的操作可采用现有全文检索技术实现。应该理解，本申请实施例中所采用的分词技术和全文检索技术，并不对本申请的保护范围有所限制。

在摘要生成阶段，摘要生成子模块222根据文档ID序列中记录的文档ID，在正排索引库26中遍历各文档ID对应的正排索引数据。针对每个文档ID对应的正排索引数据，对遍历过的每一个单词，记录该单词的位置以及该单词的文本，放入数组Array_A中（通常是记录到数组数据结构中），如果该单词与关键词相同，则还要在集合Map_A中记录该单词的文本以及该单词的位置。当遍历完文档的正排索引数据后，如果Array_A所记录的所有单词文本的总长度不超过RL，则最佳摘要路径为Array_A中第一个单词的起始位置到最后一个单词的截至位置；否则，遍历Map_A中记录的单词文本与位置链表，找出符合条件的最短文本段的起止位置单词的相应位置Res_Beg和Res_End，则Array_A中从Res_Beg到Res_End即为最佳摘要路径；确定出最佳摘要路径后，摘要生成子模块222根据确定出的最佳摘要路径，从相应正排索引数据或全文数据中定位出相应的文本段作为摘要文本，并将其提交给结果提交子模块223。上述满足最佳摘要路径的条件可包括：

Res_Beg到Res_End之间的文本长度为RL，或者不超过RL；

Res_Beg到Res_End之间所包含的关键词数量最多。

如果符合上述2个条件的摘要路径有多个，则将这些摘要路径所界定的摘要文本中，重复关键词数量之和最大的摘要路径作为最佳摘要路径。

结果提交子模块223根据文档ID序列中记录的各文档ID，从全文数据库24或倒排索引库25中查询到对应的文档标题、Url等信息，并连同摘要文本一起提交给输出模块23。

输出模块23中可配置有摘要格式化参数Fmt_Arg（Format Argument的英文缩写）。输出模块23根据参数Fmt_Arg对摘要文本和文档标题、Url等信息进行格式处理，然后按照文档ID序列中的文档ID排列顺序，将对应文档的相关信息（如包括标题、Url、摘要）以规定格式显示输出，较佳地，以万维网通用的HTML（HyperText Markup Language，超文本标记语言）页面标记语言展现，为用户提供醒目、易辨认的检索结果，以使用户获得更好的用户体验。

摘要生成子模块222遍历文档的正排索引数据的流程可如图3A所示，遍历完成后生成最佳摘要路径的流程可如图3B所示。

摘要生成子模块222对文档ID序列中的每个文档ID所对应的正排索引数据分别进行遍历，如图3A所示，当摘要生成子模块222从文档ID序列获取到一个文档ID后，从正排索引库26中找到对应的正排索引数据，并执行以下步骤：

步骤301、逐个单词遍历当前正排索引数据；

步骤302、是否遍历到单词，如果是，则执行步骤303；否则，执行步骤306。

该步骤中，遍历不到单词的情况有两种：已经遍历到当前正排索引数据的结尾，即已经完成对当前正排索引数据的遍历；或者，当前正排索引数据为空。

步骤303、将该单词的文本以及当前正排索引数据中所记录的该单词的当前位置记录到Array_A中，通过Array_A中的记录，可以确定各单词的起止位置；例如，对于“计算机”这个中文单词，其起始位置为“计”字所对应的位置，其截止位置为“机”字所对应的位置；而对于英文或其他中间包含单词间隔符的文字，则可通过单词间隔符来确定一个单词的起始和截止位置；

步骤304、该单词是否与关键词相同，如果是，则执行步骤305；否则，返回步骤301，继续遍历该单词后的其他单词；

步骤305、将该单词的文本及当前正排索引数据中所记录该单词的当前位置记录到Map_A中。

当摘要生成子模块222遍历完成正排索引数据后，可根据遍历过程所记录的Array_A和Map_A确定出最佳摘要路径，并将最佳摘要路径参数赋值给Best_Path，其过程可如图3B所示，包括以下步骤：

步骤310、将变量N赋值为0，将Best_Path赋值为空；

步骤311、根据Map_A，取其中一单词文本所对应的位置值赋值给Res_Beg，然后根据RL从Array_A确定一单词文本的位置值，使从Res_Beg开始到该确定出的位置值所界定出的长度为RL的文本段内包含有关键词，如果能取到这样的位置值，则继续执行后续步骤312；如果不能取到这样的位置值，则执行步骤316；

步骤312、将确定出的位置值赋值给Res_End，使Res_Beg到Res_End两者之间的文本长度不超过RL，较佳地，根据Array_A的记录，使Res_Beg所对应的位置是Array_A中记录的单词的开始位置（即单词文本的第一个字符的位置），Res_End所对应的位置是Array_A中记录的单词的结尾位置（即单词文本的最后一个字符的位置），以保证Res_Beg和Res_End之间的文本段内容清晰完整；

步骤313、根据Map_A确定Res_Beg到Res_End之间的文本段中所包含的关键词的数量，并将该数量值赋值给变量n；

步骤314、n是否大于N，如果是，则执行步骤315；否则，返回步骤311，以确定下一个不同的Res_Beg；

步骤315、将n的值赋值给N，将n清零，将当前Res_Beg和Res_End记录到Best_Path中，并返回步骤311，以确定下一个不同的Res_Beg；

步骤316、Best_Path的当前值即为最佳摘要路径，输出该Best_Path。

通过图3B所示的流程可以看出，摘要生成子模块222通过多次循环操作，每次取不同的位置值赋值给Res_Beg，并且在当前Res_Beg和Res_End界定出的文本段中包含的关键词数量最多时，记录当前Res_Beg和Res_End到Best_Path中，这样，最终Best_Path中记录的Res_Beg和Res_End所界定出的文本段中包含的关键词最多，从而得到最佳摘要路径。

需要说明的是：最佳摘要路径确定过程中，可以在每遍历完成一个正排索引数据后，利用遍历结果立即确定该正排索引数据的最佳摘要路径；也可以在遍历完所有正排索引数据后，根据正排索引数据各自的遍历结果分别确定各自的最佳摘要路径。

下面以应用于互联网的信息检索***为例，通过一具体实例进一步对本申请实施例的实现过程进行描述。

当在互联网中发布新网页时，将该网页内容的正排索引数据存储到信息检索***的正排索引库中，并建立与该网页标识的对应关系。本实例中，新发布的网页及其对应的正排索引数据分别为：

网页文档1：ID=100，标题为“应用于计算机的安全技术”；

对应的正排索引数据为：（计算机：2、50、90；安全：25……），其长度为100个字的长度；表示在网页文档1的全文文本的第2、50、90个字符的位置出现“计算机”一词，在第25个字符的位置出现“安全”一词；

网页文档2：ID=200，标题为“如何提高计算机的安全性”；

对应的正排索引数据：（计算机：10、70；安全：15……），其长度为100个字的长度；表示在网页文档2的全文文本的第10、70个字符的位置出现“计算机”一词，在第15个字符的位置出现“安全”一词。

倒排索引数据包括：计算机（ID 100，ID 200），安全（ID 100，ID 200）……

信息检索***规定的检索结果的数据格式为HTML格式，摘要文本的长度不超过50字。

当***接收到用户提交的查询词“计算机的安全”后，将其进行分词处理，得到关键词“计算机”和“安全”；根据倒排索引数据匹配查询，查找到包含有上述关键词的网页文档为ID=100和ID=200的网页文档，然后根据该网页文档确定出对应的正排索引数据，由于关键词在ID=100的网页文档中的出现次数为4，在ID=200的网页文档中出现的次数为3，则认为前者与查询词的匹配程度更高；然后，分别遍历这两个正排索引数据：

对网页文档ID=100的正排索引数据的遍历后，可得到：

Array_A：（…2：计算机；…25：安全；…50：计算机；…90：计算机；…）

Map_A：（计算机：2，50，90；安全：25）

根据得到的Array_A和Map_A可以进一步得出从起始位置为2到截止位置为52的文本段包含有3个关键词，比其他长度为50的文本段所包含的关键词都多，则将该段文本的起止位置[2，52]作为最佳的摘要文本路径；

同理，对网页文档ID=200的正排索引数据的遍历结果可以确定出最佳的摘要文本路径为[1，50]；

然后，该***根据确定出的最佳摘要文本路径生成摘要文本，并按照文档与查询词匹配程度的高低，以HTML格式，将网页ID=100和网页ID=200的网页的标题、Url和摘要作为检索结果呈现给该用户。

本申请实施例还提供一种上述技术方案的替代方案，即，在生成摘要时，不是通过遍历正排索引数据得到摘要路径，而是通过遍历文档的全文数据得到摘要路径，并相应地根据得到的摘要路径从全文文本中提取出摘要文本，具体遍历过程以及摘要路径确定方式与前述描述相似，在此不再赘述。

将本申请实施例提供的技术方案与传统的信息检索技术方案相比，仅需要对查询词进行分词处理，而传统方式需要对查询词和全文数据都要进行分词处理，可见本申请实施例提供的技术方案的查询效率会比传统方式有所提高；本申请实施例提供的技术方案利用文档的正排索引数据生成文档的摘要，而传统方式需要利用文档的全文数据生成文档的摘要，而文档的正排索引数据一方面比文档的全文数据所含数据量少，因而可以提高效率，另一方面，利用文档的正排索引数据可以较为方便地统计单词出现的频率、次数等，因而可以方便而准确地确定出文档的摘要，并能较为准确和全面的概括对应全文数据的内容，因此，利用文档的正排索引数据生成文档摘要，可以一定程度上保证检索结果的合理性和准确性。

综合而言，由于本申请实施例充分利用了信息检索***现有的全文索引结构，以及充分考虑到现有的检索结果展现形式，因此能够在生成摘要时，利用更精确更有针对性的数据，可以提高生成效率，并且提高最终结果的用户满意度。本申请实施例提供的信息检索***具有高内聚、松耦合的特点，易与现有的各种信息检索***整合，例外该***还具有高性能、可伸缩、易定制的特点。

本申请是参照根据本发明实施例的方法、设备（***）、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种信息检索方法，应用于每个文档对应有正排索引数据的信息检索***，其中，每个文档的正排索引数据以该文档中的各单词为索引，记录各单词在该文档中的位置，其特征在于，该方法包括以下步骤：

针对所述文档中的每个文档，执行以下步骤：

根据确定出的摘要的起止位置以及正排索引数据生成文档的摘要；

将所述文档的摘要以及文档的信息作为检索结果进行输出。

2.如权利要求1所述的方法，其特征在于，根据正排索引数据确定出的摘要，具体为：

根据正排索引数据确定出的所有不超过规定长度的文本段中，所述关键词出现次数最多的文本段。

3.如权利要求2所述的方法，其特征在于，若不超过规定长度、所述关键词出现次数最多的文本段为多个，则将其中所述关键词重复出现次数最多的文本段作为摘要。

4.如权利要求1-3任一项所述的方法，其特征在于，将所述文档的摘要以及所述文档的信息作为检索结果进行输出，具体为：

按照所述文档与所述关键词匹配程度从高到低的顺序，将所述文档的摘要以及所述文档的信息作为检索结果进行排序，并根据规定的数据格式对排序后的检索结果进行输出。

5.一种信息检索***，包括存储有该***倒排索引数据和每个文档对应的正排索引数据的存储模块，其中，每个文档的正排索引数据以该文档中的各单词为索引，记录各单词在该文档中的位置，其特征在于，还包括：

输入模块，用于接收输入到该***的查询词；

检索模块，包括：

6.如权利要求5所述的***，其特征在于，所述检索模块根据所述文档对应的正排索引数据确定所述文档的摘要时，将根据正排索引数据确定出的所有不超过规定长度的文本段中，所述关键词出现次数最多的文本段作为该文档的摘要。

7.如权利要求6所述的***，其特征在于，若所述检索模块确定出的不超过规定长度、所述关键词出现次数最多的文本段为多个，则将其中所述关键词重复出现次数最多的文本段作为摘要。

8.如权利要求5所述的***，其特征在于，所述检索模块，还包括：

提交子模块，用于将生成的所述文档的摘要以及所述文档的信息提交到所述输出模块。

9.如权利要求5-8任一项所述的***，其特征在于，所述输出模块将所述文档的摘要以及所述文档的信息作为检索结果进行输出时，按照所述文档与所述关键词匹配程度从高到低的顺序，将所述文档的摘要以及所述文档的信息作为检索结果进行排序，并根据规定的数据格式对排序后的检索结果进行输出。