CN112417091A

CN112417091A - 一种文本检索方法及装置

Info

Publication number: CN112417091A
Application number: CN202011109750.4A
Authority: CN
Inventors: 王志光; 姚登科; 王君
Original assignee: Beijing Doumi Youpin Technology Development Co ltd
Current assignee: Beijing Doumi Youpin Technology Development Co ltd
Priority date: 2020-10-16
Filing date: 2020-10-16
Publication date: 2021-02-26

Abstract

本申请提供了一种文本检索方法及装置，属于文本搜索技术领域。所述方法包括获取待搜索文本的关键词；计算所述待搜索文本的各关键词的权重，构建由待搜索文本的各关键词的权重与对应的关键词构成的二维查询向量；在包含所有文本的索引库中查询与所述待搜索文本的至少一个关键词匹配的目标文本；获取预置在所述索引库中的所述目标文本的各关键词的权重，构建由所述目标文本的各关键词的权重与对应的关键词构成的二维目标向量；根据所述二维查询向量与所述二维目标向量的余弦相似度确定最终目标文本。本申请提高了整体检索效率，同时提高了检索命中率。

Description

一种文本检索方法及装置

技术领域

本申请属于文本搜索技术领域，特别涉及一种文本检索的方法及装置。

背景技术

随着国际互联网在中国的普及，中国的网络招聘领域表现出了蓬勃发展之势。迅速增长的网络招聘规模在给求职者带来更多的选择机会的同时，也增加了求职者搜索所需要职位的成本。

现有的招聘类app简化了人们获取职位信息的方式，但其普遍存在推荐过多与用户自身职位有一定相似性、但不是用户期望的职位信息，或者通过一些可以设置的，但筛选方式比较简单的方式去除少量不符合期望的职位信息，后续仍然有大量的不符合期望的职位信息需要用户自己筛选去除，在这个过程中用户花费大量的时间和精力去查看并去除许多跟自身期望不相关的数据信息，浪费用户的时间和精力。

除了检索结果不尽人意之外，检索速度过慢也给用户带来了不好的 app使用体验。现有的职位检索采用传统的DB检索方案，是基于单数据片、B+树索引、硬盘持久化的检索方法，这种方法来的问题是：

数据体量，当单片数据达到千万级后，查询速度下降明显

索引方法，正排索引对非结构化数据支持效率低

硬盘访问速度，不管是机械硬盘还是SSD，都满足线上实时的检索需求。

发明内容

为了解决上述技术问题至少之一，本申请提供了一种文本检索方法及装置，用于提高检索效率以及检索命中率。

本申请第一方面提供了一种文本检索方法，包括：获取待搜索文本的关键词；计算所述待搜索文本的各关键词的权重，构建由待搜索文本的各关键词的权重与对应的关键词构成的二维查询向量；在包含所有文本的索引库中查询与所述待搜索文本的至少一个关键词匹配的目标文本；获取预置在所述索引库中的所述目标文本的各关键词的权重，构建由所述目标文本的各关键词的权重与对应的关键词构成的二维目标向量；根据所述二维查询向量与所述二维目标向量的余弦相似度确定最终目标文本。

优选的是，在索引库中查询目标文本之前，进一步包括构建所述索引库，构建所述索引库包括：对所有待入库的文本构建倒排索引，所述倒排索引至少包括由关键词以及所述关键词所在的待入库的文本的编号集合所形成的索引表；计算所有待入库的文本的各关键词的权重。

优选的是，所述待搜索文本的各关键词的权重与所述索引库中的所有文本的各关键词的权重的计算方法相同，该计算方法包括：对各关键词，确定该关键词在对应文本中的词频，以及确定该关键词的逆向文件频率，所述逆向文件频率是指包含该关键词的文本占所有文本的频率的一个反比参数；由所述词频与所述逆向文件频率的乘积作为该关键词的权重。

优选的是，确定最终目标文本包括：对所有目标文本，计算其对应的二维目标向量与所述待搜索文本所对应的二维查询向量的余弦相似度，对余弦相似度计算结果由大到小进行排序；选取排序靠前的指定数量的余弦相似度所对应的目标文本作为所述最终目标文本。

优选的是，所述索引库包括多个，据此，在确定最终目标文本时进一步包括：对满足条件的索引库并行处理，获得每个索引库返回的所述指定数量的预处理目标文本；合并各索引库的预处理目标文本并按余弦相似度计算结果由大到小进行排序；选取排序靠前的指定数量的余弦相似度所对应的目标文本作为所述最终目标文本。

本申请第二方面提供了一种文本检索装置，包括：关键词获取模块，用于获取待搜索文本的关键词；查询向量生成模块，用于计算所述待搜索文本的各关键词的权重，构建由待搜索文本的各关键词的权重与对应的关键词构成的二维查询向量；搜索模块，用于在包含所有文本的索引库中查询与所述待搜索文本的至少一个关键词匹配的目标文本；目标向量生成模块，用于获取预置在所述索引库中的所述目标文本的各关键词的权重，构建由所述目标文本的各关键词的权重与对应的关键词构成的二维目标向量；目标文本确定模块，用于根据所述二维查询向量与所述二维目标向量的余弦相似度确定最终目标文本。

优选的是，还包括索引库构建模块，所述索引库构建模块包括：索引表构建单元，用于对所有待入库的文本构建倒排索引，所述倒排索引至少包括由关键词以及所述关键词所在的待入库的文本的编号集合所形成的索引表；权重计算单元，用于计算所有待入库的文本的各关键词的权重。

优选的是，所述待搜索文本的各关键词的权重与所述索引库中的所有文本的各关键词的权重的通过权重计算单元计算，所述权重计算单元包括：词频及逆向文件频率统计单元，用于对各关键词，确定该关键词在对应文本中的词频，以及确定该关键词的逆向文件频率，所述逆向文件频率是指包含该关键词的文本占所有文本的频率的一个反比参数；权重存储单元，用于将由所述词频与所述逆向文件频率的乘积作为该关键词的权重。

优选的是，所述目标文本确定模块包括：排序单元，用于对所有目标文本，计算其对应的二维目标向量与所述待搜索文本所对应的二维查询向量的余弦相似度，对余弦相似度计算结果由大到小进行排序；选取单元，用于选取排序靠前的指定数量的余弦相似度所对应的目标文本作为所述最终目标文本。

优选的是，所述索引库包括多个，据此，所述目标文本确定模块进一步包括：并行处理单元，用于对满足条件的索引库并行处理，获得每个索引库返回的所述指定数量的预处理目标文本；合并单元，用于合并各索引库的预处理目标文本并按余弦相似度计算结果由大到小进行排序；统计单元，用于选取排序靠前的指定数量的余弦相似度所对应的目标文本作为所述最终目标文本。

本申请提高了整体检索效率，同时提高了检索命中率。

附图说明

图1是本申请文本检索方法的一优选实施例的流程图。

图2是本申请文本检索装置的一优选实施例的架构图。

图3是本申请文本检索方法的一优选实施例的索引存储过程示意图。

具体实施方式

为使本申请实施的目的、技术方案和优点更加清楚，下面将结合本申请实施方式中的附图，对本申请实施方式中的技术方案进行更加详细的描述。在附图中，自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。所描述的实施方式是本申请一部分实施方式，而不是全部的实施方式。下面通过参考附图描述的实施方式是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。基于本申请中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本申请保护的范围。下面结合附图对本申请的实施方式进行详细说明。

本申请提供了一种文本检索方法及装置，如图1所示，主要包括：

步骤S100、获取待搜索文本的关键词。

本申请中，文本，是指书面语言的表现形式，从文学角度说，通常是具有完整、***含义(Message)的一个句子或多个句子的组合，在计算机领域，文本通常是由多个关键词形成的表征一定含义的短语，例如 “测试开发工程师”，“自动灌溉立体化种植设备”等等。

本申请的目的在于针对上述的待搜索文本，从数据库中选取与之匹配的信息(记录)。

如上所示，测试开发工程师属于典型的文本，以职位搜索为例，对本申请的技术方案做详细介绍，应当理解，本申请还适用于其他领域的文本搜索，如通过文本信息进行专利检索、论文检索等等。

在步骤S100中，本申请首先通过app等方式获得用户的需求，即待搜索文本，之后对该文本进行关键词提取，例如获取的待搜索文本是“测试开发工程师”，对应提取的关键词是“测试”，“开发”，“工程师”。

步骤S200、计算所述待搜索文本的各关键词的权重，构建由待搜索文本的各关键词的权重与对应的关键词构成的二维查询向量。

仍以上述“测试开发工程师”为例，权重表征了各关键词的重要程度，如按照词频来确定，上述三个关键词的权重均为33.3％，备选实施方式中，也可以根据其他方式确定权重，例如可以通过词频与逆向文件频率来共同确定，将在步骤S300中详细介绍，或者根据指定规则对一些特殊关键词赋予一定的权重等等。

二维查询向量是用于描述待搜索文本，便于后续在数据库中做精准匹配，详见步骤S500，这里所构建的二维查询向量包括两个维度，一是关键词，二是关键词对应的权重，例如以m1-m3表示上述三个关键词，则构建的二维向量为((m1，m2，m3)，(33.3％，33.3％，33.3％))。

步骤S300、在包含所有文本的索引库中查询与所述待搜索文本的至少一个关键词匹配的目标文本。

以上述“测试开发工程师”的三个关键词为检索目标，或者首先从索引库中查询具有至少一个关键词的目标文本，例如“计算机***运维工程师”，“Java项目开发经理”等均属于目标文本。

在一些可选实施方式中，在索引库中查询目标文本之前，进一步包括构建所述索引库，用于提高检索效率，构建所述索引库包括：

步骤T1，对所有待入库的文本构建倒排索引，所述倒排索引至少包括由关键词以及所述关键词所在的待入库的文本的编号集合所形成的索引表。

步骤T2，计算所有待入库的文本的各关键词的权重。

本领域技术人员理解的是，职位的数据包含结构化数据与非结构化数据，故索引结构采用倒排方式。倒排索引(Inverted Index)，也常被称为反向索引、置入档案或反向档案，是一种索引方法，被用来存储在全文搜索下某个单词在一个文档或者一组文档(文本)中的存储位置的映射。

假设我们要对以下文本(职位)内容建立倒排索引，如表1所示。

表1文本内容表

文档编号	文档内容
		1	Java开发工程师
2	测试开发工程师
		3	WEB前端开发工程师
4	IOS前端开发工程师
		5	计算机***运维工程师

首先要用分词***将本自动切分成单词序列。这样每个文本就转换为由单词序列构成的数据流，为了***后续处理方便，需要对每个不同的单词赋予唯一的单词编号，同时记录下哪些文本包含这个单词，在如此处理结束后，我们可以得到最简单的倒排索引，如表2所示。

表2倒排索引表

通过倒排索引，可以根据单词快速获取包含这个单词的文本列表。比如单词“工程师”，其单词编号为3，倒排列表为{1,3,4,5}，说明文档编号为1,3,4,5的文本都包含该单词。以上只是对倒排索引进行简单地举例说明，实际上我们的文本内容应该包含职位的详细信息。同时索引*** 不仅可以记录文本编号，在索引过中还会通过索引组件进行文本频次和单词频率的计算，最终构成完整的倒排索引。

对于文本频次和单词频次的计算即步骤T2中描述的计算所有待入库的文本的各关键词的权重所需要的。

在对数据库进行检索时会先对搜索词进行语言处理，同索引过程中的语言处理几乎相同。例如我们的搜索词为“酒店服务员”，经过处理我们得到term词组：“酒店”，“服务员”，根据词组去倒排索引表中搜索到所有包含“酒店”和包含“服务员”的文档。当然并不是简单地通过倒排索引找到对应的文档列表，在数据量较大的情况下，对某一个关键词进行检索可能会返回大量结果，我们需要对结果进行排序，对于查询结果应该按照与查询语句的相关性进行排序，越相关者越靠前。所以说，权重作为关键词的重要程度，其表征的越符合用户的期望值，则检索到的结果将会越准确。

在一些可选实施方式中，所述待搜索文本的各关键词的权重与所述索引库中的所有文本的各关键词的权重的计算方法相同，该计算方法包括：

M1、对各关键词，确定该关键词在对应文本中的词频，以及确定该关键词的逆向文件频率，所述逆向文件频率是指包含该关键词的文本占所有文本的频率的一个反比参数。

M2、由所述词频与所述逆向文件频率的乘积作为该关键词的权重。

我们把查询语句看作一片短小的文本，对文本与文本之间的相关性 (relevance)进行打分(scoring)，分数高的相关性好，就应该排在前面。一个文档有很多词(Term)组成，不同的Term重要性不同，因而判断文档之间的关系，首先找出哪些词(Term)对文档之间的关系最重要，然后判断这些词(Term)之间的关系。判断词(Term)之间的关系从而得到文档相关性的过程应用一种叫做向量空间模型算法(Vector Space Model)。

我们通常通过一定的算法来计算这些词(Term)的权重。例如本实施例 M1-M2给出的统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。

本实施例中，词频TF指的是某一个给定的词语在该文件中出现的次数。这个数字通常会被归一化(一般是词频除以文章总词数),以防止它偏向长的文件：

逆向文件频率IDF的主要思想是：如果包含某一词条(本申请的关键词)的文本越少,则逆向文件频率越大，则说明词条具有很好的类别区分能力。某一特定词语的逆向文件频率，如步骤M1所述是指包含该关键词的文本占所有文本的频率的一个反比参数，例如可以由总文件数目除以包含该词语之文件的数目，再将得到的商取对数得到：

备选实施方式中，反比参数也可以是直接是总文件数目除以包含该词语之文件的数目，或者总文件数目除以包含该词语之文件的数目之后，再进行一定比例的缩放等等。

最后，步骤M2中，通过词频(TF)和逆向文件频率(IDF)的乘积来表示权重(Weight)：

Weight＝TF*IDF。

步骤S400、获取预置在所述索引库中的所述目标文本的各关键词的权重，构建由所述目标文本的各关键词的权重与对应的关键词构成的二维目标向量。

二维目标向量的构建方式与二维查询向量的构建方式相同，这里不再赘述。

步骤S500、根据所述二维查询向量与所述二维目标向量的余弦相似度确定最终目标文本。

本实施例中，步骤S500中，根据余弦相似度确定最终目标文本可以是选取余弦相似度最高的二维目标向量所对应的文本为最终目标文本，也可以是选取余弦相似度排名靠前的二维目标向量所对应的文本为最终目标文本，还可以是选取余弦相似度超过阈值的二维目标向量所对应的文本为最终目标文本。

相似度可以近似理解为两个向量的同向程度，余弦相似度即用余弦值表示两个向量的夹角，夹角越小，余弦值越大，表明二维查询向量与所述二维目标向量越贴近，二维查询向量所对应的搜索文本与二维目标向量所对应的最终目标文本越接近，检索结果越符合要求。

余弦相似度可以用以下公式表明。

其中，A为二维查询向量，B为二维目标向量，余弦值越接近1，就表明夹角越接近0度，也就是两个向量越相似。

举例来说，假设待搜索文本在步骤S100中提取了三关键词，简记为 w5，w8，w10。步骤S200计算了这三个关键词的权重，如表3所示。Query 行表示待搜索文本的各关键词的权重。

以w5为关键词在索引库中检索到目标文本D2和D3，以w8为关键词在索引库中检索到目标文本D1，以w10为关键词在索引库中检索到目标文本 D1和D3，同时D1-D3中还存在其他关键词，如w1、w2、w3等，并且索引库中存储了各目标文本的各关键词的权重，详见表3。

表3检索结果展示表

	W1	W2	w3	W4	W5	W6	W7	W8	W9	W10
											D1	0.176	0	0.477	0	0	0	0	0.954	0	0.176
D2	0	0.477	0	0.477	0.176	0	0	0	0.176	0
											D3	0.176	0	0	0	0.176	0	0	0	0.176	0.176
Query	0	0	0	0	0.176	0	0	0.477	0	0.176

在步骤S500中，分别计算D1-D3与Query的余弦相似度。

可以看出，D1的分值最高，表明其与Query最为相似，其次是D3，相似度达到0.372，D2的相似度最低，只有0.08。

在一些可选实施方式中，确定最终目标文本包括：对所有目标文本，计算其对应的二维目标向量与所述待搜索文本所对应的二维查询向量的余弦相似度，对余弦相似度计算结果由大到小进行排序；选取排序靠前的指定数量的余弦相似度所对应的目标文本作为所述最终目标文本。

可以理解的是，通过上述方式，可以从海量的目标文本中挑选出最符合要求的若干文本作为最终目标文本呈现给用户。

在一些可选实施方式中，所述索引库包括多个，据此，在确定最终目标文本时进一步包括：对满足条件的索引库并行处理，获得每个索引库返回的所述指定数量的预处理目标文本；合并各索引库的预处理目标文本并按余弦相似度计算结果由大到小进行排序；选取排序靠前的指定数量的余弦相似度所对应的目标文本作为所述最终目标文本。

该实施例中，对于一些数据量较大且具有一定的划分标准的检索项目，可以按照划分标准构建多个索引库，并且在每一个划分标准中，根据需要继续划分索引库。比如在求职类文本搜索时，地区就是所谓的划分标准，不同地区的职位信息可以存储在不同的索引库中，即便相同的地区，也可以采用不同的索引库存储。

举例来说，索引服务定时从数据源中获取数据进行索引的构建，整个索引库是按照城市+数据量进行切分，异步把所有的职位信息全部写内存，如图3所示，通过多线程或者多进程构建索引库。

如图3所示，在北京，可以将每2w条数据作为一个集合，通过多个线程来处理不同的集合，在进行检索时，检索过程中根据传入的城市id并行查询对应城市的所有索引，每个索引返回2000条数据，合并多个索引的数据排序并取前2000条作为最终结果。

在一些可选实施方式中，构建索引库时，采用主次路索引策略，其中一路索引提供检索，另一路索引提供异步索引更新，索引更新完成后进行索引切换。该过程可以保证检索过程不受更新过程的影响。同时，为了减少在查询阶段对返回结果数据的每个字段进行数据拼接，在索引阶段，缓存了每条职位按固定格式拼接好的数据。由于上层调用针对不同的实验组可能需要不同的数据，因此针对不同的source缓存了多份数据，查询阶段根据上层传入的source以及查询结果中的post_id直接从缓存获取数据。

本申请第二方面提供了一种与上述方法相对应的文本检索装置，如图2所示，主要包括：关键词获取模块，用于获取待搜索文本的关键词；查询向量生成模块，用于计算所述待搜索文本的各关键词的权重，构建由待搜索文本的各关键词的权重与对应的关键词构成的二维查询向量；搜索模块，用于在包含所有文本的索引库中查询与所述待搜索文本的至少一个关键词匹配的目标文本；目标向量生成模块，用于获取预置在所述索引库中的所述目标文本的各关键词的权重，构建由所述目标文本的各关键词的权重与对应的关键词构成的二维目标向量；目标文本确定模块，用于根据所述二维查询向量与所述二维目标向量的余弦相似度确定最终目标文本。

在一些可选实施方式中，还包括索引库构建模块，所述索引库构建模块包括：索引表构建单元，用于对所有待入库的文本构建倒排索引，所述倒排索引至少包括由关键词以及所述关键词所在的待入库的文本的编号集合所形成的索引表；权重计算单元，用于计算所有待入库的文本的各关键词的权重。

在一些可选实施方式中，所述待搜索文本的各关键词的权重与所述索引库中的所有文本的各关键词的权重的通过权重计算单元计算，所述权重计算单元包括：词频及逆向文件频率统计单元，用于对各关键词，确定该关键词在对应文本中的词频，以及确定该关键词的逆向文件频率，所述逆向文件频率是指包含该关键词的文本占所有文本的频率的一个反比参数；权重存储单元，用于将由所述词频与所述逆向文件频率的乘积作为该关键词的权重。

在一些可选实施方式中，所述目标文本确定模块包括：排序单元，用于对所有目标文本，计算其对应的二维目标向量与所述待搜索文本所对应的二维查询向量的余弦相似度，对余弦相似度计算结果由大到小进行排序；选取单元，用于选取排序靠前的指定数量的余弦相似度所对应的目标文本作为所述最终目标文本。

在一些可选实施方式中，所述索引库包括多个，据此，所述目标文本确定模块进一步包括：并行处理单元，用于对满足条件的索引库并行处理，获得每个索引库返回的所述指定数量的预处理目标文本；合并单元，用于合并各索引库的预处理目标文本并按余弦相似度计算结果由大到小进行排序；统计单元，用于选取排序靠前的指定数量的余弦相似度所对应的目标文本作为所述最终目标文本。

本申请第三方面提供了一种计算机设备，包括处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序用于实现如上所述的文本检索方法。

本申请第四方面提供了一种可读存储介质，所述可读存储介质存储有计算机程序，所述计算机程序被处理器执行时用于实现如上所述的文本检索方法。

特别地，根据本申请的实施方式，上文参考流程图描述的过程可以被实现为计算机软件程序，特别是安装在手机终端上的计算机程序，其能够与服务器进行交互。例如，本申请的实施方式包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。本申请的计算机存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施方式的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施方式中所涉及到的模块或单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块或单元也可以设置在处理器中，这些模块或单元的名称在某种情况下并不构成对该模块或单元本身的限定。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种文本检索方法，其特征在于，包括：

获取待搜索文本的关键词；

计算所述待搜索文本的各关键词的权重，构建由待搜索文本的各关键词的权重与对应的关键词构成的二维查询向量；

在包含所有文本的索引库中查询与所述待搜索文本的至少一个关键词匹配的目标文本；

获取预置在所述索引库中的所述目标文本的各关键词的权重，构建由所述目标文本的各关键词的权重与对应的关键词构成的二维目标向量；

根据所述二维查询向量与所述二维目标向量的余弦相似度确定最终目标文本。

2.如权利要求1所述的文本检索方法，其特征在于，在索引库中查询目标文本之前，进一步包括构建所述索引库，构建所述索引库包括：

对所有待入库的文本构建倒排索引，所述倒排索引至少包括由关键词以及所述关键词所在的待入库的文本的编号集合所形成的索引表；

计算所有待入库的文本的各关键词的权重。

3.如权利要求1所述的文本检索方法，其特征在于，所述待搜索文本的各关键词的权重与所述索引库中的所有文本的各关键词的权重的计算方法相同，该计算方法包括：

对各关键词，确定该关键词在对应文本中的词频，以及确定该关键词的逆向文件频率，所述逆向文件频率是指包含该关键词的文本占所有文本的频率的一个反比参数；

由所述词频与所述逆向文件频率的乘积作为该关键词的权重。

4.如权利要求1所述的文本检索方法，其特征在于，确定最终目标文本包括：

对所有目标文本，计算其对应的二维目标向量与所述待搜索文本所对应的二维查询向量的余弦相似度，对余弦相似度计算结果由大到小进行排序；

选取排序靠前的指定数量的余弦相似度所对应的目标文本作为所述最终目标文本。

5.如权利要求4所述的文本检索方法，其特征在于，所述索引库包括多个，据此，在确定最终目标文本时进一步包括：

对满足条件的索引库并行处理，获得每个索引库返回的所述指定数量的预处理目标文本；

合并各索引库的预处理目标文本并按余弦相似度计算结果由大到小进行排序；

6.一种文本检索装置，其特征在于，包括：

关键词获取模块，用于获取待搜索文本的关键词；

查询向量生成模块，用于计算所述待搜索文本的各关键词的权重，构建由待搜索文本的各关键词的权重与对应的关键词构成的二维查询向量；

搜索模块，用于在包含所有文本的索引库中查询与所述待搜索文本的至少一个关键词匹配的目标文本；

目标向量生成模块，用于获取预置在所述索引库中的所述目标文本的各关键词的权重，构建由所述目标文本的各关键词的权重与对应的关键词构成的二维目标向量；

目标文本确定模块，用于根据所述二维查询向量与所述二维目标向量的余弦相似度确定最终目标文本。

7.如权利要求6所述的文本检索装置，其特征在于，还包括索引库构建模块，所述索引库构建模块包括：

索引表构建单元，用于对所有待入库的文本构建倒排索引，所述倒排索引至少包括由关键词以及所述关键词所在的待入库的文本的编号集合所形成的索引表；

权重计算单元，用于计算所有待入库的文本的各关键词的权重。

8.如权利要求6所述的文本检索装置，其特征在于，所述待搜索文本的各关键词的权重与所述索引库中的所有文本的各关键词的权重的通过权重计算单元计算，所述权重计算单元包括：

词频及逆向文件频率统计单元，用于对各关键词，确定该关键词在对应文本中的词频，以及确定该关键词的逆向文件频率，所述逆向文件频率是指包含该关键词的文本占所有文本的频率的一个反比参数；

权重存储单元，用于将由所述词频与所述逆向文件频率的乘积作为该关键词的权重。

9.如权利要求6所述的文本检索装置，其特征在于，所述目标文本确定模块包括：

排序单元，用于对所有目标文本，计算其对应的二维目标向量与所述待搜索文本所对应的二维查询向量的余弦相似度，对余弦相似度计算结果由大到小进行排序；

选取单元，用于选取排序靠前的指定数量的余弦相似度所对应的目标文本作为所述最终目标文本。

10.如权利要求9所述的文本检索装置，其特征在于，所述索引库包括多个，据此，所述目标文本确定模块进一步包括：

并行处理单元，用于对满足条件的索引库并行处理，获得每个索引库返回的所述指定数量的预处理目标文本；

合并单元，用于合并各索引库的预处理目标文本并按余弦相似度计算结果由大到小进行排序；

统计单元，用于选取排序靠前的指定数量的余弦相似度所对应的目标文本作为所述最终目标文本。