WO2013120373A1

WO2013120373A1 - 搜索方法、装置及存储介质

Info

Publication number: WO2013120373A1
Application number: PCT/CN2012/086025
Authority: WO
Inventors: 路彦雄; 杨月奎; 王亮; 焦峰
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2012-02-13
Filing date: 2012-12-06
Publication date: 2013-08-22
Also published as: US9317590B2; US20140358914A1; CN103246681A; CN103246681B

Abstract

本发明实施例公开了一种搜索方法、装置及存储介质，其方法包括：获取待搜索信息的所有关联文档；基于词匹配算法及语义匹配算法，计算每一个关联文档与所述待搜索信息的相关度；根据计算得到的相关度对所有关联文档进行排序处理，并显示排序结果。本发明实施例还公开了一种搜索装置。本发明综合考虑词与词的匹配，以及词与词之间的语义关系的匹配，获得准确的相关度计算结果，为用户提供理想的搜索结果，提高用户的满意度。

Description

搜索方法、装置及存储介质

技术领域

本发明涉及计算机网络搜索技术领域，尤其涉及一种搜索方法、装置及存储介质。

背景技术

目前，传统的搜索方案主要为：根据用户输入待搜索信息在网络中查找所有的关联文档，依据一定的算法规则计算每个关联文档与待搜索信息的关联程度，基于关联程度的高低对所有关联文档进行排序处理，将排序结果作为搜索结果返回给用户。上述可知，关联程度的高低直接影响关联文档的排序结果，直接影响用户的搜索结果，而关联程度的高低一般采用相关度评分直观反映。

传统的搜索方案中，通常采用词匹配算法进行相关度计算，例如采用 BM25 ( Best Match, 最佳匹配）算法、 proximity (Term proximity scoring , 词近邻得分)算法等等进行相关度评分，相关度评分越高，表明关联程度越强。以基于 ΒΜ25算法的搜索方案进行说明，如下：假设用户输入的待搜索信息为 "中国的首都" ，根据 ΒΜ25算法的相关度评分原则，关联文档中必须出现 "中国" 、 "首都" ，才能够获得相应的相关度评分，否则该关联文档的相关度评分则为 0;例如：其中一个关联文档为： "北京，它是一座有着 3000 多年的建城史， 850多年的建者史的历史文化名城；是全国政治、文化中心，也是全国最大的陆空产通枢纽" ，根据上述传统的搜索方案，该关联文档的相关度评分为 0, 表明与待搜索信息不相关，然而，从语义关系来看，该关联文档与待搜索信息的相关性实际上是十分好的。经过排序处理后，该关联文档可能排列于较后的搜索结果页面中，不利于用户的查看。上述例子可知，传统的搜索方案仅仅基于词进行相关度的匹配，并未考虑词与词之间的语义关系，可能造成相关度计算结果的不准确，影响搜索结果的排列顺序，降低用户对搜索结果的满意度，降低用户的搜索体验。发明内容

本发明实施例所要解决的技术问题在于，提供一种搜索方法、装置及存储介质，能够获得更准确的搜索结果。

一方面，本发明实施例提供了一种搜索方法，包括：

获取待搜索信息的关联文档；

基于词匹配算法及语义匹配算法，计算获取到的每一个关联文档与所述待搜索信息的相关度；

根据计算得到的相关度对获取到的关联文档进行排序，并显示排序结果。

另一方面，本发明实施例还提供了一种搜索装置，包括：

搜索模块，用于获取待搜索信息的关联文档；

计算模块，用于基于词匹配算法及语义匹配算法，计算所述搜索模块获得的每一个关联文档与所述待搜索信息的相关度；

排序模块，用于根据所述计算模块计算得到的相关度对所述搜索模块获得的所有关联文档进行排序处理；

显示模块，用于显示所述排序模块获得的排序结果。

另一方面，本发明实施例还提供了一种包含计算机可执行指令的存储介质，所述计算机可执行指令用于执行一种搜索方法，所述方法包括以下步骤：获取待搜索信息的关联文档；

实施本发明实施例，具有如下有益效果：

本发明实施例结合词匹配算法及语义匹配算法，综合考虑词与词的匹配，以及词与词之间的语义关系的匹配，获得每一个关联文档与待搜索信息之间较为准确的相关度，基于该相关度进行排序并显示排序结果，可以为用户提供理想的搜索结果，使得用户可以从显示的搜索结果中快速获得相关度较高的关联文档，满足自己实际的搜索需求，提高了搜索效率，从而提高了用户的满意度。附图概述

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作筒单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图 1为本发明提供的搜索方法的一个实施例的流程图；

图 2为图 1所示步骤 S102的具体流程图；

图 3为本发明提供的 IDF表的示意图；

图 4为本发明提供的 Ml表的示意图；

图 5为图 1所示步骤 S103的具体流程图；

图 6为本发明提供的搜索装置的一个实施例的结构示意图；

图 7为图 6所示的计算模块的实施例的结构示意图。本发明的较佳实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供的方案中，搜索装置可以基于词匹配以及词与词之间的语义匹配算法，计算待搜索信息的所有关联文档的相关度，并根据该相关度进行排序和显示，使得用户可以从显示的搜索结果中快速获得相关度较高的关联文档，满足自己的搜索需求，提高搜索效率。

其中，所述待搜索信息可以为用户输入的搜索关键词句，其可以用 query

(查询）表示。所述关联文档可以为：基于用户输入的搜索关键词句，利用现有的网络搜索技术获得的搜索结果中包含的文档，其可以用 document (文档）表示。所述词匹配算法是指搜索过程基于词进行匹配，其可以为： BM25算法、 proximity等算法，除特别说明外，本发明实施例以 BM25算法为例进行说明。所述语义匹配算法是指搜索过程基于词与词之间的语义关系进行匹配，也即，搜索过程基于词与词之间的互信息进行匹配。所谓 MI ( Mutual Information, 互信息），是对两个随机变量的关联程度的描述，在文本处理中， Ml用来衡量两个词的相关度，两个词的 Ml越大，表示该两个词的关联程度越强。下面将结合附图 1-附图 5 , 对本发明实施例提供的搜索方法进行详细介绍。

请参见图 1 , 为本发明提供的搜索方法的一个实施例的流程图；该方法包括：

S101 , 获取待搜索信息的关联文档。本步骤可以参照现有技术，在此不赘述。

S102, 基于词匹配算法及语义匹配算法，计算获取到的每一个关联文档与所述待搜索信息的相关度。

本步骤中，每一个关联文档与待搜索信息的相关度的评分可以由两部分组成，一部分是基于词匹配算法获得的关联评分，另一部分是基于语义匹配算法获得的关联评分。实际应用中，可以根据具体情况，预先设置两部分关联评分的权重，使得加权后的两部分关联评分所组成的相关度评分更能准确体现关联文档与待搜索信息的关联程度。

S103 , 根据计算得到的相关度对获取到的关联文档进行排序处理，并显示排序结果。

本步骤中，可以按照每个关联文档与待搜索信息的相关度评分由高至低的顺序，对搜索得到的所有关联文档进行排序和显示，使得显示在前的始终为与待搜索信息较相关的关联文档，从而使得用户可以从显示的搜索结果中快速获得相关度较高的关联文档，满足自己的搜索需求，提高搜索效率。可以理解的是，本步骤也可以采用其他顺序进行排序处理，例如按照相关度评分由低至高的顺序，或者设置一部分按照相关度评分由低至高的顺序，一部分按照相关度评分由高至低的顺序，等等。

请参见图 2, 为图 1所示步骤 S102的具体流程图；该步骤 S102包括：

5211 , 对所述待搜索信息进行向量化处理，获得 m个向量 ί,·。

本步骤中，对待搜索信息进行向量化处理，即是利用分词技术，对待搜索信息进行分词处理，将待搜索信息分割成 m个词组成，可以表示为 ^至，其中， m和均为正整数，且 l m。

5212, 对获取到的每一个关联文档进行向量化处理，获得每一个关联文档所对应的 n个向量。

本步骤中，对获取到的所有关联文档中的每一个文档进行向量化处理，即是利用分词技术，对每一个关联文档进行分词处理，将该关联文档分割成 n个词组成，可以表示为 ^至^ , 其中， n和 _/均为正整数，且 1 _/ n。

需要说明的是，步骤 S211与步骤 S212在时序上不分先后，例如也可以先执行步骤 S212, 再执行步骤 S211。步骤 S211-步骤 S212中的向量化处理过程可以参照现有技术，在此不赘述。

5213, 基于词匹配算法，计算得到每一个关联文档与所述待搜索信息的关联评分。

本步骤中，词匹配算法的公式可以为： )

avdl )

其中，参数、、 k、为调节因子，可以起到平滑数据的作用；具体实现中，参数、、 k、为常数，其具体取值可以根据实际情况或经验值由用户进行设定；

qtfi为第个向量 ί,.在所述待搜索信息中的词频，即向量 t_t在所述待搜索信息中出现的次数；

tfi为向量 ,.在所述关联文档中的词频，即向量 ί,.在相应的关联文档中出现的次数；

/为所述关联文档的长度，根据步骤 S212中的向量化处理结果， /的值为 n;

avdl为所有关联文档的平均长度；

为向量^的权重, 一般为 IDF ( Inverse document frequency, 逆文档频率）值，其可以通过以下公式计算得到，该计算公式如下：

¹ htf ^ + 0.5 其中， ^为所有关联文档的个数，为向量 ί,.在获取到的所有关联文档中的词频。

本发明实施例中，在搜索过程执行之前，可以将网络中各个向量（词）的权重（IDF值）预先计算出来并进行存储，例如可以采用表的形式存储各向量的权重。请一并参见图 3 , 为本发明提供的 IDF表的示意图，图 3所示例子中的 IDF表中存储了各向量的权重，可以理解的是，图 3所示例子的 IDF 表以及表中各项均为举例。

步骤 S213中，可直接从预设的 IDF表中读取到待搜索信息中的各向量的权重，并根据步骤 S211和步骤 S212所得到的数据，计算获得词匹配算法所需的各参数，代入上述词匹配算法的计算公式中计算，得到所述关联文档与所述待搜索信息的关联评分。

S214, 基于语义匹配算法，计算得到每一个关联文档与所述待搜索信息的关联评分。

本步骤中，所述语义匹配算法的公式可以为：

/为相应关联文档的长度，根据步骤 S212中的向量化处理结果， /的值为 n; avdl为获取到的所有关联文档的平均长度；

服为向量 ί,.与向量的互信息，实际应用中，向量 ί,.与向量的互信息的计算公式可以为： miit^ d■) = log

其中， p(t_i , d_j ) = ^ _{c(t d} ) , 表示在网络中，向量 ί与向量同时出现在同一篇文档中的次数； , 、 c(t- )

∑ cit ) ' ^c(¾)表示在网络中，向量 ^出现的次数；

^ ），表示在网给中，向量出现的次数。本发明实施例中，在搜索过程执行之前，可以将网络中各个向量（词）与各个向量之间的互信息预先计算出来并进行存储，例如可以采用表的形式存储各向量之间的互信息。请一并参见图 4, 为本发明提供的 Ml表的示意图；图 4所示例子中的 Ml表中存储了各向量之间的互信息，可以理解的是，图 4所示例子的 Ml表以及表中各项均为举例。

步骤 S214中，可直接从预设的 Ml表中读取到所述待搜索信息中的各向量与所述关联文档的各向量的互信息，并根据步骤 S211和步骤 S212所得到的数据，计算获得语义匹配算法所需的各参数，代入上述语义匹配算法的计算公式中计算，得到所述关联文档与所述待搜索信息的关联评分 S₂。

需要说明的是，步骤 S213与步骤 S214在时序上不分先后，例如也可以先执行步骤 S214, 再执行步骤 S213。

S215 ,根据公式 = β Χ^ (1- Q)xS₂ ,计算得到每一个关联文档与所述待搜索信息的相关度 S。

其中，为预设的权重，且 0 < < 1。实际应用中，可以根据具体情况设置的值，使得加权后的和 s₂所组成的相关度评分 S更能准确体现该关联文档与待搜索信息的关联程度。需要说明的是， S的值越大，表明该关联文档与所述待搜索信息的关联程度越强。请参见图 5 , 为图 1所示步骤 S103的具体流程图；该步骤 S103包括： S311 , 根据每一个关联文档与所述待搜索信息的相关度，按照相关度从高至低的顺序对所有关联文档进行排序。

S312, 显示排序后的所有关联文档。

经步骤 S311排序处理之后，各关联文档按照相关度由高至低的顺序进行排列，步骤 S312则显示按照相关度由高至低的顺序排列的关联文档，使得用户可以从显示的搜索结果中快速获得相关度较高的关联文档，满足自己的搜索需求，提高搜索效率。

下面将结合一个具体示例，详细阐述上述图 1-图 5所示例子中的搜索方法。

假设用户想要查询关于 XX牌手机的一些资讯介绍，可以在搜索引擎中输入的待搜索信息为： "XX牌手机性价比" ；经步骤 S101搜索后，总共获得三个关联文档，包括：

关联文档 1 : XX牌的手机性价比都很不错的，而且 XX牌手机很耐用的；关联文档 2: 我是 XX牌手机的忠实玩友，喜欢玩 XX牌手机，刷机呀，下载程序呀，游戏呀各方面，觉得 XX牌手机的各种软件都比较多比较全，所以一直玩到现在；

关联文档 3: 符合你要求的机型非常多，给你几个参考： 1、直板商务新机 A, 2.4寸全键盘，金属机身， 500万像素，带 WIFI, 全面支持导航***； 2、全触摸娱乐街机 B , 3.2的 1600万色屏，支持 WIFI, 320万像素，支持导航***且带车载架； 3、传统直板机 C, 功能同 B , 但更薄、轻， 2.2寸屏， 500万像素。

步骤 S211对待搜索信息进行向量化处理，得到获得 m个向量 ,. , 具体如下：牌\手机\性价比。其中， m=3 , ^为 "XX牌" ， ί₂为 "手机" ， t₃ 为 "性价比" 。

步骤 S212对任一个关联文档进行向量化处理，以关联文档 1为例，经步骤 S212的向量化处理后，获得 n个向量，具体如下： XX牌 \的\手机 \ 性价比 \都\很\不错 \的\, \而且 \XX牌 \手机\很\耐用 \的。其中， n=15 , ^为 "XX 牌" ， < ₂为 "的" ， 4为 "手机" ，为 "性价比" ，为 "都" ，为 "艮" ， ά_Ί为 "不错" ， <¾为 "的" ， < ₉为 "， " , 4。为 "而且" ， d 为 "XX牌" ， d₁₂为 "手机" ， d₁₃为艮" ， d₁₄为 "耐用" ， d_l5为 "的" 。

步骤 S213中，可分别统计出向量 ,.在所述待搜索信息中的词频分别为： ^为 1 , ί₂为 1 , ₃为 1。向量 ,.在所述关联文档中的词频?；分别为： ^ 为 2 , ί₂为 2, ί₃为 1。 /为关联文档 1的长度 15。 flw//为三个关联文档的平均长度。可以从图 3所示的预设的 IDF表中读取待搜索信息中的各向量的权重分别为： ^为 8.435292, w₂为 5.256969, w₃为 8.952069。基于词匹配算法的计算公式，计算得到所述关联文档与所述待搜索信息的关联评分。

步骤 S214中，可以从图 4所示的预设的 Ml表中读取到所述待搜索信息中的各向量与所述关联文档的各向量的互信息。基于语义匹配算法的计算公式，计算得到所述关联文档与所述待搜索信息的关联评分。

步骤 S215中，可以根据实际需要设定为，例如为 0.4, 从而利用 β 对和加权求和，计算得到关联文档 1与所述待搜索信息的相关度 S为 1.759。

重复上述步骤 S211-步骤 S215 , 分别获得关联文档 2与所述待搜索信息的相关度 S为 4.509; 关联文档 3与所述待搜索信息的相关度 S为 10.403。

步骤 S311按照相关度由高至低的顺序对关联文档 1-3进行排序，形成"关联文档 3-关联文档 2-关联文档的排列。步骤 S312向用户显示步骤 S311 所获得的排列。

经过上述各步骤的处理，用户可以从显示的搜索结果中最首位获得最相关的关联文档 3 , 无需再进行查找即可满足自己的实际的搜索需求，提高了搜索效率。

本发明实施例结合词匹配算法及语义匹配算法，综合考虑词与词的匹配，以及词与词之间的语义关系的匹配，获得每一个关联文档与待搜索信息之间较为准确的相关度，基于该相关度进行排序并显示排序结果，可以为用户提供理想的搜索结果，使得用户可以从显示的搜索结果中快速获得相关度较高的关联文档，满足自己实际的搜索需求，提高了搜索效率，从而提高了用户的满意度。对应于上述附图 1-附图 5任一实施例所述的搜索方法，下面将结合附图 6-附图 7, 对本发明实施例提供的搜索装置进行详细介绍，下述实施例的装置可以应用于上述方法实施例中。

请参见图 6, 为本发明提供的搜索装置的一个实施例的结构示意图；该装置包括：

搜索模块 101 , 用于获取待搜索信息的关联文档。搜索模块 101的具体搜索过程可以参照现有技术，在此不赘述。

计算模块 102, 用于基于词匹配算法及语义匹配算法，计算所述搜索模块 101获得的每一个关联文档与所述待搜索信息的相关度。

本实施例中，每一个关联文档与待搜索信息的相关度的评分可以由两部分组成，一部分是基于词匹配算法获得的关联评分，另一部分是基于语义匹配算法获得的关联评分。实际应用中，可以根据具体情况，预先设置两部分关联评分的权重，使得加权后的两部分关联评分所组成的相关度评分更能准确体现关联文档与待搜索信息的关联程度。

排序模块 103, 用于根据所述计算模块 102计算得到的相关度对所述搜索模块获得的关联文档进行排序。

排序模块 103可以按照计算模块 102计算获得的每个关联文档与待搜索信息的相关度评分由高至低的顺序，对搜索得到的所有关联文档进行排序，也可以采用其他顺序进行排序处理，例如按照相关度评分由低至高的顺序，或者设置一部分按照相关度评分由低至高的顺序，一部分按照相关度评分由高至低的顺序，等等。

显示模块 104, 用于显示所述排序模块 103获得的排序结果。

显示模块 104按照排序模块 103获得的排序结果进行显示，使得显示在前的始终为与待搜索信息较相关的关联文档，从而使得用户可以从显示的搜索结果中快速获得相关度较高的关联文档，满足自己的搜索需求，提高搜索效率。请参见图 7, 为图 6所示的计算模块的实施例的结构示意图，该计算模块 102包括：

第一向量化处理单元 211 , 用于对所述待搜索信息进行向量化处理，获得 m个向量 ί,·。

第一向量化处理单元 211对待搜索信息进行向量化处理，即是利用分词技术，对待搜索信息进行分词处理，将待搜索信息分割成 m个词组成，可以表示为至，其中， m和均为正整数，且 l m。第一向量化处理单元 211的具体处理过程可以参照现有技术，在此不赘述。

第二向量化处理单元 212, 用于对所述搜索模块获得的每一个关联文档进行向量化处理，获得每一个关联文档所对应的 n个向量。

第二向量化处理单元 212对关联文档进行向量化处理，即是利用分词技术，对关联文档进行分词处理，将该关联文档分割成 n个词组成，可以表示为 4至，其中，！！和^'均为正整数，且 1 第二向量化处理单元

212的具体处理过程可以参照现有技术，在此不赘述。

词匹配计算单元 213, 用于基于词匹配算法，计算得到所述第二向量化处理单元 212处理后的关联文档与所述待搜索信息的关联评分。

词匹配计算单元 213可直接从图 3所示例子中的预设的 IDF表中读取到待搜索信息中的各向量的权重，并根据第一向量化处理单元 211和第二向量化处理单元 212所得到的数据，计算获得词匹配算法所需的各参数，基于词匹配算法的计算公式，计算得到所述关联文档与所述待搜索信息的关联评分。

语义匹配计算单元 214, 用于基于语义匹配算法，计算得到所述第二向量化处理单元 212处理后的关联文档与所述待搜索信息的关联评分 S₂。

语义匹配计算单元 214可直接从图 4所示例子中的预设的 Ml表中读取到所述待搜索信息中的各向量与所述关联文档的各向量的互信息，并根据第一向量化处理单元 211和第二向量化处理单元 212所得到的数据，计算获得语义匹配算法所需的各参数，基于语义匹配算法的计算公式，计算得到所述关联文档与所述待搜索信息的关联评分 S₂。

相关度计算单元 215, 用于根据公式 S = o xS_f (l- o)x , 计算得到所述关联文档与所述待搜索信息的相关度 S,其中，为预设的权重，且 0 < < 1。

其中，为预设的权重，且 0 < < 1。实际应用中，可以根据具体情况设置的值，使得加权后的和 s₂所组成的相关度评分 S更能准确体现该关联文档与待搜索信息的关联程度。需要说明的是， S的值越大，表明该关联文档与所述待搜索信息的关联程度越强。

可以理解的是，第二向量化处理单元 212、词匹配计算单元 213、语义匹配计算单元 214以及相关度计算单元 215可能需要重复工作，直至获得所有关联文档与待搜索信息的相关度为止。之后，所述排序模块 103可以根据每个关联文档与所述待搜索信息的相关度，按照相关度从高至低的顺序对所述搜索模块获得的所有关联文档进行排序；所述显示模块 104则显示所述排序模块 103排序处理后的所有关联文档。

需要说明的是，本发明实施例所述的搜索装置可以为：搜索引擎、浏览器以及具备搜索功能的终端。

通过上述实施例的描述，本发明实施例结合词匹配算法及语义匹配算法，综合考虑词与词的匹配，以及词与词之间的语义关系的匹配，获得每一个关联文档与待搜索信息之间较为准确的相关度，基于该相关度进行排序并显示排序结果，可以为用户提供理想的搜索结果，使得用户可以从显示的搜索结果中快速获得相关度较高的关联文档，满足自己实际的搜索需求，提高了搜索效率，从而提高了用户的满意度。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体（ Read-Only Memory, ROM )或随机存储记忆体 ( Random Access Memory, RAM )等。

以上所揭露的仅为本发明一种较佳实施例而已，当然不能以此来限定本发明之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本发明权利要求所作的等同变化，仍属于发明所涵盖的范围。

Claims

权利要求书

1、一种搜索方法，其特征在于，包括：

获取待搜索信息的关联文档；

2、如权利要求 1 所述的方法，其特征在于，所述基于词匹配算法及语义匹配算法，计算获取到的每一个关联文档与所述待搜索信息的相关度，包括：

对所述待搜索信息进行向量化处理，获得 m个向量 ί,.，其中， m和均为正整数， J- 1 < < m;

对获取到的每一个关联文档进行向量化处理，获得每一个关联文档所对应的 n个向量，其中，！！和^'均为正整数，且 K n;

基于词匹配算法，计算得到每一个关联文档与所述待搜索信息的关联评分 ,基于语义匹配算法，计算得到每一个关联文档与所述待搜索信息的关联评分 S₂ ;

根据公式 S =o xS_f (l- ο)χ ,计算得到每一个关联文档与所述待搜索信息的相关度 S, 其中， β为预设的权重，且 0 < < 1。

3、如权利要求 2所述的方法，其特征在于：所述词匹配算法的公式为 )

其中，、 k₃、 k、为常数；为第个向量 ί,·在所述待搜索信息中的词频；？；为向量 ,.在相应的关联文档中的词频； /为该相应关联文档的长度， w /为获取到的所有关联文档的平均长度； w为向量 ί的权重。

4、如权利要求 3所述的方法，其特征在于，向量^的权重的计算公式如下：

, Η - htf. - 0.5

w- = log ■

htf_t + 0.5 其中， ^为获取到的所有关联文档的个数，为向量 ,.在所有关联文档中的词频。

5、如权利要求 2所述的方法，其特征在于：所述语义匹配算法的公式为：

其中，、 k₃ , k、为常数； /为相应关联文档的长度， w /为获取到的所有关联文档的平均长度； miiJi，）为向量 ί,.与向量的互信息。

6、如权利要求 5所述的方法，其特征在于，向量 ί,.与向量的互信息的计算公式如下：

其中，在网络中，向量^与向量

同时出现在同一篇文档中的次数； ( 、 c(t. )

c( ' ^C( 表示在网给中，向量 ^出现的次数； c(d . )

^P(d 二∑ c(d ) , ^^^表示在网给中，向量出现的次数。

7、如权利要求 1-6任一项所述的方法，其特征在于，所述根据计算得到的相关度对获取到的关联文档进行排序，并显示排序结果，包括：

根据每一个关联文档与所述待搜索信息的相关度，按照相关度从高至低的顺序对所有关联文档进行排序；

显示排序后的所有关联文档。

8、一种搜索装置，其特征在于，包括：

搜索模块，用于获取待搜索信息的关联文档；

排序模块，用于根据所述计算模块计算得到的相关度对所述搜索模块获得的关联文档进行排序；

显示模块，用于显示所述排序模块获得的排序结果。

9、如权利要求 8所述的装置，其特征在于，所述计算模块包括：第一向量化处理单元，用于对所述待搜索信息进行向量化处理，获得 m 个向量 ,·，其中， m和均为正整数， J- 1 < < m;

第二向量化处理单元，用于对所述搜索模块获得的每一个关联文档进行向量化处理，获得每一个关联文档所对应的 n个向量，其中， 11和_ /均为正整数，且 1 _/ n;

词匹配计算单元，用于基于词匹配算法，计算得到所述第二向量化处理单元处理后的关联文档与所述待搜索信息的关联评分；

语义匹配计算单元，用于基于语义匹配算法，计算得到所述第二向量化处理单元处理后的关联文档与所述待搜索信息的关联评分 S₂；

相关度计算单元，用于根据公式 5 = 0 X^ (1- o)x , 计算得到所述关联文档与所述待搜索信息的相关度 S, 其中，为预设的权重，且 0 < < 1 ₍

10、如权利要求 9所述的装置，其特征在于，所述词匹配算法的公式为 )

所述语义匹配算法的公式为:

其中，、 k、为常数；为第个向量 ί,.在所述待搜索信息中的词频；？;为向量 ^在相应的关联文档中的词频； /为该相应关联文档的长度， w /为所述搜索模块获得的所有关联文档的平均长度； w为向量 ί,.的权重； mifjp d )为向量 t_t与向量 d、的互信息 ,

11、如权利要求 8-10任一项所述的装置，其特征在于，

所述排序模块根据每个关联文档与所述待搜索信息的相关度，按照相关度从高至低的顺序对所述搜索模块获得的所有关联文档进行排序；

所述显示模块显示所述排序模块排序后的所有关联文档。

12、一个或多个包含计算机可执行指令的存储介质，所述计算机可执行指令用于执行一种搜索方法，其特征在于，所述方法包括以下步骤：

获取待搜索信息的关联文档；

根据计算得到的相关度对获取到的关联文档进行排序，并显示排序结