CN102999556B - 文字搜索方法、装置以及终端设备 - Google Patents

文字搜索方法、装置以及终端设备 Download PDF

Info

Publication number
CN102999556B
CN102999556B CN201210390486.5A CN201210390486A CN102999556B CN 102999556 B CN102999556 B CN 102999556B CN 201210390486 A CN201210390486 A CN 201210390486A CN 102999556 B CN102999556 B CN 102999556B
Authority
CN
China
Prior art keywords
search results
search
described search
positional information
context
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210390486.5A
Other languages
English (en)
Other versions
CN102999556A (zh
Inventor
刘娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201210390486.5A priority Critical patent/CN102999556B/zh
Publication of CN102999556A publication Critical patent/CN102999556A/zh
Application granted granted Critical
Publication of CN102999556B publication Critical patent/CN102999556B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种文字搜索方法,包括以下步骤:接收用户输入的搜索词;根据搜索词对目标文档进行搜索以生成搜索结果集合,其中,搜索结果集合包括多个搜索结果,每个搜索结果包括搜索词所在目标文档中的位置信息;针对搜索结果集合中的每个搜索结果中的位置信息分别生成多个结果上下文子集合,其中,每个上下文子集合与搜索结果集合中的一个搜索结果对应;以及根据上下文子集合对搜索结果进行筛选,并将筛选之后的搜索结果提供给所述用户。该方法解决了在文字搜索过程中既考虑要搜索的内容,又考虑上下文信息的技术问题,本方法提高了用户文字搜索的有效性、适时性,且具有快捷性和易用性。本发明还公开了一种文字搜索装置、以及终端设备。

Description

文字搜索方法、装置以及终端设备
技术领域
本发明涉及信息搜索技术领域,特别涉及一种文字搜索方法与装置以及终端设备。
背景技术
目前,在文字搜索处理过程中,只要输入要搜索的内容,例如词语“AB”,则通篇查找与“AB”相匹配的内容。有时候,尽管文件中出现了“AB”,但是这个“AB”并非是用户确实想要查找的结果,因此,用户必需一一检验其是否为用户想要查找的目标,搜索和查找确定过程繁琐,且效率低。
发明内容
本发明的目的旨在至少解决所述技术缺陷之一。
为此,本发明的第一个目的在于提出一种文字搜索方法,该方法提高了用户进行文字搜索的高效性、且具有快捷性和易用性。本发明的第二个目的在于提出一种文字搜索装置。本发明的第三个目的在于提出一种终端设备。
为了实现上述目的,本发明第一方面的实施例提供一种文字搜索方法,包括以下步骤:接收用户输入的搜索词;根据所述搜索词对目标文档进行搜索以生成搜索结果集合,其中,所述搜索结果集合包括多个搜索结果,每个所述搜索结果包括所述搜索词所在所述目标文档中的位置信息;针对所述搜索结果集合中的每个所述搜索结果中的位置信息分别生成多个结果上下文子集合,其中,每个所述上下文子集合与所述搜索结果集合中的一个搜索结果对应;以及根据所述上下文子集合对所述搜索结果进行筛选,并将筛选之后的搜索结果提供给所述用户。
根据本发明实施例的文字搜索方法,用户根据搜索词对目标文档进行搜索以生成搜索结果集合,通过筛选将针对搜索结果集合中的每个搜索结果中的位置信息分别生成多个结果上下文子集合提供给用户。该文字搜索方法提高了用户进行文字搜索的高效性、且具有快捷性和易用性。
在本发明的一个实施例中,所述根据上下文子集合对所述搜索结果进行筛选进一步包括:
获得所述用户在所述搜索结果集合中所确定的搜索结果,并将所述搜索结果作为标准搜索结果,以及将所述搜索结果对应上下文子集合作为标准上下文子集合;计算其他上下文子集合与所述标准上下文子集合之间的相似度;以及如果所述相似度大于预设阈值,则将对应的上下文集合的搜索结果删除。由此,提高了文字搜索的准确性。
在本发明的一个实施例中,所述针对所述搜索结果集合中的每个所述搜索结果中的位置信息分别生成多个结果上下文子集合进一步包括:
根据每个所述搜索结果的位置信息获得每个所述搜索结果的上下文信息;以及根据每个所述搜索结果的上下文信息生成每个所述搜索结果的上下文子集合。由此,提高了文字搜索的高效性与易用性。
在本发明的一个实施例中,根据每个所述搜索结果的位置信息获得每个所述搜索结果的位置信息;以及根据每个所述搜索结果的上下文信息和位置信息生成每个所述搜索结果的上下文子集合。由此,提高了文字搜索方法的可选择性,且具有高效性与易用性。
在本发明的一个实施例中,根据每个所述搜索结果的位置信息获得每个所述搜索结果的标点符号信息;以及根据每个所述搜索结果的上下文信息和标点符号信息生成每个所述搜索结果的上下文子集合。由此,提高了文字搜索方法的可选择性,且具有高效性与易用性。
本发明第二方面的实施例提出一种文字搜索装置,包括:接收模块,接收用户输入的搜索词;搜索模块,根据搜索词对目标文档进行搜索;生成模块,用于生成搜索结果集合,且针对所述搜索结果集合的每个搜索结果中的位置信息分别生成多个结果上下文子集合,其中,所述搜索结果集合包括多个搜索结果,每个所述搜索结果包括所述搜索词所在所述目标文档中的位置信息,以及每个所述上下文子集合与所述搜索结果集合中的一个搜索结果对应;筛选模块,根据所述上下文子集合对所述搜索结果进行筛选;发送模块,用于经过所述筛选模块筛选之后的所述搜索结果提供给所述用户。
根据本发明实施例的文字搜索装置,用户根据通过接收模块接收到的搜索词对目标文档通过搜索模块进行搜索以通过生成模块生成搜索结果集合,通过筛选模块筛选将针对搜索结果集合中的每个搜索结果中的位置信息分别生成多个结果上下文子集合通过发送模块提供给用户。该文字搜索装置提高了用户进行文字搜索的高效性、且具有快捷性和易用性。
在本发明的一个实施例中,所述筛选模块包括:
获取单元,获得所述用户在所述搜索结果集合中所确定的搜索结果,并将所述搜索结果作为标准搜索结果,以及将所述搜索结果对应上下文子集合作为标准上下文子集合;计算单元,用于计算其他上下文子集合与所述标准上下文子集合之间的相似度;判断单元,用于判断如果所述相似度大于预设阈值,则将对应的上下文集合的搜索结果删除。由此,提高了文字搜索的准确性。
在本发明的一个实施例中,所述生成模块用于根据每个所述搜索结果的位置信息获得每个所述搜索结果的上下文信息,以及根据每个所述搜索结果的上下文信息生成每个所述搜索结果的上下文子集合。由此,提高了文字搜索的高效性与易用性。
在本发明的一个实施例中,所述生成模块还用于根据每个所述搜索结果的位置信息获得每个所述搜索结果的位置信息,以及根据每个所述搜索结果的上下文信息和位置信息生成每个所述搜索结果的上下文子集合。由此,提高了文字搜索方法的可选择性,且具有高效性与易用性。
在本发明的一个实施例中,所述生成模块还用于根据每个所述搜索结果的位置信息获得每个所述搜索结果的标点符号信息,以及根据每个所述搜索结果的上下文信息和标点符号信息生成每个所述搜索结果的上下文子集合。由此,提高了文字搜索方法的可选择性,且具有高效性与易用性。
本发明第三方面的实施例提出一种终端设备,包括上述实施例提供的文字搜索装置。
根据本发明实施例的终端设备,用户根据搜索词对目标文档进行搜索以生成搜索结果集合,通过筛选将针对搜索结果集合中的每个搜索结果中的位置信息分别生成多个结果上下文子集合提供给用户。该终端设备提高了用户进行文字搜索的高效性、且具有快捷性和易用性。
在本发明的一个实施例中,所述终端设备为手机、个人电脑PC或平板电脑。由此,提高了终端设备的多样性。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明所述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明一个实施例的文字搜索方法的流程图;
图2为根据本发明实施例的文字搜索装置的示意图;
图3为根据本发明实施例的筛选模块的示意图;以及
图4为根据本发明实施例的终端设备的示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
在本发明的描述中,需要说明的是,除非另有规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是机械连接或电连接,也可以是两个元件内部的连通,可以是直接相连,也可以通过中间媒介间接相连,对于本领域的普通技术人员而言,可以根据具体情况理解所述术语的具体含义。
如图1所示,本发明实施例的文字搜索方法的流程图,包括如下步骤:
步骤S101,接收用户输入的搜索词。其中,用户输入的方式包括但不限于:通过手写输入、通过按键输入的一种或多种方式的组合等。
用户可以根据自己的搜索需求输入搜索词,其中,搜索词可以为文字、数字、字符和字母的一种或多种的组合。例如:清晨5点。
步骤S102,根据搜索词对目标文档进行搜索以生成搜索结果集合。其中,搜索结果集合包括多个搜索结果,每个搜索结果包括搜索词所在目标文档中的位置信息。
目标文档中可能包括一个或多个用户输入的搜索词,则根据步骤S101中用户输入的搜索词在目标文档进行搜索,并获得多个包含该搜索词信息的搜索结果。其中,每个搜索结果中包括该搜索词在目标文档中的位置。例如,在目标文档中,“清晨5点”分别出现在正文和标题中,则搜索结果集合包括第一搜索结果和第二搜索结果,其中,第一搜索结果包括正文,第二搜索结果包括标题。
需要说明的是,搜索结果的内容不限于搜索词在目标文档中的位置信息,还可以包括与搜索词相关的其他信息。
步骤S103,针对搜索结果集合中的每个搜索结果中的位置信息分别生成多个结果上下文子集合。其中,每个上下文子集合与搜索结果集合中的一个搜索结果对应。例如,针对搜索结果集合中的第一搜索结果和第二搜索结果中的每个搜索结果的位置信息,分别生成多个结果上下文子集合。其中,第一搜索结果包括正文,第二搜索结果包括标题。
具体地,根据每个搜索结果的位置信息获得每个搜索结果的上下文信息。例如,“清晨5点”,在目标文档中的位置信息分别为正文和标题中,则从正文和标题中分别获得“清晨5点”的上下文信息。
然后,根据每个搜索结果的上下文信息生成每个搜索结果的上下文子集合。例如,将获得的“清晨5点”的上下文信息生成每个搜索结果的上下文子集合。
而后,根据每个搜索结果的位置信息获得每个搜索结果的位置信息。例如,“清晨5点”,在目标文档中的位置信息分别为正文和标题中,从正文和标题两个位置信息进一步地获得“清晨5点”的位置信息。
在获得每个搜索结果的位置信息后,根据每个搜索结果的上下文信息和位置信息生成每个搜索结果的上下文子集合。例如,“清晨5点”,在目标文档中的位置信息分别为正文和标题中,则根据“清晨5点”的上下文信息和正文、标题两位置信息生成每个搜索结果的上下文子集合。
进一步地,针对搜索结果集合中的每个搜索结果中的位置信息分别生成多个结果上下文子集合还可以通过以下方式进行:
首先,根据每个搜索结果的位置信息获得每个搜索结果的标点符号信息。然后,根据每个搜索结果的上下文信息和标点符号信息生成每个搜索结果的上下文子集合。
步骤S104,根据上下文子集合对搜索结果进行筛选。
具体地,首先,获得用户在搜索结果集合中所确定的搜索结果,并将搜索结果作为标准搜索结果,以及将搜索结果对应上下文子集合作为标准上下文子集合。
然后,计算其他上下文子集合与标准上下文子集合之间的相似度。其中,可利用目前现有的余弦相似度算法或者BM25相似度计算方法等数学概率比较算法。
如果其他上下文子集合与标准上下文子集合之间的相似度大于预设阈值,则将对应的上下文集合的搜索结果删除。其中,预设阈值为用户根据实际需要设置。
步骤S105,将筛选之后的搜索结果提供给用户,从而,用户可以查看到其想要的搜索结果。
根据本发明实施例的文字搜索方法,用户根据搜索词对目标文档进行搜索以生成搜索结果集合,通过筛选将针对搜索结果集合中的每个搜索结果中的位置信息分别生成多个结果上下文子集合提供给用户。该文字搜索方法有利于向用户有区别地显示处于不同环境下的不容搜索结果,以有助于用户明显识别并非他想要的搜索结果,同时提高了用户进行文字搜索的高效性、且具有快捷性和易用性。
进一步地,举例对文字搜索方法进行详细说明。
首先,接收用户输入的搜索词“AB”,从文件中搜索所有符合“AB”条件的结果,建立搜索结果集合。其中,搜索结果集合包括多个搜索结果,每个搜索结果包括搜索词所在目标文档中的位置信息。从结果集合中按照各个结果依次搜索其前后的上下文信息,并建立与结果集合中的各个结果相关的结果上下文集合。进一步地,针对搜索结果集合中的每个搜索结果中的位置信息分别生成多个结果上下文子集合。例如,搜索结果集合为“AB1,AB2,...ABn”。AB1的搜索结果上下文集合为“AB1-a,AB1-b,...AB1-m”。这里,上下文集合可包含多个信息。优选地,例如,包括AB出现的具***置,例如,正文内、标题内、表格内等。AB出现的具***置不限于上述描述,此外的情况不再赘述。优选地,包括AB的前后邻近的若干词语信息,例如AB之前的词语、AB之后的词语。优选地,包括AB出现的周围是否还存在相关词语,例如AB的前方是否包括B以形成BAB的形式,或者AB的后方是否存在A以形成ABA的形式。优选地,在AB前后与到达标点的字符个数等与AB出现的具***置相关的属性信息。
获得用户在搜索结果集合中所确定的搜索结果,并将搜索结果作为标准搜索结果,以及将搜索结果对应上下文子集合作为标准上下文子集合,提取用户当前页面所在处的要搜索的参考“AB”的上下文子集合作为标准上下文子集合参考基础。将各个搜索结果的上下文集合与其进行相似性比较,可利用目前现有的数学概率比较算法。如果相似度概率超过一定阈值,也就是说,两者相似的可能性很大,则可正常显示,如果相似度概率低于阈值,也就是说,两者存在很大分歧,则相对高亮显示。
根据本发明实施例的文字搜索方法,用户根据搜索词对目标文档进行搜索以生成搜索结果集合,通过筛选将针对搜索结果集合中的每个搜索结果中的位置信息分别生成多个结果上下文子集合提供给用户。该文字搜索方法有利于向用户有区别地显示处于不同环境下的不容搜索结果,以有助于用户明显识别并非他想要的搜索结果,同时提高了用户进行文字搜索的高效性、且具有快捷性和易用性。
如图2所示,本发明实施例的文字搜索装置300,包括:接收模块310、搜索模块320、生成模块330、筛选模块340和发送模块350。
接收模块310为接收用户输入的搜索词。其中,接收用户输入的方式为但不限于:通过手写输入、通过按键输入的一种或多种方式的组合等。用户可以根据自己的搜索需求输入搜索词,其中,搜索词可以为文字、数字、字符和字母的一种或多种的组合。例如:接收模块310接收到用户输入的搜索词“清晨5点”
搜索模块320为根据搜索词对目标文档进行搜索。
目标文档中可能包括一个或多个用户输入的搜索词,则根据接收模块中接收到用户输入的搜索词在目标文档进行搜索,并获得多个包含该搜索词信息的搜索结果。其中,每个搜索结果中包括该搜索词在目标文档中的位置。例如,在目标文档中,“清晨5点”分别出现在正文和标题中,则搜索结果集合包括第一搜索结果和第二搜索结果,其中,第一搜索结果包括正文,第二搜索结果包括标题。
需要说明的是,搜索结果的内容不限于搜索词在目标文档中的位置信息,还可以包括与搜索词相关的其他信息。
生成模块330为用于生成搜索结果集合,且针对搜索结果集合的每个搜索结果中的位置信息分别生成多个结果上下文子集合,例如,针对搜索结果集合中的第一搜索结果和第二搜索结果中的每个搜索结果的位置信息,分别生成多个结果上下文子集合。其中,第一搜索结果包括正文,第二搜索结果包括标题。其中,搜索结果集合包括多个搜索结果,每个搜索结果包括搜索词所在目标文档中的位置信息,以及每个上下文子集合与搜索结果集合中的一个搜索结果对应。
进一步地,生成模块330还用于根据每个搜索结果的位置信息获得每个搜索结果的上下文信息,以及根据每个搜索结果的上下文信息生成每个搜索结果的上下文子集合。例如,“清晨5点”,在目标文档中的位置信息分别为正文和标题中,则从正文和标题中分别获得“清晨5点”的上下文信息。将获得的“清晨5点”的上下文信息生成每个搜索结果的上下文子集合。
生成模块330还用于根据每个搜索结果的位置信息获得每个搜索结果的位置信息,以及根据每个搜索结果的上下文信息和位置信息生成每个搜索结果的上下文子集合。例如,“清晨5点”,在目标文档中的位置信息分别为正文和标题中,从正文和标题两个位置信息进一步地获得“清晨5点”的位置信息。则根据“清晨5点”的上下文信息和正文、标题两位置信息生成每个搜索结果的上下文子集合。
生成模块330还用于根据每个搜索结果的位置信息获得每个搜索结果的标点符号信息,以及根据每个搜索结果的上下文信息和标点符号信息生成每个搜索结果的上下文子集合。例如,“清晨5点”,在目标文档中的位置信息分别为正文和标题中,从正文和标题两个位置信息进一步地获得“清晨5点”的标点符号信息。例如,预设在“清晨5点”前后到达标点的字符个数10,则根据“清晨5点”的上下文信息和标点符号信息生成每个搜索结果的上下文子集合。
筛选模块340为根据上下文子集合对搜索结果进行筛选。其中,如图3所示,筛选模块包括:获取单元301,计算单元302和判断单元303。
获取单元301获得用户在所述搜索结果集合中所确定的搜索结果,并将搜索结果作为标准搜索结果,以及将搜索结果对应上下文子集合作为标准上下文子集合。
计算单元302用于计算其他上下文子集合与标准上下文子集合之间的相似度。其中,可利用目前现有的余弦相似度算法或者BM25相似度计算方法等数学概率比较算法。
判断单元303用于判断如果相似度大于预设阈值,则将对应的上下文集合的搜索结果删除。其中,预设阈值为用户根据实际需要设置。
发送模块350用于将经过筛选模块340筛选之后的搜索结果提供给用户,从而,用户可以查看到其想要的搜索结果。
根据本发明实施例的文字搜索装置,用户根据通过接收模块接收到的搜索词对目标文档通过搜索模块进行搜索以通过生成模块生成搜索结果集合,通过筛选模块筛选将针对搜索结果集合中的每个搜索结果中的位置信息分别生成多个结果上下文子集合通过发送模块提供给用户。该文字搜索装置提高了用户进行文字搜索的高效性、且具有快捷性和易用性。
如图4所示,本发明实施例的终端设备400,包括:文字搜索装置300。其中终端设备可以为手机、个人电脑PC或平板电脑。
根据本发明实施例的终端设备,用户根据搜索词对目标文档进行搜索以生成搜索结果集合,通过筛选将针对搜索结果集合中的每个搜索结果中的位置信息分别生成多个结果上下文子集合提供给用户。该终端设备提高了用户进行文字搜索的高效性、且具有快捷性和易用性。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用,或结合这些指令执行***、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。本发明的范围由所附权利要求极其等同限定。

Claims (12)

1.一种文字搜索方法,其特征在于,包括以下步骤:
接收用户输入的搜索词;
根据所述搜索词对目标文档进行搜索以生成搜索结果集合,其中,所述搜索结果集合包括多个搜索结果,每个所述搜索结果包括所述搜索词所在所述目标文档中的位置信息;
针对所述搜索结果集合中的每个所述搜索结果中的位置信息分别生成多个结果上下文子集合,其中,每个所述上下文子集合与所述搜索结果集合中的一个搜索结果对应;以及根据所述上下文子集合与标准上下文子集合的相似度对所述搜索结果进行筛选,并将筛选之后的搜索结果提供给所述用户。
2.如权利要求1所述的文字搜索方法,其特征在于,所述根据上下文子集合与标准上下文子集合的相似度对所述搜索结果进行筛选进一步包括:
获得所述用户在所述搜索结果集合中所确定的搜索结果,并将所述搜索结果作为标准搜索结果,以及将所述搜索结果对应上下文子集合作为标准上下文子集合;
计算其他上下文子集合与所述标准上下文子集合之间的相似度;以及
如果所述相似度大于预设阈值,则将对应的上下文集合的搜索结果删除。
3.如权利要求1或2所述的文字搜索方法,其特征在于,所述针对所述搜索结果集合中的每个所述搜索结果中的位置信息分别生成多个结果上下文子集合进一步包括:
根据每个所述搜索结果的位置信息获得每个所述搜索结果的上下文信息;以及
根据每个所述搜索结果的上下文信息生成每个所述搜索结果的上下文子集合。
4.如权利要求3所述的文字搜索方法,其特征在于,还包括:
根据每个所述搜索结果的位置信息获得每个所述搜索结果的位置信息;以及
根据每个所述搜索结果的上下文信息和位置信息生成每个所述搜索结果的上下文子集合。
5.如权利要求3所述的文字搜索方法,其特征在于,还包括:
根据每个所述搜索结果的位置信息获得每个所述搜索结果的标点符号信息;以及
根据每个所述搜索结果的上下文信息和标点符号信息生成每个所述搜索结果的上下文子集合。
6.一种文字搜索装置,其特征在于,包括:
接收模块,接收用户输入的搜索词;
搜索模块,根据搜索词对目标文档进行搜索;
生成模块,用于生成搜索结果集合,且针对所述搜索结果集合的每个搜索结果中的位置信息分别生成多个结果上下文子集合,其中,所述搜索结果集合包括多个搜索结果,每个所述搜索结果包括所述搜索词所在所述目标文档中的位置信息,以及每个所述上下文子集合与所述搜索结果集合中的一个搜索结果对应;
筛选模块,根据所述上下文子集合与所述标准上下文子集合的相似度对所述搜索结果进行筛选;
发送模块,用于经过所述筛选模块筛选之后的所述搜索结果提供给所述用户。
7.如权利要求6所述的文字搜索装置,其特征在于,所述筛选模块包括:
获取单元,获得所述用户在所述搜索结果集合中所确定的搜索结果,并将所述搜索结果作为标准搜索结果,以及将所述搜索结果对应上下文子集合作为标准上下文子集合;
计算单元,用于计算其他上下文子集合与所述标准上下文子集合之间的相似度;
判断单元,用于判断如果所述相似度大于预设阈值,则将对应的上下文集合的搜索结果删除。
8.如权利要求6或7所述的文字搜索装置,其特征在于,所述生成模块
用于根据每个所述搜索结果的位置信息获得每个所述搜索结果的上下文信息,以及根据每个所述搜索结果的上下文信息生成每个所述搜索结果的上下文子集合。
9.如权利要求8所述的文字搜索装置,其特征在于,所述生成模块还用于根据每个所述搜索结果的位置信息获得每个所述搜索结果的位置信息,以及根据每个所述搜索结果的上下文信息和位置信息生成每个所述搜索结果的上下文子集合。
10.如权利要求8所述的文字搜索装置,其特征在于,所述生成模块还用于根据每个所述搜索结果的位置信息获得每个所述搜索结果的标点符号信息,以及根据每个所述搜索结果的上下文信息和标点符号信息生成每个所述搜索结果的上下文子集合。
11.一种终端设备,其特征在于,包括如权利要求6-10任一项所述的文字搜索装置。
12.如权利要求11所述的终端设备,其特征在于,所述终端设备为手机、个人电脑PC或平板电脑。
CN201210390486.5A 2012-10-15 2012-10-15 文字搜索方法、装置以及终端设备 Active CN102999556B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210390486.5A CN102999556B (zh) 2012-10-15 2012-10-15 文字搜索方法、装置以及终端设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210390486.5A CN102999556B (zh) 2012-10-15 2012-10-15 文字搜索方法、装置以及终端设备

Publications (2)

Publication Number Publication Date
CN102999556A CN102999556A (zh) 2013-03-27
CN102999556B true CN102999556B (zh) 2016-02-10

Family

ID=47928124

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210390486.5A Active CN102999556B (zh) 2012-10-15 2012-10-15 文字搜索方法、装置以及终端设备

Country Status (1)

Country Link
CN (1) CN102999556B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109308299B (zh) * 2018-09-12 2020-01-14 北京字节跳动网络技术有限公司 用于搜索信息的方法和装置
CN109344299A (zh) * 2018-11-12 2019-02-15 考拉征信服务有限公司 对象搜索方法、装置、电子设备及计算机可读存储介质
CN110674617A (zh) * 2019-08-15 2020-01-10 阿里巴巴集团控股有限公司 健康核查过程中的疾病展示方法以及装置
CN112783918A (zh) * 2021-03-15 2021-05-11 北京百度网讯科技有限公司 搜索方法、搜索装置、电子设备、存储介质和程序产品

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101620631A (zh) * 2008-07-02 2010-01-06 奥多比公司 用于提供高忠实度上下文搜索结果的***和方法
CN101661484A (zh) * 2008-08-29 2010-03-03 株式会社理光 一种查询方法及***
CN102663088A (zh) * 2012-03-31 2012-09-12 百度在线网络技术(北京)有限公司 一种用于提供搜索结果的方法与设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3964630B2 (ja) * 2001-03-07 2007-08-22 日本電信電話株式会社 情報検索装置と情報検索プログラムおよび該プログラムを記録した記録媒体
KR100902172B1 (ko) * 2007-12-12 2009-06-10 한국전자통신연구원 정책 기반 문서 검색 시스템 및 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101620631A (zh) * 2008-07-02 2010-01-06 奥多比公司 用于提供高忠实度上下文搜索结果的***和方法
CN101661484A (zh) * 2008-08-29 2010-03-03 株式会社理光 一种查询方法及***
CN102663088A (zh) * 2012-03-31 2012-09-12 百度在线网络技术(北京)有限公司 一种用于提供搜索结果的方法与设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
基于Lucene的二次全文检索***设计与实现;吴代文;《中国优秀硕士学位论文全文数据库 信息科技辑》;20120315(第3期);35-55 *
基于Lucene的企业文档搜索引擎研究与应用;李海丰;《中国优秀硕士学位论文全文数据库 信息科技辑》;20120315(第3期);13-19,44 *
基于文档与搜索结果上下文的查询扩展方法;蒋辉等;《计算机应用》;20090301;第29卷(第3期);852-853 *

Also Published As

Publication number Publication date
CN102999556A (zh) 2013-03-27

Similar Documents

Publication Publication Date Title
CN109657213B (zh) 文本相似度检测方法、装置和电子设备
US9552138B2 (en) Mobile terminal and method for controlling the same
CN105988996B (zh) 一种索引文件生成方法及装置
CN110083688A (zh) 搜索结果召回方法、装置、服务器及存储介质
CN103593333B (zh) 一种电子书文档的处理方法、终端及电子设备
CN102902758B (zh) 利用搜索引擎获取网络图片的壁纸设置方法及装置
CN103729122A (zh) 一种移动终端的解锁方法和装置
CN102999556B (zh) 文字搜索方法、装置以及终端设备
CN111814885A (zh) 一种管理图像框的方法、***、设备及介质
CN106294564A (zh) 一种视频推荐方法及装置
CN112989148A (zh) 纠错词排序方法、装置、终端设备和存储介质
CN105069013A (zh) 在搜索界面中提供输入接口的控制方法和装置
CN104951491A (zh) 信息的搜索方法和装置
CN109508391A (zh) 基于知识图谱的输入预测方法、装置和电子设备
CN104102733A (zh) 搜索内容提供方法和搜索引擎
CN111666100B (zh) 软件框架生成方法、装置、电子设备及存储介质
CN104683963A (zh) 一种信息处理方法及电子设备
CN101515292B (zh) 一种关注项定位的方法和装置
CN109656385A (zh) 基于知识图谱的输入预测方法、装置和电子设备
CN103390060A (zh) 基于移动终端的歌曲推荐方法与装置
CN103530385A (zh) 基于垂直搜索频道的信息搜索方法及装置
CN104063400A (zh) 数据搜索方法和装置
CN104063432A (zh) 信息搜索方法和装置
CN108491502B (zh) 一种新闻追踪的方法、终端、服务器及存储介质
CN104699836A (zh) 一种多关键字的搜索提示方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant