CN105589863B - 一种搜索方法及数据处理方法、装置及*** - Google Patents

一种搜索方法及数据处理方法、装置及*** Download PDF

Info

Publication number
CN105589863B
CN105589863B CN201410566247.XA CN201410566247A CN105589863B CN 105589863 B CN105589863 B CN 105589863B CN 201410566247 A CN201410566247 A CN 201410566247A CN 105589863 B CN105589863 B CN 105589863B
Authority
CN
China
Prior art keywords
name
same
unique identifier
search
searching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410566247.XA
Other languages
English (en)
Other versions
CN105589863A (zh
Inventor
陈祺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201410566247.XA priority Critical patent/CN105589863B/zh
Publication of CN105589863A publication Critical patent/CN105589863A/zh
Application granted granted Critical
Publication of CN105589863B publication Critical patent/CN105589863B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种搜索方法及数据处理方法、装置及***,其中,搜索方法包括:接收用户的搜索请求,搜索请求中包含目标名称;查找预先设置的同名对应关系,确定与目标名称对应的一个唯一标识,该同名对应关系中包含名称与唯一标识之间的对应关系;按照唯一标识进行搜索,输出搜索结果,搜索结果中的项目的标识中包含唯一标识。通过设置名称与唯一标识之间的对应关系,使得能够有效的利用唯一标识区分相同的两个或多个名称,且通过在项目上设置唯一标识,使得能够利用唯一标识对相同的名称进行搜索,有效提高搜索的准确性,避免相同名称的项目混淆,提高用户的搜索体验。

Description

一种搜索方法及数据处理方法、装置及***
技术领域
本发明涉及搜索技术领域,尤其涉及一种搜索方法及数据处理方法、装置及***。
背景技术
视频搜索中一个重要的搜索内容是人名搜索,人名搜索效果的好坏,对用户体验会有很大的影响。在视频数据中,会出现人与人的名字相同、人与影视作品的名字相同的情况,如果不做区分,就会出现混淆,导致用户搜不到期望的结果。
目前,百度、搜库等知名食品网站都支持视频人名搜索。对于同名明星、同名影视作品大多网站都不做区分,只根据文本本身的相关性,把同名但实际不是同一个明星的所有作品和相关资讯放在一起展示。百度、搜库在这方面做的比较好,在用户搜索人名时,通过对搜索得到的相关文档进行聚类,并挖掘人物之间的关系来实现人名的区分,然而,在实际操作中,这种方式仍然不能将相同人名的两个明星的资料完全区分开来,例如:在百度视频里面搜索“大宋佳”时,在热门资讯区域展现的结果实际包含了“大宋佳”和“小宋佳”的资讯,并不能真正将这两个人的资讯完全区分开来。因此,现有技术中的人名搜索方式难以对同名明星进行有效区分,影响用户的搜索体验。
发明内容
有鉴于此,本发明提供一种搜索方法及数据处理方法、装置及***,用于对相同名称进行搜索,以有效区分具有同一称谓的数据,使得搜索的数据更加准确,改善用户的搜索体验。
本发明实施例提供的搜索方法,包括:
接收用户的搜索请求,所述搜索请求中包含目标名称;
查找预先设置的同名对应关系,确定与所述目标名称对应的一个唯一标识,所述同名对应关系中包含名称与唯一标识之间的对应关系;
按照所述唯一标识进行搜索,输出搜索结果,所述搜索结果中的项目的标识中包含所述唯一标识。
本发明实施例提供的数据处理方法,包括:
进行名称的数据挖掘,得到所有的相同名称;
确定与所述所有的相同名称中的每一个名称关联的项目;
为所述所有的相同名称中的每一个名称设置一个唯一标识,得到同名对应关系,且为与所述名称关联的项目设置与所述名称相同的唯一标识,所述同名对应关系中包含名称与唯一标识之间的对应关系。
本发明实施例提供的在线搜索***,包括:
接收模块,用于接收用户的搜索请求,所述搜索请求中包含目标名称;
查找模块,用于在所述接收模块接收所述搜索请求之后,查找预先设置的同名对应关系,确定与所述目标名称对应的一个唯一标识,所述同名对应关系中包含名称与唯一标识之间的对应关系;
输出模块,用于在所述查找模块确定所述唯一标识之后,按照所述唯一标识进行搜索,输出搜索结果,所述搜索结果中的项目的标识中包含所述唯一标识。
本发明实施例中提供的数据处理装置包括:
挖掘模块,用于进行名称的数据挖掘,得到所有的同名名称;
关联模块,用于在所述挖掘模块得到所述所有的相同名称之后,确定与所述所有的相同名称中的每一个名称关联的项目;
设置模块,用于在所述关联模块确定与所述所有的相同名称中的每一个名称关联的项目之后,为所述所有的相同名称中的每一个名称设置一个唯一标识,得到同名对应关系,且为与所述名称关联的项目设置与所述名称相同的唯一标识,所述同名对应关系中包含名称与唯一标识之间的对应关系。
从以上技术方案可以看出,本发明实施例具有以下优点:
在线搜索***接收用户的搜索请求,该搜索请求中包含目标名称,查找预先设置的同名对应关系,该同名对应关系中包含名称与唯一标识之间的对应关系,确定与该目标名称对应的一个唯一标识,按照该唯一标识进行搜索,输出搜索结果,该搜索结果中的项目的标识中包含该唯一标识。通过预先设置包含名称与唯一标示之间的对应关系的同名对应关系,使得能够通过唯一标识有效的区分相同的名称,且利用目标名称的唯一标识进行搜索,能够获取到包含该唯一标识的所有的项目作为与该目标名称有关联的项目,避免搜索结果出现混淆及不准确的情况,使得搜索结果更加准确,改善用户的搜索体验。
为让本发明的上述和其他目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附图式,作详细说明如下。
附图说明
图1为本发明实施例中的服务器的结构的示意图;
图2为本发明实施例中数据处理方法的实施例的一个示意图;
图3为本发明实施例中搜索方法的实施例的一个示意图;
图4为本发明实施例中搜索方法的实施例的另一示意图;
图5为本发明实施例中数据处理装置的结构的一个示意图;
图6为本发明实施例中在线搜索***的结构的一个示意图;
图7为本发明实施例中在线搜索***的结构的另一示意图。
具体实施方式
为更进一步阐述本发明为实现预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明的具体实施方式、结构、特征及其功效,详细说明如后。
在本发明实施例中,搜索方法及数据处理方法都是在由服务器执行的,为了更好的理解本发明实施例中的技术方案,请参阅图1,图1为本发明实施例中服务器的结构的示意图。该服务器100可因配置或性能不同而产生比较大的差异,可以包括一个或一个以***处理器(central processing units,CPU)122(例如,一个或一个以上处理器)和存储器132,一个或一个以上存储应用程序142或数据144的存储介质130(例如一个或一个以上海量存储设备)。其中,存储器132和存储介质130可以是短暂存储或持久存储。存储在存储介质130的程序可以包括一个或一个以上模块(图示未示出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器122可以设置为与存储介质130通信,在服务器100上执行存储介质130中的一系列指令操作。服务器100还可以包括一个或一个以上电源126,一个或一个以上有线或无线网络接口150,一个或一个以上输入输出接口158,和/或,一个或一个以上操作***141,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
在本发明实施例中,在线搜索***中预先设置了同名对应关系,该同名对应关系中包含名称与唯一标识之间的对应关系,其中,同名对应关系中名称都是具有至少一个相同或者相似的名称的,此外,还预先设置数据库中的项目的唯一标识,使得能够利用唯一标识对具有相同名称进行搜索。
需要说明的是,本发明是实施例中,通过预先设置同名对应关系的方式对目标名称进行搜索的方法适用于对同名明星,同名影视剧等等的搜索。
为了更好的理解本发明实施例中的技术方案,下面将介绍进行相同名称搜索之前的数据处理方法,请参阅图2,包括:
201、进行名称的数据挖掘,得到所有的相同名称;
在本发明实施例中,数据处理装置将对数据进行离线数据处理,首先是进行名称的数据挖掘,得到所有的相同名称。
其中,数据处理装置可通过网页爬虫抓取资料库、新闻资料、视频资料等等数据,并进行名称的数据挖掘,得到包含所有名称的名称表,并且除了常规的名称处理流程,还可针对相同名称进行数据挖掘,得到该名称表中的所有的同名名称,其中,同名名称是指在该同名表中每一个名称包含至少一个与该名称相同的名称。
在本发明实施例中,数据处理装置可以得到多个不同类型的相同名称,例如:同名明星,同名影视剧,同名植物,同名动物等等。在实际应用中,可根据具体需要对某一类型的同名名称进行数据挖掘,得到所有该类型的同名名称。
需要说明的是,为了更好得区分相同的名称,还可以通过人工编辑的方式确定所有名称的同名名称。
202、确定与所有的相同名称中的每一个名称关联的项目;
在本发明实施例中,数据处理装置将确定与所有的相同名称中的每一个名称关联的项目。其中,项目可以是新闻、图片、视频、文库等等。
以同名名称是包含具有相同名字的明星为例,具体的:可对同名明星的名称中的每一个人名和其对应的别名,把相关作品、相关资讯等与该人名做关联,以区分同名明星的不同数据。例如:第一明星A和第二明星B的人物名称都为C,第一明星A参演了近期一部热门新作,同时出现了大量包含该新作及人物名称C的相关的资讯、新闻和视频,由于第一明星A与该新作之间具有关联,且该新作与人物名称C之间有关联,则可以确定出现的大量包含该新作及人物名称C的相关的资讯、新闻和视频是与第一明星A关联的项目。
需要说明的是,为了提高关联的准确性,还可通过人工关联的方式进行关联。
203、为所有的相同名称中的每一个名称设置一个唯一标识,得到同名对应关系,且为与名称关联的项目设置与名称相同的唯一标识。
在本发明实施例中,数据处理装置在确定所有的相同名称中每一个名称关联的项目之后,将为该所有的相同名称中的每一个名称设置一个唯一标识,得到同名对应关系,该同名对应关系中包含名称与唯一标识之间的对应关系,且为与该名称关联的项目设置与该名称相同的唯一标识,使得名称与唯一标识之间具有对应关系,且唯一标识与项目之间具有对应关系。
需要说明的是,在本发明实施例中,一个项目可以有多个唯一标识,例如:一部电视剧的主演包含演员A、B和C,则该部电视剧的包含了演员A、B和C的唯一标识。
在本发明实施例中,数据处理方法和搜索方法可以是由同一个服务器执行的,也可以是由不同的服务器执行的,若数据处理方法和搜索方法是由不同的服务器执行的,则数据处理装置在对所有的相同名称中的名称及与名称关联的项目都设置唯一标识之后,将得到的同名对应关系中的名称与唯一标识之间的对应关系、及已标识唯一标识的项目导入至另一服务器中,且该服务器中包含在线搜索***。
需要说明的是,数据处理装置还将实时或者定时的更新同名对应关系,以同名对应关系为同名明星的的同名对应关系为例:数据处理装置还将实时或者定时的对新生成的明星的新闻、视频、图片等项目进行数据挖掘,若有新的同名明星,则将该新的同名明星的名称添加到明星的同名对应关系中,并且设置该新的同名明星的名称的唯一标识,同时,确定与该新的同名明星关联的项目,并设置与其名称相同的唯一标识。若同名对应关系中的某些明星又有新的新闻、视频、图片等项目,则按照同名对应关系中该明星的名称的唯一标识对其新增的项目进行标识。
在本发明实施例中,数据处理装置通过对名称进行数据挖掘,得到所有的相同名称,且将该所有的相同名称中的每一个名称与其相关的项目进行关联,并设置名称的唯一标识,得到同名对应关系,且设置与该名称关联的项目相同的唯一标识,使得能够有效的利用该同名对应关系中的名称与唯一标识之间的对应关系区分相同的名称例如区分同名的两个明星,且通过在项目上设置唯一标识,使得能够利用唯一标识对名称进行搜索,有效提高相同名称搜索的准确性,避免相同名称的项目混淆,提高用户的搜索体验。
请参阅图3,为本发明实施例中一种搜索方法的实施例,包括:
301、接收用户的搜索请求,搜索请求中包含目标名称;
在本发明实施例中,用户可在客户端的显示界面上使用在线搜索功能,在在线搜索页面输入目标名称,并确定搜索,则客户端将生成一个搜索请求,并将该搜索请求发送给在线搜索***,其中,该在线搜索***是承载在服务器上的。
在线搜索***接收用户的搜索请求,该搜索请求中包含目标名称。
需要说明的是,在本发明实施例中,在线搜索***接收到用户的搜索请求之后,将解析该搜索请求,确定该搜索请求中的关键字,并确定该关键字的类型,该类型可以是植物、动物、人物、影视剧等等的名称,若确定该关键字为人物名称,则将进一步确定该人物名称是否为明星的人物名称,在线搜索***将在明星的人名表中进行搜索,若确定该人物名称为明星的人物名称,则进一步搜索明星的同名对应关系,确定该人物名称是否为同名人物名称,若是同名人物名称,则按照本发明实施例中的技术方案执行,得到该人物名称的搜索结果。或者,若确定该关键字为影视剧名称,则将进一步确定该影视剧名称是否为具有相同或者相似的名称的影视剧,若是,则搜索影视剧名称的同名对应关系,确定该影视剧名称对应的唯一标识,按照本发明实施例中的技术方案执行,得到该影视剧名称的搜索结果。
302、查找预先设置同名对应关系,确定与目标名称对应的一个唯一标识,同名对应关系包含名称与唯一标识之间的对应关系;
在本发明实施例中,在线搜索***将查找预先设置的同名对应关系,该同名对应关系包含名称与唯一标识之间的对应关系,确定与目标名称对应的一个唯一标识。需要说明的是,该目标名称可以是明星的名称,或者动物的名称,或者植物的名称,或者是影视剧名称等等。其中,若该目标名称是明星的名称,则可以是明星的本名,也可以是明星的别名或者曾用名。
在本发明实施例中,若在预先设置的同名对应关系中仅有一个与目标名称相同的名称,则查找预先设置的同名对应关系,该同名对应关系包含名称与唯一标识之间的对应关系,确定与目标名称对应的一个唯一标识;例如:目标名称为明星的名称,且为“小宋佳”,明星的同名对应关系中包含了相同的两个明星的名称均为“宋佳”,其中一个的“宋佳”的别名为“小宋佳”,另一个“宋佳”的别名为“大宋佳”,因此,若目标名称为“小宋佳”,则在同名对应关系中查找与“小宋佳”的对应的一个唯一标识。
若在预先设置的同名对应关系中包含至少两个与目标名称相同的名称,则查找预先设置的包含名称与唯一标识之间的对应关系的同名对应关系,确定在至少两个与目标名称相同的名称中,满足条件的名称对应的一个唯一标识。其中,满足条件可以是搜索量最大,或者用户的点击率最大。以同名明星的搜索为例,同名明星的同名对应关系中包含了相同的两个明星的名称均为“宋佳”,其中一个的“宋佳”的别名为“小宋佳”,另一个“宋佳”的别名为“大宋佳”,若目标名称为“宋佳”,则在线搜索***可确定有两个与目标名称相同的名称,则查找预先设置的名称与唯一标识之间的对应关系,确定别名为“小宋佳”的“宋佳”的唯一标识为A,别名为“大宋佳”的“宋佳”的唯一标识为B,则从唯一标示A和B中,选择满足搜索量最大的别名为“大宋佳”的“宋佳”的唯一标识B作为目标名称“宋佳”的唯一标识。
需要说明的是,在本发明实施例中,数据处理装置可以得到多个不同类型的同名对应关系,例如:同名明星的同名对应关系,同名影视剧的同名对应关系,同名植物的同名对应关系,同名动物的同名对应关系等等。在线搜索***在进行搜索时,可以先确定关键字的类型,其中,关键字的类型可以动物、人名、影视剧名、植物名等等类型。并按照关键字的类型使用相同类型的同名对应关系以确定对应的唯一标识。
303、按照唯一标识进行搜索,输出搜索结果,搜索结果中的项目的标识中包含唯一标识。
在本发明实施例中,在线搜索***将按照确定的唯一标识进行搜索,并输出搜索结果,其中,搜索结果中的项目的标识中包含该唯一标识。
在本发明实施例中,在线搜索***接收客户端发送的用户的搜索请求,该搜索请求中包含目标名称,查找预先设置的包含名称与唯一标识之间的对应关系的同名对应关系,确定与目标名称对应的一个唯一标识,并按照该唯一标示进行搜索,输出搜索结果,该搜索结果中的项目的标识中包含该唯一标识,其中,通过查找预先设置的名称与唯一标识之间的对应关系,使得能够利用唯一标识区分相同名称例如同名的两个明星,且通过利用唯一标识进行搜索,获取包含该唯一标识的项目,使得搜索结果更加准确,能够有效的改善用户的搜索体验。
为了更好地理解本发明实施例中的技术方案,请参阅图4,为本发明实施例中一种搜索方法的实施例,包括:
401、接收用户的搜索请求,搜索请求中包含目标名称;
在本发明实施例中,用户在客户端的在线搜索页面输入关键字之后,将生成搜索请求,并将该搜索请求发送给服务器端的在线搜索***。
在线搜索***接收到该搜索请求之后,将解析该搜索请求中包含的关键字,若确定该关键字为名称,则查找预先设置的名称表,确定该关键字的类型,该类型可以是人名、物体的名称、影视剧名称、植物名称、动物名称等等,若确定该关键字为人名,则确定该是否为明星的名字,若确定该关键字是明星的名字,则进一步将查找预先设置的明星的同名对应关系,若同名对应关系中包含该明星的名称,则确定此次搜索是对同名人物进行搜索,则该搜索请求中包含的关键字即为目标人物名称。
402、查找预先设置的同名对应关系,确定与目标名称对应的一个唯一标识,同名对应关系包含名称与唯一标识之间的对应关系;
在本发明实施例中,在线搜索***将查找预先设置的同名对应关系中的名称与唯一标识之间的对应关系,确定与目标名称对应的一个唯一标识,具体的:若在预先设置的同名对应关系中仅有一个与目标名称相同的名称,则查找该同名对应关系包含的名称与唯一标识之间的对应关系,确定与目标名称对应的一个唯一标识;若在预先设置的同名对应关系中包含至少两个与目标名称相同的名称,则查找该同名对应关系包含的名称与唯一标识之间的对应关系,确定在至少两个与目标名称相同的名称中,满足条件的名称对应的一个唯一标识,其中,满足条件可以是搜索量最大或者用户的点击率最大。
403、按照搜索类型及唯一标识进行搜索,输出搜索结果,搜索结果中的项目的类型与搜索类型相同,且项目的标识中包含唯一标识,搜索类型包含在搜索请求中;
在本发明实施例中,用户在搜索页面输入搜索关键字的时候,可以选择搜索类型,例如搜索类型可以是:新闻、网页、图片、音乐、微博、地图、问答、购物等等。且在发送给在线搜索***的搜索请求中包含该搜索类型,使得能够得到与该搜索类型相同的类型的数据。
在本发明实施例中,在线搜索***将按照搜索类型及唯一标识进行搜索,并输出搜索结果,其中,搜索结果中的项目的类型与搜索类型相同,且项目的标识中包含唯一标识。
其中,在线搜索***按照搜索类型及唯一标识进行搜索具体可以为:在线搜索***按照唯一标识进行搜索,获取标识中包含唯一标识的项目;并从包含该唯一标识的项目中获取类型与搜索类型相同的项目并作为搜索结果输出。需要说明的是,在线搜索***输出搜索结果的步骤可以是:在线搜索***将搜索结果发送给用户所在的客户端,由客户端加载该搜索结果并且按照预先设置的方式在客户端的显示界面上进行显示。例如:以同名人物搜索为例,若目标名称为“小宋佳”,确定的唯一标识是A,且搜索类型为图片,则在线搜索***将搜索所有的项目,获取标识中包含唯一标识A的项目,并且从所有的包含唯一标识A的项目中获取类型为图片的项目,并将搜索得到的图片按照预先设置的方式输出到客户端,并在客户端显示。
404、输出第一提示信息,第一提示信息中包含同名对应关系中与目标名称相似或者相同的其他名称。
在本发明实施例中,在线搜索***在得到按照搜索类型及唯一标识进行搜索的搜索结果之后,还将输出第一提示信息,该第一提示信息中包含同名对应关系中与目标名称相似或者相同的其他名称,以同名明星搜索为例,例如:若目标任务名称为“小宋佳”,搜索类型为图片,则在线搜索***在得到“小宋佳”的图片之后,还将确定与“小宋佳”相似的名称“大宋佳”,并将该名称“大宋佳”包含在第一提示信息输出到用户的客户端,并且在客户端上显示“大宋佳”的搜索链接,以提示用户还有其他的与其搜索的目标名称相同或者相似的明星。若明星点击该提示的名称“大宋佳”,则在线搜索***将按照该名称“大宋佳”进行搜索,以方便用户对同名人物的搜索。
需要说明的是,在本发明实施例中,若在线搜索***搜索到与目标名称完全相同的非同类型的名称,则输出第二提示信息,第二提示信息中包含该非同类型的名称的信息。具体的:在线搜索***接收到搜索请求之后,将确定该搜索请求中的关键字的类型,并在植物、动物、人名、影视剧名等分类表下分别进行搜索,若确定该关键字为具有同名明星的名称且同时为一种药材的名称,则将按照本发明实施例中的技术方案进行同名人物搜索,得到搜索结果,输出到客户端并显示,且还将输出第二提示信息到客户端,该第二提示信息中包含中药材的名称。
需要说明的是,在本发明实施例中,数据处理装置可针对不同的类型设置同名对应关系。
在本发明实施例中,在线搜索***接收到用户包含目标名称的搜索请求之后,查找预先设置的包含名称与唯一标识之间的对应关系的同名对应关系,确定与目标名称对应的一个唯一标识,并按照搜索类型及唯一标识进行搜索,输出搜索结果,该搜索结果中的项目的类型与搜索类型相同,且项目的标识中包含唯一标识,该搜索类型包含在搜索请求中。其中,通过查找预先设置的名称与唯一标识之间的对应关系,使得能够利用唯一标识区分相同名称例如同名的两个明星,且通过利用唯一标识进行搜索,获取包含该唯一标识的项目,使得搜索结果更加准确,能够有效的改善用户的搜索体验。此外,在线搜索***中还将输出第一提示信息,该第一提示信息中包含同名对应关系中与目标名称相似或者相同的其他名称,且若搜索到与目标名称完全相同的非同类型的名称,则输出第二提示信息,第二提示信息中包含非同类型的名称的信息,使得能够有效的改善用户的搜索体验,且能够有效区分同一类型下相同名称例如区分同名明星,或者或者类型不同的相同名称例如区分具有相同的名称的明星和非人物名称,搜索结果更加准确。
请参阅图5,为本发明实施例中数据处理装置的结构示意图,包括:
挖掘模块501,用于进行名称的数据挖掘,得到所有的相同名称;
关联模块502,用于在所述挖掘模块501得到所述所有的相同名称之后,确定与所述所有的相同名称中的每一个名称关联的项目;
设置模块503,用于在所述关联模块502确定与所述所有的相同名称中的每一个名称关联的项目之后,为所述所有的相同名称中的每一个名称设置一个唯一标识,得到同名对应关系,且为与所述名称关联的项目设置与所述名称相同的唯一标识,所述同名对应关系中包含名称与唯一标识之间的对应关系。
其中,挖掘模块501包括:
第一挖掘模块504,用于利用网页爬虫抓取数据,并进行数据挖掘得到名称表;
第二挖掘模块505,用于对名称表中的名称进行相同名称的挖掘,得到所有的相同名称。
在本发明实施例中,数据处理装置还包括:
导入模块506,用于在设置模块503设置唯一标识之后,将包含名称与唯一标识之间的对应关系的同名对应关系、及已标识唯一标识的项目导入至在线搜索***中。
其中,为了更好地区分同名名称,还可以通过人工编辑的方式确定名称表中的相同名称。
需要说明的是,在本发明实施例中,一个项目可以有多个唯一标识,例如:一部电视剧的主演包含演员A、B和C,则该部电视剧的包含了演员A、B和C的唯一标识。
需要说明的是,在本发明实施例中,数据处理装置可以是服务器。
在本发明实施例中,数据处理装置中的挖掘模块501进行名称的数据挖掘,得到所有的相同名称,具体的:其中,挖掘模块501中的第一挖掘模块504利用网页爬虫抓取数据,并进行数据挖掘得到名称表;且接着第二挖掘模块505对名称表中的名称进行相同名称的挖掘,得到所有的相同名称。接着,关联模块502确定与所述所有的相同名称中的每一个名称关联的项目;并由设置模块503为所述所有的相同名称中的每一个名称设置一个唯一标识,得到同名对应关系,且为与所述名称关联的项目设置与所述名称相同的唯一标识。最后,导入模块506将包含名称与唯一标识之间的对应关系的同名对应关系、及已标识唯一标识的项目导入至在线搜索***中。
在本发明实施例中,数据处理装置通过对名称进行数据挖掘,得到所有的相同名称,且将该所有的相同名称中的名称与其相关的项目进行关联,并设置名称对应的唯一标识得到同名对应关系,且设置名称关联的项目具有与该名称相同的唯一标识,使得能够有效的利用该同名对应关系中的名称与唯一标识之间的对应关系区分相同名称例如区分同名明星,且通过在项目上设置唯一标识,使得能够利用唯一标识对名称进行搜索,有效提高搜索的准确性,避免相同名称的项目混淆,提高用户的搜索体验。
请参阅图6,为本发明实施例中在线搜索***的结构的示意图,包括:
接收模块601,用于接收用户的搜索请求,搜索请求中包含目标名称;
查找模块602,用于在接收模块601接收搜索请求之后,查找预先设置的同名对应关系,确定与目标名称对应的一个唯一标识,该同名对应关系包含名称与唯一标识之间的对应关系;
输出模块603,用于在查找模块602确定唯一标识之后,按照唯一标识进行搜索,输出搜索结果,搜索结果中的项目的标识中包含唯一标识。
在本发明实施例中,在线搜索***中的接收模块601接收用户的搜索请求,搜索请求中包含目标名称;接着查找模块602查找预先设置的包含名称与唯一标识之间的对应关系的同名对应关系,确定与目标名称对应的一个唯一标识;最后输出模块603按照唯一标识进行搜索,输出搜索结果,搜索结果中的项目的标识中包含唯一标识。
在本发明实施例中,在线搜索***接收客户端发送的用户的搜索请求,该搜索请求中包含目标名称,查找预先设置的包含名称与唯一标识之间的对应关系的同名对应关系,确定与目标名称对应的一个唯一标识,并按照该唯一标识进行搜索,输出搜索结果,该搜索结果中的项目的标识中包含该唯一标识,其中,通过查找预先设置的名称与唯一标识之间的对应关系,使得能够利用唯一标识区分相同名称例如区分同名的两个明星,且通过利用唯一标识进行搜索,获取包含该唯一标识的项目,使得搜索结果更加准确,能够有效的改善用户的搜索体验。
为了更好的理解本发明实施例中的在线搜索***,请参阅图7,为本发明实施例中在线搜索***的结构的一个示意图,包括:如图6所示实施例中描述的接收模块601、查找模块602、输出模块603,且与图6所示实施例中描述的内容相似,此处不做赘述。
在本发明实施例中,查找模块602具体包括:
第一查找模块701,用于在接收模块601接收搜索请求之后,若在预先设置的同名对应关系中仅有一个与目标名称相同的名称,则查找该同名对应关系包含的名称与唯一标识之间的对应关系,确定与目标名称对应的一个唯一标识;以同名明星为例,例如:目标名称为“小宋佳”,同名对应关系中包含了相同的两个明星的名称均为“宋佳”,其中一个的“宋佳”的别名为“小宋佳”,另一个“宋佳”的别名为“大宋佳”,因此,若目标名称为“小宋佳”,则在同名对应关系中查找与“小宋佳”的对应的一个唯一标识。
第二查找模块702,用于在接收模块601接收搜索请求之后,若在预先设置的同名对应关系中包含至少两个与目标名称相同的名称,则查找同名对应关系包含的名称与唯一标识之间的对应关系,确定在至少两个与目标名称相同的名称中,满足条件的名称对应的一个唯一标识。其中,满足条件可以是搜索量最大,或者用户的点击率最大,以同名明星为例,例如:同名对应关系中包含了相同的两个明星的名称均为“宋佳”,其中一个的“宋佳”的别名为“小宋佳”,另一个“宋佳”的别名为“大宋佳”,若目标名称为“宋佳”,则在线搜索***可确定有两个与目标名称相同的名称,则查找预先设置的名称与唯一标识之间的对应关系,确定别名为“小宋佳”的“宋佳”的唯一标识为A,别名为“大宋佳”的“宋佳”的唯一标识为B,则从唯一标示A和B中,选择满足搜索量最大的别名为“大宋佳”的“宋佳”的唯一标识B作为目标名称“宋佳”的唯一标识。
在本发明实施例中,输出模块603具体用于在查找模块601确定唯一标识之后,按照搜索类型及唯一标识进行搜索,输出搜索结果,搜索结果中的项目的类型与搜索类型相同,且项目的标识中包含唯一标识,搜索类型包含在搜索请求中。
在本发明实施例中,输出模块603包括:
获取模块703,用于在查找模块602确定唯一标识之后,按照唯一标识进行搜索,获取标识中包含唯一标识的项目;
获取输出模块704,用于在获取模块703获取项目之后,从项目中获取类型与搜索类型相同的项目并作为搜索结果输出。
在本发明实施例中,在线搜索***还包括:
第一输出模块705,用于在输出模块603输出搜索结果后,输出第一提示信息,第一提示信息中包含同名对应关系中与目标名称相似或者相同的其他名称。例如:若目标任务名称为“小宋佳”,搜索类型为图片,则在线搜索***在得到“小宋佳”的图片之后,还将确定与“小宋佳”相似的名称“大宋佳”,并将该名称“大宋佳”包含在第一提示信息输出到用户的客户端,并且在客户端上显示“大宋佳”的搜索链接,以提示用户还有其他的与其搜索的目标名称相同或者相似的明星。若明星点击该提示的名称“大宋佳”,则在线搜索***将按照该名称“大宋佳”进行搜索,以方便用户对同名人物的搜索。
需要说明的是,在本发明实施例中,用户在搜索页面输入搜索关键字的时候,可以选择搜索类型,例如搜索类型可以是:新闻、网页、图片、音乐、微博、地图、问答、购物等等。且在发送给在线搜索***的搜索请求中包含该搜索类型,使得能够得到与该搜索类型相同的类型的数据。
在本发明实施例中,在线搜索***中的接收模块601接收用户的搜索请求,搜索请求中包含目标名称;接着查找模块602查找预先设置的包含名称与唯一标识之间的对应关系的同名对应关系,确定与目标名称对应的一个唯一标识,具体的,若在预先设置的同名对应关系中仅有一个与目标名称相同的名称,则第一查找模块701查找同名对应关系包含的名称与唯一标识之间的对应关系,确定与目标名称对应的一个唯一标识;若在预先设置的同名对应关系中包含至少两个与目标名称相同的名称,则第二查找模块702查找同名对应关系包含的名称与唯一标识之间的对应关系,确定在至少两个与目标名称相同的名称中,满足条件的名称对应的一个唯一标识。接着,输出模块603按照唯一标识进行搜索,输出搜索结果,搜索结果中的项目的标识中包含唯一标识,具体的:输出模块中603中的获取模块703按照唯一标识进行搜索,获取标识中包含唯一标识的项目;输出模块603中的获取输出模块704从项目中获取类型与搜索类型相同的项目并作为搜索结果输出。接着,第一输出模块705输出第一提示信息,第一提示信息中包含同名对应关系中与目标名称相似或者相同的其他名称。
在本发明实施例中,在线搜索***接收到用户包含目标名称的搜索请求之后,查找预先设置的包含名称与唯一标识之间的对应关系的同名对应关系,确定与目标名称对应的一个唯一标识,并按照搜索类型及唯一标识进行搜索,输出搜索结果,该搜索结果中的项目的类型与搜索类型相同,且项目的标识中包含唯一标识,该搜索类型包含在搜索请求中。其中,通过查找预先设置的名称与唯一标识之间的对应关系,使得能够利用唯一标识区分相同名称例如同名的两个明星,且通过利用唯一标识进行搜索,获取包含该唯一标识的项目,使得搜索结果更加准确,能够有效的改善用户的搜索体验。此外,在线搜索***中还将输出第一提示信息,该第一提示信息中包含同名对应关系中与目标名称相似或者相同的其他名称,使得能够有效的改善用户的搜索体验,。
以上,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容做出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。

Claims (17)

1.一种搜索方法,其特征在于,包括:
接收用户的客户端发送的搜索请求,所述搜索请求中包含目标名称;
当所述目标名称是同名名称时,查找预先设置的同名对应关系,确定与所述目标名称对应的一个唯一标识,所述同名对应关系中包含名称与唯一标识之间的对应关系;
按照所述唯一标识进行搜索,输出搜索结果,并将所述搜索结果发送至所述用户的客户端,以使
所述用户的客户端加载所述搜索结果并显示,其中,所述搜索结果中的项目的标识中包含所述唯一标识;
当搜索到与所述目标名称完全相同的非同类型的名称时,将包含所述非同类型的名称的提示信息发送至所述用户的客户端。
2.根据权利要求1所述的方法,其特征在于,所述查找预先设置的同名对应关系,确定与所述目标名称对应的一个唯一标识包括:
若在预先设置的同名对应关系中仅有一个与所述目标名称相同的名称,则查找所述同名对应关系中的名称与唯一标识之间的对应关系,确定与所述目标名称对应的一个唯一标识;
若在预先设置的同名对应关系中包含至少两个与所述目标名称相同的名称,则查找所述同名对应关系中的名称与唯一标识之间的对应关系,确定在所述至少两个与所述目标名称相同的名称中,满足条件的名称对应的一个唯一标识。
3.根据权利要求2所述的方法,其特征在于,所述按照所述唯一标识进行搜索,输出搜索结果,所述搜索结果中的项目的标识中包含所述唯一标识,包括:
按照搜索类型及所述唯一标识进行搜索,输出搜索结果,所述搜索结果中的项目的类型与所述搜索类型相同,且所述项目的标识中包含所述唯一标识,所述搜索类型包含在所述搜索请求中。
4.根据权利要求3所述的方法,其特征在于,所述按照搜索类型及所述唯一标识进行搜索,输出搜索结果包括:
按照所述唯一标识进行搜索,获取标识中包含所述唯一标识的项目;
从所述项目中获取类型与所述搜索类型相同的项目并作为搜索结果输出。
5.根据权利要求2至4任意一项所述的方法,其特征在于,所述方法还包括:
输出第一提示信息,所述第一提示信息中包含所述同名对应关系中与所述目标名称相似或者相同的其他名称。
6.一种数据处理方法,其特征在于,包括:
进行名称的数据挖掘,得到所有的相同名称;
确定与所述所有的相同名称中的每一个名称关联的项目;
为所述所有的相同名称中的每一个名称设置一个唯一标识,得到同名对应关系,且为与所述名称关联的项目设置与所述名称相同的唯一标识,所述同名对应关系中包含名称与唯一标识之间的对应关系,
其中,所述同名对应关系用于供在线搜索***接收用户的客户端发送的搜索请求后,当所述搜索请求中包含的目标名称是同名名称时,查找所述同名对应关系,以确定与所述目标名称对应的一个唯一标识。
7.根据权利要求6所述的方法,其特征在于,所述进行名称的数据挖掘,得到所有的相同名称,包括:
利用网页爬虫抓取数据,并进行数据挖掘得到名称表;
对所述名称表中的名称进行相同名称的挖掘,得到所述名称表中所有的相同名称。
8.根据权利要求6或7所述的方法,其特征在于,所述方法还包括:
将包含名称与唯一标识之间的对应关系的同名对应关系、及已标识唯一标识的项目导入至所述在线搜索***中。
9.一种在线搜索***,其特征在于,包括:
接收模块,用于接收用户的客户端发送的搜索请求,所述搜索请求中包含目标名称;
查找模块,用于当所述目标名称是同名名称时,在所述接收模块接收所述搜索请求之后,查找预先设置的同名对应关系,确定与所述目标名称对应的一个唯一标识,所述同名对应关系中包含名称与唯一标识之间的对应关系;
输出模块,用于在所述查找模块确定所述唯一标识之后,按照所述唯一标识进行搜索,输出搜索结果,并将所述搜索结果发送至所述用户的客户端,以使所述用户的客户端加载所述搜索结果并显示,其中,所述搜索结果中的项目的标识中包含所述唯一标识,当搜索到与所述目标名称完全相同的非同类型的名称时,将包含所述非同类型的名称的提示信息发送至所述用户的客户端。
10.根据权利要求9所述在线搜索***,其特征在于,查找模块具体包括:
第一查找模块,用于在所述接收模块接收所述搜索请求之后,若在预先设置的同名对应关系中仅有一个与所述目标名称相同的名称,则查找所述同名对应关系中的名称与唯一标识之间的对应关系,确定与所述目标名称对应的一个唯一标识;
第二查找模块,用于在所述接收模块接收所述搜索请求之后,若在预先设置的同名对应关系中包含至少两个与所述目标名称相同的名称,则查找所述同名对应关系中的名称与唯一标识之间的对应关系,确定在所述至少两个与所述目标名称相同的名称中,满足条件的名称对应的一个唯一标识。
11.根据权利要求10所述的在线搜索***,其特征在于,所述输出模块具体用于在所述查找模块确定所述唯一标识之后,按照搜索类型及所述唯一标识进行搜索,输出搜索结果,所述搜索结果中的项目的类型与所述搜索类型相同,且所述项目的标识中包含所述唯一标识,所述搜索类型包含在所述搜索请求中。
12.根据权利要求11所述的在线搜索***,其特征在于,所述输出模块包括:
获取模块,用于在所述查找模块确定所述唯一标识之后,按照所述唯一标识进行搜索,获取标识中包含所述唯一标识的项目;
获取输出模块,用于在所述获取模块获取所述项目之后,从所述项目中获取类型与所述搜索类型相同的项目并作为搜索结果输出。
13.根据权利要求10至12任意一项所述的在线搜索***,其特征在于,所述在线搜索***还包括:
第一输出模块,用于在所述输出模块输出所述搜索结果后,输出第一提示信息,所述第一提示信息中包含所述同名对应关系中与所述目标名称相似或者相同的其他名称。
14.一种数据处理装置,其特征在于,包括:
挖掘模块,用于进行名称的数据挖掘,得到所有的相同名称;
关联模块,用于在所述挖掘模块得到所述所有的相同名称之后,确定与所述所有的相同名称中的每一个名称关联的项目;
设置模块,用于在所述关联模块确定与所述所有的相同名称中的每一个名称关联的项目之后,为所述所有的相同名称中的每一个名称设置一个唯一标识,得到同名对应关系,且为与所述名称关联的项目设置与所述名称相同的唯一标识,所述同名对应关系中包含名称与唯一标识之间的对应关系,其中,所述同名对应关系用于供在线搜索***接收用户的客户端发送的搜索请求后,当所述搜索请求中包含的目标名称是同名名称时,查找所述同名对应关系,以确定与所述目标名称对应的一个唯一标识。
15.根据权利要求14所述的数据处理装置,其特征在于,所述挖掘模块包括:
第一挖掘模块,用于利用网页爬虫抓取数据,并进行数据挖掘得到名称表;
第二挖掘模块,用于对所述名称表中的名称进行相同名称的挖掘,得到所述名称表中所有的相同名称。
16.根据权利要求14或15所述的数据处理装置,其特征在于,所述装置还包括:
导入模块,用于在所述设置模块设置唯一标识之后,将包含名称与唯一标识之间的对应关系的同名对应关系、及已标识唯一标识的项目导入至所述在线搜索***中。
17.一种计算机可读存储介质,其特征在于,所述存储介质中存储有可执行指令,所述可执行指令执行时实现权利要求1至5任一项所述的搜索方法、或权利要求6至8任一项所述的数据处理方法。
CN201410566247.XA 2014-10-22 2014-10-22 一种搜索方法及数据处理方法、装置及*** Active CN105589863B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410566247.XA CN105589863B (zh) 2014-10-22 2014-10-22 一种搜索方法及数据处理方法、装置及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410566247.XA CN105589863B (zh) 2014-10-22 2014-10-22 一种搜索方法及数据处理方法、装置及***

Publications (2)

Publication Number Publication Date
CN105589863A CN105589863A (zh) 2016-05-18
CN105589863B true CN105589863B (zh) 2020-07-14

Family

ID=55929451

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410566247.XA Active CN105589863B (zh) 2014-10-22 2014-10-22 一种搜索方法及数据处理方法、装置及***

Country Status (1)

Country Link
CN (1) CN105589863B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108268582B (zh) * 2017-07-14 2021-05-07 阿里巴巴(中国)有限公司 信息查询方法及装置
CN112434127B (zh) * 2020-11-03 2023-10-17 咪咕文化科技有限公司 文本信息搜索方法、设备及可读存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1687924A (zh) * 2005-04-28 2005-10-26 中国科学院计算技术研究所 互联网人物信息搜索引擎的生成方法
CN101158964A (zh) * 2007-11-09 2008-04-09 深圳市迅雷网络技术有限公司 一种自动修改目标下载文件信息的***、装置及方法
CN101454750A (zh) * 2006-03-31 2009-06-10 谷歌公司 命名实体的消歧
CN102103640A (zh) * 2011-02-28 2011-06-22 纽海信息技术(上海)有限公司 用于提供物品列表的方法及装置
CN102831128A (zh) * 2011-06-15 2012-12-19 富士通株式会社 一种对互联网上的同名人物信息进行分类的方法及装置
CN102867060A (zh) * 2012-09-19 2013-01-09 广东欧珀移动通信有限公司 一种数据快速搜索方法、装置及***
CN103559270A (zh) * 2013-11-04 2014-02-05 北京中搜网络技术股份有限公司 一种词条的存储和管理方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1687924A (zh) * 2005-04-28 2005-10-26 中国科学院计算技术研究所 互联网人物信息搜索引擎的生成方法
CN101454750A (zh) * 2006-03-31 2009-06-10 谷歌公司 命名实体的消歧
CN101158964A (zh) * 2007-11-09 2008-04-09 深圳市迅雷网络技术有限公司 一种自动修改目标下载文件信息的***、装置及方法
CN102103640A (zh) * 2011-02-28 2011-06-22 纽海信息技术(上海)有限公司 用于提供物品列表的方法及装置
CN102831128A (zh) * 2011-06-15 2012-12-19 富士通株式会社 一种对互联网上的同名人物信息进行分类的方法及装置
CN102867060A (zh) * 2012-09-19 2013-01-09 广东欧珀移动通信有限公司 一种数据快速搜索方法、装置及***
CN103559270A (zh) * 2013-11-04 2014-02-05 北京中搜网络技术股份有限公司 一种词条的存储和管理方法

Also Published As

Publication number Publication date
CN105589863A (zh) 2016-05-18

Similar Documents

Publication Publication Date Title
US11921805B2 (en) Web document enhancement
US11899681B2 (en) Knowledge graph building method, electronic apparatus and non-transitory computer readable storage medium
US9304979B2 (en) Authorized syndicated descriptions of linked web content displayed with links in user-generated content
Qian et al. Social media based event summarization by user–text–image co-clustering
US20130268597A1 (en) Relevance-Based Aggregated Social Feeds
US10503803B2 (en) Animated snippets for search results
US10210181B2 (en) Searching and annotating within images
JP2015204103A (ja) 対話型の検索及び推奨方法並びにその装置
JP2019511065A (ja) 情報検索方法及び装置
CN103902535A (zh) 获取联想词的方法、装置及***
KR102024998B1 (ko) 유사 그룹 요소 추출
US10061806B2 (en) Presenting previously selected search results
US10691746B2 (en) Images for query answers
US11249993B2 (en) Answer facts from structured content
CN111104583B (zh) 一种直播间推荐方法、存储介质、电子设备及***
CN103605808A (zh) 基于搜索的ugc推荐的方法及***
CN108228657B (zh) 一种关键字检索的实现方法及装置
CN110990057A (zh) 小程序子链信息的提取方法、装置、设备及介质
US20180285444A1 (en) Rewriting contextual queries
CN101894109A (zh) 一种数据库建立方法和装置
CN111259225B (zh) 新媒体信息展示方法、装置、电子设备及计算机可读介质
CN105786858A (zh) 信息搜索***及方法
CN105589863B (zh) 一种搜索方法及数据处理方法、装置及***
KR20150045236A (ko) 스크랩 정보 관리 방법 및 장치
CN104850608A (zh) 在信息展示页面上检索关键字的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant