CN112749258A - 数据搜索的方法和装置、电子设备和存储介质 - Google Patents
数据搜索的方法和装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN112749258A CN112749258A CN202110080499.1A CN202110080499A CN112749258A CN 112749258 A CN112749258 A CN 112749258A CN 202110080499 A CN202110080499 A CN 202110080499A CN 112749258 A CN112749258 A CN 112749258A
- Authority
- CN
- China
- Prior art keywords
- data
- word segmentation
- searched
- target
- search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 230000011218 segmentation Effects 0.000 claims abstract description 182
- 238000004891 communication Methods 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 15
- 238000000605 extraction Methods 0.000 claims description 7
- 238000005516 engineering process Methods 0.000 abstract description 6
- 230000000694 effects Effects 0.000 abstract description 4
- 238000012545 processing Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 7
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000009434 installation Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/328—Management therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Business, Economics & Management (AREA)
- Software Systems (AREA)
- General Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种数据搜索的方法和装置、电子设备和存储介质,其中,方法包括:获取目标帐号输入至目标搜索引擎中的待搜索数据,其中,待搜索数据包含多种类型信息;从分词控制器对待搜索数据进行分词得到的分词结果中提取关键词;将关键词作为索引,在目标搜索引擎的索引数据库中进行搜索,得到搜索结果;向目标帐号返回搜索结果。本申请通过获取目标帐号向目标搜索引擎中输入多种类型的待搜索数据信息,利用分词控制器对该待搜索数据进行分词后提取关键词,根据该关键词找到对应的索引数据库后,在该索引数据库内进行数据搜索,以达到多数据类型的搜索效果,使得搜索内容更丰富,准确率更高,解决了相关技术中搜索精度差的问题。
Description
技术领域
本申请涉及数据处理领域,尤其涉及一种数据搜索的方法和装置、电子设备和存储介质。
背景技术
随着互联网的发展,搜索引擎要处理的数据量越来越大,对搜索引擎的性能要求也越来越高,高效地分析用户的搜索词,可以挖掘出用户的真实意图。
相关的一些客户端搜索方式中,搜索数据类型单一,通常只能针对一种数据类型进行搜索,且只能从该类型对应的指定类别数据库内查找搜索的内容,比如要搜索内容为:“金融”时,服务器只能到存储金融类别的数据库内进行搜索。
所以,相关的搜索技术只能进行一种类型的数据搜索,且搜索范围较局限,导致搜索精度不高。
发明内容
本申请提供了一种数据搜索的方法和装置、电子设备和存储介质,以至少解决相关技术中搜索精度不高的问题。
根据本申请实施例的一个方面,提供了一种数据搜索的方法,该方法包括:
获取目标帐号输入至目标搜索引擎中的待搜索数据,其中,所述待搜索数据包含多种类型信息;
从分词控制器对所述待搜索数据进行分词得到的分词结果中提取关键词;
将所述关键词作为索引,在所述目标搜索引擎的索引数据库中进行搜索,得到搜索结果;
向所述目标帐号返回所述搜索结果。
可选地,所述从分词控制器对所述待搜索数据进行分词得到的分词结果中提取关键词包括:
从所述分词控制器的多个分词插件中查找与所述待搜索数据的数据类型匹配的目标分词插件;
利用所述目标分词插件对所述待搜索数据进行分词,得到所述分词结果;
从所述分词结果中提取出所述关键词。
可选地,所述利用所述目标分词插件对所述待搜索数据进行分词,得到所述分词结果包括:
利用拼音分词插件,将所述待搜索数据中包含的中文字符转换成拼音字符串,其中,所述目标分词插件包括所述拼音分词插件;
对所述拼音字符串进行分词,得到所述分词结果。
可选地,所述在从所述分词控制器的多个分词插件中查找与所述待搜索数据的数据类型匹配的目标分词插件之前,所述方法还包括:
获取配置信息,其中,所述配置信息用于指示扩展所述分词控制器的分词插件;
将所述目标分词插件的数据文件安装至目标目录,并通过修改所述分词控制器的配置文件来启用所述目标分词插件,其中,所述目标目录为用于存储所述分词控制器的分词插件的目录。
可选地,所述将所述关键词作为索引,在所述目标搜索引擎的索引数据库中进行搜索,得到搜索结果包括:
对所述关键词进行分类,确定每个关键字的类别;
查找所述索引数据库中与所述每个关键字的类别相对应的索引数据库,其中,所述索引数据库类别与所述关键字类别一一对应;
将所述每个关键字作为索引,分别到每个关键字所对应的索引数据库中进行搜索,确定搜索结果。
可选地,所述将所述每个关键字作为索引,分别到每个关键字所对应的索引数据库中进行搜索,确定搜索结果包括:
从各个所述索引数据库中匹配到满足相关度阈值的关联数据,其中,所述相关度阈值用于指示所述关键字与当前关键字对应类别下索引数据库中的数据之间相匹配的最低值;
获取所述关联数据的相关度权重,其中,所述相关度权重用于指示所述关联数据与所述关键字的相关程度;
将权重值最高的关联数据作为所述关键字的搜索结果。
可选地,所述从分词控制器对所述待搜索数据进行分词得到的分词结果中提取关键词之前,所述方法还包括:
判断所述待搜索数据是否为参考数据,其中,所述参考数据为所述目标帐号在历史搜索操作中满足预设搜索频次的数据;
在所述待搜索数据不是参考数据的情况下,则执行所述从分词控制器对所述待搜索数据进行分词得到的分词结果中提取关键词的步骤。
可选地,所述在判断所述待搜索数据是否为参考数据之后,所述方法还包括:
在所述待搜索数据是参考数据的情况下,则将数据库中存储的与所述参考数据相对应的搜索结果发送至客户端显示,其中,所述数据库中存储有所述参考数据相对应的所述搜索结果。
根据本申请实施例的另一个方面,提供了一种数据搜索的装置,该装置包括:
第一获取模块,用于获取目标帐号输入至目标搜索引擎中的待搜索数据,其中,所述待搜索数据包含多种类型信息;
提取模块,用于从分词控制器对所述待搜索数据进行分词得到的分词结果中提取关键词;
搜索模块,用于将所述关键词作为索引,在所述目标搜索引擎的索引数据库中进行搜索,得到搜索结果;
返回模块,用于向所述目标帐号返回所述搜索结果。
可选地,提取模块包括:
查找单元,用于从所述分词控制器的多个分词插件中查找与所述待搜索数据的数据类型匹配的目标分词插件;
分词单元,用于利用所述目标分词插件对所述待搜索数据进行分词,得到所述分词结果;
提取单元,用于从所述分词结果中提取出所述关键词。
可选地,分词单元包括:
转换子单元,用于利用拼音分词插件,将所述待搜索数据中包含的中文字符转换成拼音字符串,其中,所述目标分词插件包括所述拼音分词插件;
分词子单元,用于对所述拼音字符串进行分词,得到所述分词结果。
可选地,该装置包括:
第二获取模块,用于从所述分词控制器的多个分词插件中查找与所述待搜索数据的数据类型匹配的目标分词插件之前,获取配置信息,其中,所述配置信息用于指示扩展所述分词控制器的分词插件;
安装模块,用于将所述目标分词插件的数据文件安装至目标目录,并通过修改所述分词控制器的配置文件来启用所述目标分词插件,其中,所述目标目录为用于存储所述分词控制器的分词插件的目录。
可选地,搜索模块包括:
确定单元,用于对所述关键词进行分类,确定每个关键字的类别;
查找模块,用于查找所述索引数据库中与所述每个关键字的类别相对应的索引数据库,其中,所述索引数据库类别与所述关键字类别一一对应;
搜索单元,用于将所述每个关键字作为索引,分别到每个关键字所对应的索引数据库中进行搜索,确定搜索结果。
可选地,搜索单元包括:
匹配子单元,用于从各个所述索引数据库中匹配到满足相关度阈值的关联数据,其中,所述相关度阈值用于指示所述关键字与当前关键字对应类别下索引数据库中的数据之间相匹配的最低值;
获取子单元,用于获取所述关联数据的相关度权重,其中,所述相关度权重用于指示所述关联数据与所述关键字的相关程度;
确定子单元,用于将权重值最高的关联数据作为所述关键字的搜索结果。
可选地,该装置还包括:
判断模块,用于从分词控制器对所述待搜索数据进行分词得到的分词结果中提取关键词之前,判断所述待搜索数据是否为参考数据,其中,所述参考数据为所述目标帐号在历史搜索操作中满足预设搜索频次的数据;
执行模块,用于在所述待搜索数据不是参考数据的情况下,则执行所述从分词控制器对所述待搜索数据进行分词得到的分词结果中提取关键词的步骤。
可选地,该装置还包括:
发送模块,用于在判断所述待搜索数据是否为参考数据之后,在所述待搜索数据是参考数据的情况下,则将数据库中存储的与所述参考数据相对应的搜索结果发送至客户端显示,其中,所述数据库中存储有所述参考数据相对应的所述搜索结果。
根据本申请实施例的又一个方面,还提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器、通信接口和存储器通过通信总线完成相互间的通信;其中,存储器,用于存储计算机程序;处理器,用于通过运行所述存储器上所存储的所述计算机程序来执行上述任一实施例中的数据搜索的方法步骤。
根据本申请实施例的又一个方面,还提供了一种计算机可读的存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一实施例中的数据搜索的方法步骤。
根据本申请实施例的又一个方面,还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中;计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述任一实施例中的数据搜索的方法步骤。
在本申请实施例中,通过获取目标帐号向目标搜索引擎中输入多种类型的待搜索数据信息,利用分词控制器对该待搜索数据进行分词后提取关键词,根据该关键词找到对应的索引数据库后,在该索引数据库内进行数据搜索,以达到多数据类型的搜索效果,使得搜索内容更丰富,准确率更高,解决了相关技术中搜索精度差的问题。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的一种可选的数据搜索的方法的硬件环境的示意图;
图2是根据本申请实施例的一种可选的数据搜索的方法的流程示意图;
图3是根据本申请实施例的一种可选的数据搜索的装置的结构框图;
图4是根据本申请实施例的一种可选的电子设备的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本申请实施例提供了一种数据搜索的方法,该数据搜索的方法应用于对多种类型数据进行数据搜索的业务场景中。
可选地,在本申请实施例中,上述数据搜索的方法可以应用于如图1所示的硬件环境中。如图1所示,终端102中可以包含有存储器104、处理器106和显示器108(可选部件)。终端102可以通过网络110与服务器112进行通信连接,该服务器112可用于为终端或终端上安装的客户端提供服务(如游戏服务、应用服务等),可在服务器112上或独立于服务器112设置数据库114,用于为服务器112提供数据存储服务。此外,服务器112中可以运行有处理引擎116,该处理引擎116可以用于执行由服务器112所执行的步骤。
可选地,终端102可以但不限于为可以计算数据的终端,如移动终端(例如手机、平板电脑)、笔记本电脑、PC(Personal Computer,个人计算机)机等终端上,上述网络可以包括但不限于无线网络或有线网络。其中,该无线网络包括:蓝牙、WIFI(Wireless Fidelity,无线保真)及其他实现无线通信的网络。上述有线网络可以包括但不限于:广域网、城域网、局域网。上述服务器112可以包括但不限于任何可以进行计算的硬件设备。
此外,在本实施例中,上述数据搜索的方法还可以但不限于应用于处理能力较强大的独立的处理设备中,而无需进行数据交互。例如,该处理设备可以但不限于为处理能力较强大的终端设备,即,上述数据搜索的方法中的各个操作可以集成在一个独立的处理设备中。上述仅是一种示例,本实施例中对此不作任何限定。
可选地,在本实施例中,上述数据搜索的方法可以由服务器112来执行,也可以由终端102来执行,还可以是由服务器112和终端102共同执行。其中,终端102执行本申请实施例的数据搜索的方法也可以是由安装在其上的客户端来执行。
以运行在目标搜索引擎中的服务器为例,图2是根据本申请实施例的一种可选的数据搜索的方法的流程示意图,如图2所示,该方法的流程可以包括以下步骤:
步骤S201,获取目标帐号输入至目标搜索引擎中的待搜索数据,其中,待搜索数据包含多种类型信息。
可选地,在本申请实施例中,服务器获取目标帐号在目标搜索引擎中输入的待搜索数据,其中,目标帐号为用户ID号,每个用户拥有一个多个目标帐号,服务器获取不同帐号或同一帐号下输入的待搜索数据;这里的待搜索数据包含多种类型信息,比如,待搜索数据可以包括:搜索内容:证券,搜索类型为:中文文字搜索等。
另外,目标搜索引擎可以是Elasticsearch搜索引擎,Elasticsearch是一个分布式、高扩展、高实时的搜索与数据分析引擎,它能很方便的使大量数据具有搜索、分析和探索的能力。
步骤S202,从分词控制器对待搜索数据进行分词得到的分词结果中提取关键词。
可选地,利用目标搜索引擎中的分词控制器对待搜索数据进行分词,得到分词结果,然后从分词结果中提取关键词。
其中,分词控制器中包含多个分词插件,每个分词插件对应不同类型的数据类型进行分词处理,所以,服务器可以根据目标帐号输入到目标搜索引擎中的待搜索数据类型,找到与该待搜索数据类型匹配的目标分词插件。
根据目标分词插件对待搜索数据进行分词,得到分词结果,然后再从分词结果中提取出关键词。
步骤S203,将关键词作为索引,在目标搜索引擎的索引数据库中进行搜索,得到搜索结果。
可选地,在本申请实施例中,将关键词作为索引,依照索引内容在目标搜索引擎的索引数据库中进行搜索,确定搜索结果。
步骤S204,向目标帐号返回搜索结果。
可选地,在获取到搜索结果后,服务器将该搜索结果发送至客户端的目标帐号中,用户可依据客户端的显示器查看搜索结果。
在本申请实施例中,通过获取目标帐号向目标搜索引擎中输入多种类型的待搜索数据信息,利用分词控制器对该待搜索数据进行分词后提取关键词,根据该关键词找到对应的索引数据库后,在该索引数据库内进行数据搜索,以达到多数据类型的搜索效果,使得搜索内容更丰富,准确率更高,解决了相关技术中搜索精度差的问题。
作为一种可选的实施例,利用目标分词插件对待搜索数据进行分词,得到分词结果包括:
利用拼音分词插件,将待搜索数据中包含的中文字符转换成拼音字符串,其中,目标分词插件包括拼音分词插件;
对拼音字符串进行分词,得到分词结果。
可选地,本申请实施例中的目标分词插件可以进行不同字符间的转换,比如,将待搜索数据中包含的中文字符转换成拼音字符串的拼音分词插件(比如pinyin4j拼音分词插件)等。
将转换为拼音字符串的字符进行分词,进而得到分词结果。
作为一种可选的实施例,在从分词控制器的多个分词插件中查找与待搜索数据的数据类型匹配的目标分词插件之前,该方法还包括:
获取配置信息,其中,配置信息用于指示扩展分词控制器的分词插件;
将目标分词插件的数据文件安装至目标目录,并通过修改分词控制器的配置文件来启用目标分词插件,其中,目标目录为用于存储分词控制器的分词插件的目录。
可选地,在分词控制器中可以包含但不限于中文分词插件、拼音分词插件等,同时,目标搜索引擎支持分词插件的扩展,比如,默认目标搜索引擎对每个字符进行分词,会将“快速搜索方案”,分词成”快”,”速”,”搜”,”索”等,但是这不符合中文词语,短语常识。使用中文分词后,则会分词为“快速”,”搜索”,“方案”这种中文词汇;而使用拼音分词就会将中文分词后的短语,转换为拼音词汇。
这时,目标搜索引擎为了能够实现分词插件的扩展,可以获取扩展分词控制器的分词插件的配置信息,然后将待扩展的分词插件的数据文件安装至存储分词控制器的分词插件的目标目录中,通过修改分词控制器中待扩展的分词插件的插件位置、插件名称、插件类型、插件状态等配置文件,来实现待扩展的分词插件的安装。这里的待扩展的分词插件可以是目标分词插件。
作为一种可选的实施例,将关键词作为索引,在目标搜索引擎的索引数据库中进行搜索,得到搜索结果包括:
对关键词进行分类,确定每个关键字的类别;
查找索引数据库中与每个关键字的类别相对应的索引数据库,其中,索引数据库类别与关键字类别一一对应;
将每个关键字作为索引,分别到每个关键字所对应的索引数据库中进行搜索,确定搜索结果。
可选地,本申请实施例目标搜索引擎的服务器在获取到待搜索数据后,对提取的关键字进行分类,然后得到每个关键字的类别,根据每个关键字的类别,到各个索引数据库内查找对每个关键字类别相对应的索引数据库,其中,索引数据库类别与关键字类别一一对应。
作为一种可选的实施例,将每个关键字作为索引,分别到每个关键字所对应的索引数据库中进行搜索,确定搜索结果包括:
从各个索引数据库中匹配到满足相关度阈值的关联数据,其中,相关度阈值用于指示关键字与当前关键字对应类别下索引数据库中的数据之间相匹配的最低值;
获取关联数据的相关度权重,其中,相关度权重用于指示关联数据与关键字的相关程度;
将权重值最高的关联数据作为关键字的搜索结果。
可选地,在各个索引数据库中,将各索引数据库中的数据与当前关键字进行匹配,将满足相关度阈值的关联数据提取出来,其中,相关度阈值可以是目标搜索引擎根据词语之间的关联度自定义出的数值。
将提取出的关联数据按照相关度权重数值按照从大到小的顺序排序,将权重数值最高的关联数据作为当前关键词的搜索结果。
之后可以将每个关键词的搜索结果进行整合,将整合后的数据作为反馈给目标帐号的搜索结果。
作为一种可选的实施例,从分词控制器对待搜索数据进行分词得到的分词结果中提取关键词之前,该方法还包括:
判断待搜索数据是否为参考数据,其中,参考数据为目标帐号在历史搜索操作中满足预设搜索频次的数据;
在待搜索数据不是参考数据的情况下,则执行从分词控制器对待搜索数据进行分词得到的分词结果中提取关键词的步骤;
在待搜索数据是参考数据的情况下,则将数据库中存储的与参考数据相对应的搜索结果发送至客户端显示,其中,数据库中存储有参考数据相对应的搜索结果。
可选地,本申请实施例的目标引擎在获取到目标帐号输入的待搜索数据后,先查看待搜索数据是否已经存储在数据库中,也即,待搜索数据是否是目标搜索引擎的数据库内存储的参考数据,这里的参考数据可以是根据目标账户的历史搜索操作,确定出的经常搜索的数据,其中,判定“经常搜索”的条件可以是:确定目标帐号搜索某一数据的次数是否满足预设搜索频次,在满足预设搜索频次的情况下,确定目标帐号经常搜索这些数据,并将这些数据作为参考数据。
如果待搜索数据是数据库内存储的参考数据,则直接将参考数据相对应的搜索结果发送至客户端显示,如果待搜索数据不是数据库内存储的参考数据,再执行上述实施例中的利用分词控制器对待搜索数据进行分词的步骤。
本申请实施例通过在目标搜索引擎的数据库中存储参考数据,在进行分词前先比较待搜索数据是否是数据库中存储的参考数据,如果是的话,则不需要分词控制器再执行分词操作,节省了目标搜索引擎中服务器的搜索资源,同时节省搜索时间。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM(Read-Only Memory,只读存储器)/RAM(Random Access Memory,随机存取存储器)、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例的方法。
根据本申请实施例的另一个方面,还提供了一种用于实施上述数据搜索的方法的数据搜索的装置。图3是根据本申请实施例的一种可选的数据搜索的装置的示意图,如图3所示,该装置可以包括:
第一获取模块301,用于获取目标帐号输入至目标搜索引擎中的待搜索数据,其中,待搜索数据包含多种类型信息;
提取模块302,用于从分词控制器对待搜索数据进行分词得到的分词结果中提取关键词;
搜索模块303,用于将关键词作为索引,在目标搜索引擎的索引数据库中进行搜索,得到搜索结果;
返回模块304,用于向目标帐号返回搜索结果。
需要说明的是,该实施例中的第一获取模块301可以用于执行上述步骤S201,该实施例中的提取模块302可以用于执行上述步骤S202,该实施例中的搜索模块303可以用于执行上述步骤S203,该实施例中的返回模块304可以用于执行上述步骤S204。
通过上述模块,通过获取目标帐号向目标搜索引擎中输入多种类型的待搜索数据信息,利用分词控制器对该待搜索数据进行分词后提取关键词,根据该关键词找到对应的索引数据库后,在该索引数据库内进行数据搜索,以达到多数据类型的搜索效果,使得搜索内容更丰富,准确率更高,解决了相关技术中搜索精度差的问题。
作为一种可选的实施例,提取模块包括:
查找单元,用于从分词控制器的多个分词插件中查找与待搜索数据的数据类型匹配的目标分词插件;
分词单元,用于利用目标分词插件对待搜索数据进行分词,得到分词结果;
提取单元,用于从分词结果中提取出关键词。
作为一种可选的实施例,分词单元包括:
转换子单元,用于利用拼音分词插件,将待搜索数据中包含的中文字符转换成拼音字符串,其中,目标分词插件包括拼音分词插件;
分词子单元,用于对拼音字符串进行分词,得到分词结果。
作为一种可选的实施例,该装置包括:
第二获取模块,用于从分词控制器的多个分词插件中查找与待搜索数据的数据类型匹配的目标分词插件之前,获取配置信息,其中,配置信息用于指示扩展分词控制器的分词插件;
安装模块,用于将目标分词插件的数据文件安装至目标目录,并通过修改分词控制器的配置文件来启用目标分词插件,其中,目标目录为用于存储分词控制器的分词插件的目录。
作为一种可选的实施例,搜索模块包括:
确定单元,用于对关键词进行分类,确定每个关键字的类别;
查找模块,用于查找索引数据库中与每个关键字的类别相对应的索引数据库,其中,索引数据库类别与关键字类别一一对应;
搜索单元,用于将每个关键字作为索引,分别到每个关键字所对应的索引数据库中进行搜索,确定搜索结果。
作为一种可选的实施例,搜索单元包括:
匹配子单元,用于从各个索引数据库中匹配到满足相关度阈值的关联数据,其中,相关度阈值用于指示关键字与当前关键字对应类别下索引数据库中的数据之间相匹配的最低值;
获取子单元,用于获取关联数据的相关度权重,其中,相关度权重用于指示关联数据与关键字的相关程度;
确定子单元,用于将权重值最高的关联数据作为关键字的搜索结果。
作为一种可选的实施例,该装置还包括:
判断模块,用于从分词控制器对待搜索数据进行分词得到的分词结果中提取关键词之前,判断待搜索数据是否为参考数据,其中,参考数据为目标帐号在历史搜索操作中满足预设搜索频次的数据;
执行模块,用于在待搜索数据不是参考数据的情况下,则执行从分词控制器对待搜索数据进行分词得到的分词结果中提取关键词的步骤。
作为一种可选的实施例,该装置还包括:
发送模块,用于在判断待搜索数据是否为参考数据之后,在待搜索数据是参考数据的情况下,则将数据库中存储的与参考数据相对应的搜索结果发送至客户端显示,其中,数据库中存储有参考数据相对应的搜索结果。
此处需要说明的是,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在如图1所示的硬件环境中,可以通过软件实现,也可以通过硬件实现,其中,硬件环境包括网络环境。
根据本申请实施例的又一个方面,还提供了一种用于实施上述数据搜索的方法的电子设备,该电子设备可以是服务器、终端、或者其组合。
图4是根据本申请实施例的一种可选的电子设备的结构框图,如图4所示,包括处理器401、通信接口402、存储器403和通信总线404,其中,处理器401、通信接口402和存储器403通过通信总线404完成相互间的通信,其中,
存储器403,用于存储计算机程序;
处理器401,用于执行存储器403上所存放的计算机程序时,实现如下步骤:
S1,获取目标帐号输入至目标搜索引擎中的待搜索数据,其中,待搜索数据包含多种类型信息;
S2,从分词控制器对待搜索数据进行分词得到的分词结果中提取关键词;
S3,将关键词作为索引,在目标搜索引擎的索引数据库中进行搜索,得到搜索结果;
S4,向目标帐号返回搜索结果。
可选地,在本实施例中,上述的通信总线可以是PCI(Peripheral ComponentInterconnect,外设部件互连标准)总线、或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括RAM,也可以包括非易失性存储器(non-volatile memory),例如,至少一个磁盘存储器。可选地,存储器还可以是至少一个位于远离前述处理器的存储装置。
作为一种示例,如图4所示,上述存储器402中可以但不限于包括上述签到数据处理装置中的第一获取模块301、提取模块302、搜索模块303、返回模块304。此外,还可以包括但不限于上述签到数据处理装置中的其他模块单元,本示例中不再赘述。
上述处理器可以是通用处理器,可以包含但不限于:CPU(Central ProcessingUnit,中央处理器)、NP(Network Processor,网络处理器)等;还可以是DSP(DigitalSignal Processing,数字信号处理器)、ASIC(Application Specific IntegratedCircuit,专用集成电路)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
此外,上述电子设备还包括:显示器,用于显示签到数据搜索结果。
可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例在此不再赘述。
本领域普通技术人员可以理解,图4所示的结构仅为示意,实施上述数据搜索的方法的设备可以是终端设备,该终端设备可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices,MID)、PAD等终端设备。图4其并不对上述电子设备的结构造成限定。例如,终端设备还可包括比图4中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图4所示的不同的配置。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、ROM、RAM、磁盘或光盘等。
根据本申请实施例的又一个方面,还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以用于执行数据搜索的方法的程序代码。
可选地,在本实施例中,上述存储介质可以位于上述实施例所示的网络中的多个网络设备中的至少一个网络设备上。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:
S1,获取目标帐号输入至目标搜索引擎中的待搜索数据,其中,待搜索数据包含多种类型信息;
S2,从分词控制器对待搜索数据进行分词得到的分词结果中提取关键词;
S3,将关键词作为索引,在目标搜索引擎的索引数据库中进行搜索,得到搜索结果;
S4,向目标帐号返回搜索结果。
可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例中对此不再赘述。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、ROM、RAM、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
根据本申请实施例的又一个方面,还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中;计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述任一个实施例中的数据搜索的方法步骤。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例数据搜索的方法的全部或部分步骤。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例中所提供的方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (11)
1.一种数据搜索的方法,其特征在于,所述方法包括:
获取目标帐号输入至目标搜索引擎中的待搜索数据,其中,所述待搜索数据包含多种类型信息;
从分词控制器对所述待搜索数据进行分词得到的分词结果中提取关键词;
将所述关键词作为索引,在所述目标搜索引擎的索引数据库中进行搜索,得到搜索结果;
向所述目标帐号返回所述搜索结果。
2.根据权利要求1所述的方法,其特征在于,所述从分词控制器对所述待搜索数据进行分词得到的分词结果中提取关键词包括:
从所述分词控制器的多个分词插件中查找与所述待搜索数据的数据类型匹配的目标分词插件;
利用所述目标分词插件对所述待搜索数据进行分词,得到所述分词结果;
从所述分词结果中提取出所述关键词。
3.根据权利要求2所述的方法,其特征在于,所述利用所述目标分词插件对所述待搜索数据进行分词,得到所述分词结果包括:
利用拼音分词插件,将所述待搜索数据中包含的中文字符转换成拼音字符串,其中,所述目标分词插件包括所述拼音分词插件;
对所述拼音字符串进行分词,得到所述分词结果。
4.根据权利要求1所述的方法,其特征在于,所述在从所述分词控制器的多个分词插件中查找与所述待搜索数据的数据类型匹配的目标分词插件之前,所述方法还包括:
获取配置信息,其中,所述配置信息用于指示扩展所述分词控制器的分词插件;
将所述目标分词插件的数据文件安装至目标目录,并通过修改所述分词控制器的配置文件来启用所述目标分词插件,其中,所述目标目录为用于存储所述分词控制器的分词插件的目录。
5.根据权利要求1所述的方法,其特征在于,所述将所述关键词作为索引,在所述目标搜索引擎的索引数据库中进行搜索,得到搜索结果包括:
对所述关键词进行分类,确定每个关键字的类别;
查找所述索引数据库中与所述每个关键字的类别相对应的索引数据库,其中,所述索引数据库类别与所述关键字类别一一对应;
将所述每个关键字作为索引,分别到每个关键字所对应的索引数据库中进行搜索,确定搜索结果。
6.根据权利要求5所述的方法,其特征在于,所述将所述每个关键字作为索引,分别到每个关键字所对应的索引数据库中进行搜索,确定搜索结果包括:
从各个所述索引数据库中匹配到满足相关度阈值的关联数据,其中,所述相关度阈值用于指示所述关键字与当前关键字对应类别下索引数据库中的数据之间相匹配的最低值;
获取所述关联数据的相关度权重,其中,所述相关度权重用于指示所述关联数据与所述关键字的相关程度;
将权重值最高的关联数据作为所述关键字的搜索结果。
7.根据权利要求1所述的方法,其特征在于,所述从分词控制器对所述待搜索数据进行分词得到的分词结果中提取关键词之前,所述方法还包括:
判断所述待搜索数据是否为参考数据,其中,所述参考数据为所述目标帐号在历史搜索操作中满足预设搜索频次的数据;
在所述待搜索数据不是参考数据的情况下,则执行所述从分词控制器对所述待搜索数据进行分词得到的分词结果中提取关键词的步骤。
8.根据权利要求7所述的方法,其特征在于,所述在判断所述待搜索数据是否为参考数据之后,所述方法还包括:
在所述待搜索数据是参考数据的情况下,则将数据库中存储的与所述参考数据相对应的搜索结果发送至客户端显示,其中,所述数据库中存储有所述参考数据相对应的所述搜索结果。
9.一种数据搜索的装置,其特征在于,所述装置包括:
第一获取模块,用于获取目标帐号输入至目标搜索引擎中的待搜索数据,其中,所述待搜索数据包含多种类型信息;
提取模块,用于从分词控制器对所述待搜索数据进行分词得到的分词结果中提取关键词;
搜索模块,用于将所述关键词作为索引,在所述目标搜索引擎的索引数据库中进行搜索,得到搜索结果;
返回模块,用于向所述目标帐号返回所述搜索结果。
10.一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,所述处理器、所述通信接口和所述存储器通过所述通信总线完成相互间的通信,其特征在于,
所述存储器,用于存储计算机程序;
所述处理器,用于通过运行所述存储器上所存储的所述计算机程序来执行权利要求1至8中任一项所述的数据搜索的方法步骤。
11.一种计算机可读的存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行权利要求1至8中任一项中所述的数据搜索的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110080499.1A CN112749258A (zh) | 2021-01-21 | 2021-01-21 | 数据搜索的方法和装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110080499.1A CN112749258A (zh) | 2021-01-21 | 2021-01-21 | 数据搜索的方法和装置、电子设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112749258A true CN112749258A (zh) | 2021-05-04 |
Family
ID=75652739
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110080499.1A Pending CN112749258A (zh) | 2021-01-21 | 2021-01-21 | 数据搜索的方法和装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112749258A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113626462A (zh) * | 2021-07-15 | 2021-11-09 | 北京百度网讯科技有限公司 | 即时通讯对象的搜索方法、装置、电子设备和存储介质 |
CN116126896A (zh) * | 2022-09-30 | 2023-05-16 | 中电金信软件有限公司 | 数据检索方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000259653A (ja) * | 1999-03-09 | 2000-09-22 | Mitsubishi Electric Corp | 音声認識装置及び音声認識方法 |
US6862713B1 (en) * | 1999-08-31 | 2005-03-01 | International Business Machines Corporation | Interactive process for recognition and evaluation of a partial search query and display of interactive results |
CN102341800A (zh) * | 2009-03-17 | 2012-02-01 | 富士通株式会社 | 检索处理方法以及装置 |
CN102768681A (zh) * | 2012-06-26 | 2012-11-07 | 北京奇虎科技有限公司 | 一种用于搜索输入的推荐***及方法 |
CN110430476A (zh) * | 2019-08-05 | 2019-11-08 | 广州华多网络科技有限公司 | 直播间搜索方法、***、计算机设备和存储介质 |
-
2021
- 2021-01-21 CN CN202110080499.1A patent/CN112749258A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000259653A (ja) * | 1999-03-09 | 2000-09-22 | Mitsubishi Electric Corp | 音声認識装置及び音声認識方法 |
US6862713B1 (en) * | 1999-08-31 | 2005-03-01 | International Business Machines Corporation | Interactive process for recognition and evaluation of a partial search query and display of interactive results |
CN102341800A (zh) * | 2009-03-17 | 2012-02-01 | 富士通株式会社 | 检索处理方法以及装置 |
CN102768681A (zh) * | 2012-06-26 | 2012-11-07 | 北京奇虎科技有限公司 | 一种用于搜索输入的推荐***及方法 |
CN110430476A (zh) * | 2019-08-05 | 2019-11-08 | 广州华多网络科技有限公司 | 直播间搜索方法、***、计算机设备和存储介质 |
Non-Patent Citations (1)
Title |
---|
刘伟成: "数字信息资源检索", 28 February 2018, 武汉大学出版社, pages: 0085 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113626462A (zh) * | 2021-07-15 | 2021-11-09 | 北京百度网讯科技有限公司 | 即时通讯对象的搜索方法、装置、电子设备和存储介质 |
CN116126896A (zh) * | 2022-09-30 | 2023-05-16 | 中电金信软件有限公司 | 数据检索方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110502608B (zh) | 基于知识图谱的人机对话方法及人机对话装置 | |
CN107657048B (zh) | 用户识别方法及装置 | |
US20170351687A1 (en) | Method and system for enhanced query term suggestion | |
CN108027814B (zh) | 停用词识别方法与装置 | |
CN111352907A (zh) | 流水文件解析方法、装置、计算机设备和存储介质 | |
CN110929038A (zh) | 基于知识图谱的实体链接方法、装置、设备和存储介质 | |
CN113204621B (zh) | 文档入库、文档检索方法,装置,设备以及存储介质 | |
CN107885717B (zh) | 一种关键词提取方法及装置 | |
CN110427453B (zh) | 数据的相似度计算方法、装置、计算机设备及存储介质 | |
CN109840120B (zh) | 解耦微服务发布方法、电子装置及计算机可读存储介质 | |
CN110941951A (zh) | 文本相似度计算方法、装置、介质及电子设备 | |
CN112749258A (zh) | 数据搜索的方法和装置、电子设备和存储介质 | |
CN110609952A (zh) | 数据采集方法、***和计算机设备 | |
CN112732893A (zh) | 文本信息的提取方法和装置、存储介质和电子设备 | |
CN110968664A (zh) | 一种文书检索方法、装置、设备及介质 | |
CN111198936A (zh) | 一种语音搜索方法、装置、电子设备及存储介质 | |
CN110245357B (zh) | 主实体识别方法和装置 | |
CN108427701B (zh) | 基于操作页面识别帮助信息的方法及应用服务器 | |
CN111858966B (zh) | 知识图谱的更新方法、装置、终端设备及可读存储介质 | |
CN107679055B (zh) | 信息检索方法、服务器及可读存储介质 | |
CN106599082B (zh) | 一种检索方法、相关装置及电子设备 | |
CN110647537A (zh) | 数据搜索方法、装置及存储介质 | |
CN110738048A (zh) | 一种关键词提取方法、装置及终端设备 | |
CN115858742A (zh) | 问题文本扩充方法、装置、设备及存储介质 | |
CN112861532B (zh) | 地址标准化处理方法、装置、设备及在线搜索*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: Room 221, 2 / F, block C, 18 Kechuang 11th Street, Daxing District, Beijing, 100176 Applicant after: Jingdong Technology Holding Co.,Ltd. Address before: Room 221, 2 / F, block C, 18 Kechuang 11th Street, Daxing District, Beijing, 100176 Applicant before: Jingdong Digital Technology Holding Co., Ltd |