CN111597212B - 一种数据检索方法及装置 - Google Patents

一种数据检索方法及装置 Download PDF

Info

Publication number
CN111597212B
CN111597212B CN202010445888.5A CN202010445888A CN111597212B CN 111597212 B CN111597212 B CN 111597212B CN 202010445888 A CN202010445888 A CN 202010445888A CN 111597212 B CN111597212 B CN 111597212B
Authority
CN
China
Prior art keywords
request
surface layer
search
retrieval
data retrieval
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010445888.5A
Other languages
English (en)
Other versions
CN111597212A (zh
Inventor
崔大鹏
白宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Minglue Zhaohui Technology Co Ltd
Original Assignee
Beijing Minglue Zhaohui Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Minglue Zhaohui Technology Co Ltd filed Critical Beijing Minglue Zhaohui Technology Co Ltd
Priority to CN202010445888.5A priority Critical patent/CN111597212B/zh
Publication of CN111597212A publication Critical patent/CN111597212A/zh
Application granted granted Critical
Publication of CN111597212B publication Critical patent/CN111597212B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • G06F16/24532Query optimisation of parallel queries
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供一种数据检索方法及装置,涉及数据处理领域,包括:接收数据检索请求;根据预设的请求拆分规则对数据检索请求进行拆分处理,得到多个拆分请求;对多个拆分请求分别进行数据检索,得到与多个拆分请求一一对应的多个检索结果;汇总多个检索结果,得到与数据检索请求对应的数据检索结果。可见,实施这种实施方式,能够在避免占用大量检索服务器内存的同时,提升检索速度和检索效率,进而提升检索性能。

Description

一种数据检索方法及装置
技术领域
本申请涉及数据处理技术领域,具体而言,涉及一种数据检索方法及装置。
背景技术
随着现代网络技术与通信技术的发展,人们在日常工作中,面对信息资源量急剧上涨,人们希望通过检索的方式从大量的信息中提取所需要的数据,因此,全文检索技术也急需迅速发展。现有的数据检索方法,通常是每次都根据用户输入的检索请求,然后根据该检索请求在包括所有原始数据的全量数据库中进行全面检索,得到检索结果,最后将检索结果返回给用户。然而,在实践中发现,全量数据库包括全量的原始数据,每次检索时进行全量检索,会消耗大量的检索服务器内存,从而导致检索速度慢,效率低。
发明内容
本申请实施例的目的在于提供一种数据检索方法及装置,能够在避免占用大量检索服务器内存的同时,提升检索速度和检索效率,进而提升检索性能。
本申请实施例第一方面提供了一种数据检索方法,所述数据检索方法包括:
接收数据检索请求;
根据预设的请求拆分规则对所述数据检索请求进行拆分处理,得到多个拆分请求;
对所述多个拆分请求分别进行数据检索,得到与所述多个拆分请求一一对应的多个检索结果;
汇总所述多个检索结果,得到与所述数据检索请求对应的数据检索结果。
在上述实现过程中,该方法能够优先获取数据检索请求,然后根据预设的请求拆分规则对数据检索请求进行拆分处理,得到多个拆分请求;在获取到多个拆分请求之后,再以每个拆分请求为依据进行数据检索,得到多个检索结果,该多个检索结果是与多个拆分请求一一对应的;最后,汇总多个检索结果,得到最终的数据检索结果。可见,实施这种实施方式,能够通过拆分的过程将数据检索请求的大量检索拆分为多重子检索,从而避免占用大量的检索服务器内存,同时,该实施方式还能够通过多线程处理的方式,大大提升了检索的效率,另外,该实施方式还能够化繁为简,从每个细节触发进行相应检索,从而实现提升检索性能的效果。
进一步地,所述对所述多个拆分请求分别进行数据检索,得到与所述多个拆分请求一一对应的多个检索结果的步骤包括:
根据预设的请求归类规则对所述多个拆分请求进行归类处理,得到全量检索请求集合和表层检索请求集合;
根据所述全量检索请求集合在预设的全量数据库中进行全量检索处理,得到全量检索结果;
根据所述表层检索请求集合在预设的表层数据库中进行表层检索处理,得到表层检索结果;
根据所述全量检索结果和所述表层检索结果,确定与所述多个拆分请求一一对应的多个检索结果。
在上述实现过程中,该方法在获取多个检索结果的过程中可以优先根据预设的请求归类规则对多个拆分请求进行归类处理,得到两类检索请求,其中,该两类检索请求包括全量检索请求构成的检索请求集合和表层检索请求构成的检索请求集合;在全量检索请求集合和表层检索情况集合之后,该方法根据全量检索请求集合在预设的全量数据库中进行全量检索处理,得到全量检索结果,并根据表层检索请求集合在预设的表层数据库中进行表层检索处理,得到表层检索结果;并在全量检索结果和表层检索结果都获取到之后,根据全量检索结果和表层检索结果来确定出多个检索结果。可见,实施这种实施方式,能够对拆分请求进行归类处理,使得检索可以分为两种不同的检索,从而提高检索的针对性,进而提高检索的检索精度与检索效果。
进一步地,所述根据所述表层检索请求集合在预设的表层数据库中进行表层检索处理,得到表层检索结果的步骤包括:
在预设的请求映射库中确定所述表层检索请求集合对应的映射检索请求集合;
根据所述映射检索请求集合,确定由所述表层检索请求集合中每个拆分请求对应的最后更新时间构成的最后更新时间集合;
根据所述最后更新时间集合和所述表层检索请求集合在预设的表层数据库中进行表层检索处理,得到表层检索结果。
在上述实现过程中,该方法在进行表层检索处理,得到表层检索结果的过程中,可以优先在预设的请求映射库中确定出表层检索请求集合对应的映射检索请求集合,以使该映射检索请求集合可以用来确定由表层检索请求集合中每个拆分请求对应的最后更新时间构成的最后更新时间集合;然后,根据最后更新时间集合和表层检索请求集合在预设的表层数据库中进行表层检索处理,得到表层检索结果。可见,实施这种实施方式,能够通过映射检索请求集合来解决全文检索的问题并实现降低检索压力的效果,同时引入数据更新时间的概念能够有效解决数据变更导致的误差问题,从而提高了检索的准确性。
进一步地,所述根据所述最后更新时间集合和所述表层检索请求集合在预设的表层数据库中进行表层检索处理,得到表层检索结果的步骤包括:
获取预设的表层数据库最后一次的数据库更新时间;
根据所述最后更新时间集合,对所述表层检索请求集合进行拆分处理,得到第一请求子集合和第二请求子集合;其中,所述第一请求子集合中每个拆分请求对应的最后更新时间皆小于所述数据库更新时间,所述第二请求子集合中每个拆分请求对应的最后更新时间皆大于或者等于所述数据库更新时间;
在所述映射检索请求集合中确定与所述第二请求子集合对应的映射检索请求子集合;
根据所述映射检索请求子集合,在所述表层数据库中进行表层检索处理,得到第二检索结果;
聚合所述第二检索结果,得到表层检索结果。
在上述实现过程中,该方法可以获取数据库的更新时间,然后根据数据库的更新时间和检索请求的更新时间来确定出稳定的数据,即第二请求子集合中包括的数据,从而使得该部分数据可以进行表层检索处理,得到准确的第二检索结果。可见,实施这种实施方式,该方法可以通过数据库更新时间和检索请求的更新时间来判断数据的稳定性,然后再根据该稳定性进行检索种类的确定,进而在检索种类确定下来之后进行相应高效准确的检索,得到准确的表层检索结果。
进一步地,在所述根据所述最后更新时间集合,对所述表层检索请求集合进行拆分处理,得到第一请求子集合和第二请求子集合的步骤之后,所述方法还包括:
根据所第一请求子集合,在所述全量数据库中进行全量检索处理,得到第一检索结果;
所述聚合所述第二检索结果,得到表层检索结果的步骤包括:
聚合所述第一检索结果和所述第二检索结果,得到表层检索结果。
在上述实现过程中,该方法还能够获取数据状态较为活跃的第一请求子集合,然后根据该第一请求子集合来进行全量检索处理,得到第一检索结果,然后聚合第一检索结果和第二检索结果得到完整的表层检索结果。可见,实施这种实施方式,能够在表层检索的过程中完成二次检索,提高检索的精度。
进一步地,在所述接收数据检索请求之后,所述方法还包括:
存储所述数据检索请求;
获取存储所述数据检索请求的存储时间;
对所述数据检索请求进行热点查询分析处理,得到分析结果;
根据所述存储时间和所述分析结果,对预设的请求映射库进行更新处理。
在上述实现过程中,该方法可以在数据检索请求之后,存储数据检索请求,并获取数据检索请求的存储时间,然后再进一步对数据检索请求进行热点查询分析,得到分析结果,促使请求映射库可以根据数据检索请求的存储时间和热点分析结果来进行更新。可见,实施这种实施方式,能够通过数据检索请求的录入来促使请求映射库的更新,从而实现请求映射库的实时性,提高整体的数据检索效果。
进一步地,所述根据所述存储时间和所述分析结果,对预设的请求映射库进行更新处理,包括:
根据所述分析结果判断预设的请求映射库中是否存储有与所述数据检索请求相匹配的目标映射请求;
如果是,获取所述目标映射请求及与所述目标映射请求对应的目标最后更新时间;
根据所述存储时间和所述目标最后更新时间,获取与所述数据检索请求相匹配的目标标识;
根据所述目标标识、所述数据检索请求和所述目标最后更新时间,对所述请求映射库进行更新处理。
在上述实现过程中,该方法能够预先检测目标映射请求,并在监测到的时候获取目标映射请求的最后更新时间,然后根据该最后更新时间和数据检索请求的存储时间来获取数据检索请求相匹配的目标标识,然后根据该目标标识、数据检索请求和上述最后跟新时间来对请求映射库进行更新处理。可见,实施这种实施方,能够实时准确地完成数据更新,从而保证数据检索的准确程度。
本申请实施例第二方面提供了一种数据检索装置,所述数据检索装置包括:
接收单元,用于接收数据检索请求;
拆分单元,用于根据预设的请求拆分规则对所述数据检索请求进行拆分处理,得到多个拆分请求;
检索单元,用于对所述多个拆分请求分别进行数据检索,得到与所述多个拆分请求一一对应的多个检索结果;
汇总单元,用于汇总所述多个检索结果,得到与所述数据检索请求对应的数据检索结果。
在上述实现过程中,该数据检索装置通过多个单元完成数据检索请求的获取、数据检索请求的拆分、拆分请求的一一检索以及检索结果的统一汇总等操作,实现了获取汇总一体化的装置功能。可见,实施这种实施方式,该数据检索装置可以实现自动化检索的功能,从而提高数据检索的效率,保证数据检索的精度。
本申请实施例第三方面提供了一种电子设备,包括存储器以及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行本申请实施例第一方面中任一项所述的数据检索方法。
本申请实施例第四方面提供了一种计算机可读存储介质,其存储有计算机程序指令,所述计算机程序指令被一处理器读取并运行时,执行本申请实施例第一方面中任一项所述的数据检索方法。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种数据检索方法的流程示意图;
图2为本申请实施例提供的另一种数据检索方法的流程示意图;
图3为本申请实施例提供的一种数据检索装置的结构示意图;
图4为本申请实施例提供的另一种数据检索装置的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
实施例1
请参看图1,图1为本申请实施例提供了一种数据检索方法的流程示意图。该方法可以应用于各类检索的应用场景当中,具体的可以应用于使用ElasticSearch(全文搜索引擎)的检索场景当中。其中,该数据检索方法包括:
S101、接收数据检索请求。
本实施例中,数据检索请求可以为分词搜索类查询聚合请求。
在本实施例中,数据检索请求可以为DSL(Domain Specific Language,领域专用语言);该DSL是Elasticsearch支持的一种JSON格式的查询语言,通常包含查询过滤部分,聚合统计部分,高亮等其他辅助部分。查询基本流程为,查询过滤部分命中数据,聚合统计部分根据命中数据计算结果。
S102、根据预设的请求拆分规则对数据检索请求进行拆分处理,得到多个拆分请求。
本实施例中,预设的请求拆分规则可以为按月拆分规则,通过该请求拆分规则可以将数据检索请求拆分为多个拆分请求。
S103、对多个拆分请求分别进行数据检索,得到与多个拆分请求一一对应的多个检索结果。
本实施例中,检索结果是与拆分请求一一对应的,即一个拆分请求对应一个检索结果。
S104、汇总多个检索结果,得到与数据检索请求对应的数据检索结果。
本实施例中,将多个检索结果汇总在一起得到一个全面的数据检索结果。
在本实施例中,多个检索结果都是并行处理的,因此,使得数据检索效率更高。
本实施例中,该方法虽然无法避免基本硬件开销,但是与传统方案的关键区别在于只存储非Text datatype类型的数据,也正是因此,该方法相比其他方案能够大大减少硬件成本,使得整体硬件消耗只占原来ESC-M的5%。
本实施例中,ESC(Elasticsearch Cluster)是指不同Elasticsearch节点组成的集群服务,支持全文搜索和大数据仓储,全量数据库存储全量原始数据的ESC,表层数据库相比于全量数据库,不存储Text datatype类型的Filed。举例来说,假设本实施所描述的数据检索方法应用于论文检索,则全量数据库存储有所有论文的数据,包括论文的论文表层数据(包括论文题目、论文作者标识、论文分类标识、论文评论数据等)和论文正文数据;相比于全量数据库,表层数据库则只存储论文表层数据。
本实施例中,本实施所描述的数据检索方法基于Elasticsearch(全文搜索引擎)。ElasticSearch是一个分布式、高扩展、高实时的搜索与数据分析引擎。能很方便的使大量数据具有搜索、分析和探索的能力。
本实施例中,数据检索请求可以为DSL(Domain Specific Language),DSL是Elasticsearch支持的一种JSON格式的查询语言,通常包含查询过滤部分,聚合统计部分,高亮等其他辅助部分。查询基本流程为,查询过滤部分命中数据,聚合统计部分根据命中数据计算结果。
本实施例中,预设的请求拆分规则包括按照预设的时间阈值,对该数据检索请求进行拆分。
本实施例中,Elasticsearch存储数据的基本单位是Document,每个Document由不同的Field组成,一个Document必对应唯一的Field和Index(标识),即同一Index内不会有两个Document有相同的标识。获取与所述数据检索请求相匹配的目标标识,则可以根据该目标标识确定出唯一的Document、Index和Field。
本实施例中,执行主体可以为计算机、服务器等具有计算搜索能力的计算机设备,对此本实施例中不作任何限定。
在本实施例中,执行主体也可以为手机、平板等智能电子设备,对此本实施例中不作任何限定。
可见,实施图1所描述的数据检索方法,能够优先获取数据检索请求,然后根据预设的请求拆分规则对数据检索请求进行拆分处理,得到多个拆分请求;在获取到多个拆分请求之后,再以每个拆分请求为依据进行数据检索,得到多个检索结果,该多个检索结果是与多个拆分请求一一对应的;最后,汇总多个检索结果,得到最终的数据检索结果。可见,实施这种实施方式,能够通过拆分的过程将数据检索请求的大量检索拆分为多重子检索,从而避免占用大量的检索服务器内存,同时,该实施方式还能够通过多线程处理的方式,大大提升了检索的效率,另外,该实施方式还能够化繁为简,从每个细节触发进行相应检索,从而实现提升检索性能的效果。
实施例2
请参看图2,图2为本申请实施例提供的另一种数据检索方法的流程示意图。图2所描述的数据检索方法的流程示意图是根据图1所描述的数据检索方法的流程示意图进行改进得到的。其中,该数据检索方法包括:
S201、接收数据检索请求。
本实施例中,数据检索请求可以为分词搜索类查询聚合请求。
在本实施例中,数据检索请求可以为DSL(Domain Specific Language,领域专用语言);该DSL是Elasticsearch支持的一种JSON格式的查询语言,通常包含查询过滤部分,聚合统计部分,高亮等其他辅助部分。查询基本流程为,查询过滤部分命中数据,聚合统计部分根据命中数据计算结果。ElasticSearch是一个基于Lucene的搜索服务器,它提供了一个分布式多用户能力的全文搜索引擎.
作为一种可选的实施方式,在接收数据检索请求之后,该方法还可以包括:
存储数据检索请求;
获取存储数据检索请求的存储时间;
对数据检索请求进行热点查询分析处理,得到分析结果;
根据存储时间和分析结果,对预设的请求映射库进行更新处理。
实施这种实施方式,能够通过数据检索请求的录入来促使请求映射库的更新,从而实现请求映射库的实时性,提高整体的数据检索效果。
本实施例中,数据检索请求可以为搜索查询融合请求。
本实施例中,数据检索请求的存储时间即数据检索请求被存储开始计算的存储时间。
在本实施例中,对数据检索请求进行热点查询分析处理,得到分析结果的步骤可以理解为分析出新的热点查询/定时更新已有的热点查询映射,按照预设的规则拆分请求。
作为一种可选的实施方式,对数据检索请求进行热点查询分析处理,得到分析结果时,采用异步执行,对数据检索请求进行分析热点查询语句,避开全量检索的高峰时段,建立表层检索到全量检索的映射,再次收到同样的热点的数据检索请求,则可以直接获取数据检索请求对应的映射请求,并根据该映射请求进行表层检索,大幅降低全量检索时关键词检索造成的集群性能压力,同时表层检索时不依赖分词,相较全量检索可以更及时快速的响应。
作为一种进一步可选的实施方式,根据存储时间和分析结果,对预设的请求映射库进行更新处理的步骤可以包括:
根据分析结果判断预设的请求映射库中是否存储有与数据检索请求相匹配的目标映射请求;
如果是,获取目标映射请求及与目标映射请求对应的目标最后更新时间;
根据存储时间和目标最后更新时间,获取与数据检索请求相匹配的目标标识;
根据目标标识、数据检索请求和目标最后更新时间,对请求映射库进行更新处理。
实施这种实施方式,能够实时准确地完成数据更新,从而保证数据检索的准确程度。
本实施例中,根据分析结果判断预设的请求映射库中是否存储有与数据检索请求相匹配的目标映射请求的步骤可以理解为对当前月是否已存在早期建立完成的转换映射关系。
在本实施例中,若存在早期建立完成的转换映射关系则说明数据库中存有数据,需要更新删除更新;反之,则不需要删除,直接更新即可。
S202、根据预设的请求拆分规则对数据检索请求进行拆分处理,得到多个拆分请求。
本实施例中,预设的请求拆分规则可以为按月拆分规则,通过该请求拆分规则可以将数据检索请求拆分为多个拆分请求。
S203、根据预设的请求归类规则对多个拆分请求进行归类处理,得到全量检索请求集合和表层检索请求集合。
本实施例中,全量检索请求集合是多个全量检索请求的集合,其中,全量检索请求用于进行全文检索(即全部数据检索)。
本实施例中,表层检索请求集合是多个表层检索请求的集合,其中,表层检索请求用于进行非正文检索。
S204、根据全量检索请求集合在预设的全量数据库中进行全量检索处理,得到全量检索结果。
本实施例中,全量数据库是指具有全部数据的数据库。
S205、在预设的请求映射库中确定表层检索请求集合对应的映射检索请求集合。
本实施例中,请求映射库是指不依赖分词的检索请求库,该检索请求库是与大量表层检索请求相对应的。
本实施例中,该请求映射库中的映射请求可以直接调取表层检索请求相应的历史查询结果,不需要再次进行检索,从而实现节省时间提高效率的效果。
S206、根据映射检索请求集合,确定由表层检索请求集合中每个拆分请求对应的最后更新时间构成的最后更新时间集合。
本实施例中,最后更新时间集合中的最后更新时间与每个拆分请求一一对应。
S207、根据最后更新时间集合和表层检索请求集合在预设的表层数据库中进行表层检索处理,得到表层检索结果。
本实施例中,最后更新时间集合用于获取最新的检索数据,从而提高检索的准确性。
作为一种可选的实施方式,根据最后更新时间集合和表层检索请求集合在预设的表层数据库中进行表层检索处理,得到表层检索结果的步骤可以包括:
获取预设的表层数据库最后一次的数据库更新时间;
根据最后更新时间集合,对表层检索请求集合进行拆分处理,得到第一请求子集合和第二请求子集合;其中,第一请求子集合中每个拆分请求对应的最后更新时间皆小于数据库更新时间,第二请求子集合中每个拆分请求对应的最后更新时间皆大于或者等于数据库更新时间;
在映射检索请求集合中确定与第二请求子集合对应的映射检索请求子集合;
根据映射检索请求子集合,在表层数据库中进行表层检索处理,得到第二检索结果;
聚合第二检索结果,得到表层检索结果。
实施这种实施方式,能够通过数据库更新时间和检索请求的更新时间来判断数据的稳定性,然后再根据该稳定性进行检索种类的确定,进而在检索种类确定下来之后进行相应高效准确的检索,得到准确的表层检索结果。
作为一种可选的实施方式,在根据最后更新时间集合,对表层检索请求集合进行拆分处理,得到第一请求子集合和第二请求子集合的步骤之后,方法还包括:
根据所第一请求子集合,在全量数据库中进行全量检索处理,得到第一检索结果;
聚合第二检索结果,得到表层检索结果的步骤包括:
聚合第一检索结果和第二检索结果,得到表层检索结果。
实施这种实施方式,能够在表层检索的过程中完成二次检索,提高检索的精度
步骤S205~S207可以构成根据表层检索请求集合在预设的表层数据库中进行表层检索处理,得到表层检索结果的步骤。可见,实施这种实施方式,能够通过映射检索请求集合来解决全文检索的问题并实现降低检索压力的效果,同时引入数据更新时间的概念能够有效解决数据变更导致的误差问题,从而提高了检索的准确性。
S208、根据全量检索结果和表层检索结果,确定与多个拆分请求一一对应的多个检索结果。
本实施例中,多个检索结果不是包括在全量检索结果中就是包括在表层检索结果中,对此本实施例中不再多加赘述。
S209、汇总多个检索结果,得到与数据检索请求对应的数据检索结果。
作为一种可选的实施方式,根据目标标识、数据检索请求和目标最后更新时间,对请求映射库进行更新处理,还可以包括以下步骤:
删除请求映射库中与目标标识对应的映射数据;
构建目标标识和所述数据检索请求之间的映射关系;
将映射关系添加至请求映射库中,以对请求映射库进行更新处理。
可见,实施图2所描述的数据检索方法,能够优先获取数据检索请求,然后根据预设的请求拆分规则对数据检索请求进行拆分处理,得到多个拆分请求;在获取到多个拆分请求之后,再以每个拆分请求为依据进行数据检索,得到多个检索结果,该多个检索结果是与多个拆分请求一一对应的;最后,汇总多个检索结果,得到最终的数据检索结果。可见,实施这种实施方式,能够通过拆分的过程将数据检索请求的大量检索拆分为多重子检索,从而避免占用大量的检索服务器内存,同时,该实施方式还能够通过多线程处理的方式,大大提升了检索的效率,另外,该实施方式还能够化繁为简,从每个细节触发进行相应检索,从而实现提升检索性能的效果。
实施例3
请参看图3,图3为本申请实施例提供的一种数据检索装置的结构示意图。其中,该数据检索装置包括:
接收单元310,用于接收数据检索请求。
拆分单元320,用于根据预设的请求拆分规则对数据检索请求进行拆分处理,得到多个拆分请求。
检索单元330,用于对多个拆分请求分别进行数据检索,得到与多个拆分请求一一对应的多个检索结果。
汇总单元340,用于汇总多个检索结果,得到与数据检索请求对应的数据检索结果。
本实施例中,对于数据检索装置的解释说明可以参照实施例1或实施例2中的描述,对此本实施例中不再多加赘述。
可见,实施图3所描述的数据检索装置,能够通过多个单元完成数据检索请求的获取、数据检索请求的拆分、拆分请求的一一检索以及检索结果的统一汇总等操作,实现了获取汇总一体化的装置功能。可见,实施这种实施方式,该数据检索装置可以实现自动化检索的功能,从而提高数据检索的效率,保证数据检索的精度。
实施例4
请参看图4,图4为本申请实施例提供的另一种数据检索装置的结构示意图。图4所描述的数据检索装置的结构示意图是根据图3所描述的数据检索装置的结构示意图进行改进得到的。其中,上述检索单元330包括:
归类子单元331,用于根据预设的请求归类规则对多个拆分请求进行归类处理,得到全量检索请求集合和表层检索请求集合。
检索子单元332,用于根据全量检索请求集合在预设的全量数据库中进行全量检索处理,得到全量检索结果。
检索子单元332,还用于根据表层检索请求集合在预设的表层数据库中进行表层检索处理,得到表层检索结果。
确定子单元333,用于根据全量检索结果和表层检索结果,确定与多个拆分请求一一对应的多个检索结果。
作为一种可选的实施方式,检索子单元332在根据表层检索请求集合在预设的表层数据库中进行表层检索处理,得到表层检索结果的操作时,具体执行在预设的请求映射库中确定表层检索请求集合对应的映射检索请求集合;
根据映射检索请求集合,确定由表层检索请求集合中每个拆分请求对应的最后更新时间构成的最后更新时间集合;
根据最后更新时间集合和表层检索请求集合在预设的表层数据库中进行表层检索处理,得到表层检索结果的操作。
作为一种可选的实施方式,检索子单元332在执行根据最后更新时间集合和表层检索请求集合在预设的表层数据库中进行表层检索处理,得到表层检索结果的操作时,具体执行获取预设的表层数据库最后一次的数据库更新时间;
根据最后更新时间集合,对表层检索请求集合进行拆分处理,得到第一请求子集合和第二请求子集合;其中,第一请求子集合中每个拆分请求对应的最后更新时间皆小于数据库更新时间,第二请求子集合中每个拆分请求对应的最后更新时间皆大于或者等于数据库更新时间;
根据所第一请求子集合,在全量数据库中进行全量检索处理,得到第一检索结果;
在映射检索请求集合中确定与第二请求子集合对应的映射检索请求子集合;
根据映射检索请求子集合,在表层数据库中进行表层检索处理,得到第二检索结果;
聚合第一检索结果和第二检索结果,得到表层检索结果的操作。
作为一种可选的实施方式,数据检索装置还可以包括:
存储单元350,用于存储数据检索请求。
获取单元360,用于获取存储数据检索请求的存储时间。
分析单元370,用于对数据检索请求进行热点查询分析处理,得到分析结果。
更新单元380,用于根据存储时间和分析结果,对预设的请求映射库进行更新处理。
作为一种可选的实施方式,更新单元380包括:
判断子单元381,用于根据分析结果判断预设的请求映射库中是否存储有与数据检索请求相匹配的目标映射请求。
获取子单元382,用于在判断子单元381的判断结果为是时,获取目标映射请求及与目标映射请求对应的目标最后更新时间。
获取子单元382,还用于根据存储时间和目标最后更新时间,获取与数据检索请求相匹配的目标标识。
更新子单元383,用于根据目标标识、数据检索请求和目标最后更新时间,对请求映射库进行更新处理。
本实施例中,对于数据检索装置的解释说明可以参照实施例1或实施例2中的描述,对此本实施例中不再多加赘述。
可见,实施图4所描述的数据检索装置,能够通过多个单元完成数据检索请求的获取、数据检索请求的拆分、拆分请求的一一检索以及检索结果的统一汇总等操作,实现了获取汇总一体化的装置功能。可见,实施这种实施方式,该数据检索装置可以实现自动化检索的功能,从而提高数据检索的效率,保证数据检索的精度。
本申请实施例提供了一种电子设备,包括存储器以及处理器,存储器用于存储计算机程序,处理器运行计算机程序以使电子设备执行本申请实施例1或实施例2中任一项数据检索方法。
本申请实施例提供了一种计算机可读存储介质,其存储有计算机程序指令,计算机程序指令被一处理器读取并运行时,执行本申请实施例1或实施例2中任一项数据检索方法。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (7)

1.一种数据检索方法,其特征在于,所述数据检索方法包括:
接收数据检索请求;
根据预设的请求拆分规则对所述数据检索请求进行拆分处理,得到多个拆分请求;
对所述多个拆分请求分别进行数据检索,得到与所述多个拆分请求一一对应的多个检索结果;
汇总所述多个检索结果,得到与所述数据检索请求对应的数据检索结果;
其中,所述对所述多个拆分请求分别进行数据检索,得到与所述多个拆分请求一一对应的多个检索结果的步骤包括:
根据预设的请求归类规则对所述多个拆分请求进行归类处理,得到全量检索请求集合和表层检索请求集合;
根据所述全量检索请求集合在预设的全量数据库中进行全量检索处理,得到全量检索结果;
根据所述表层检索请求集合在预设的表层数据库中进行表层检索处理,得到表层检索结果;
根据所述全量检索结果和所述表层检索结果,确定与所述多个拆分请求一一对应的多个检索结果;
其中,所述根据所述表层检索请求集合在预设的表层数据库中进行表层检索处理,得到表层检索结果的步骤包括:
在预设的请求映射库中确定所述表层检索请求集合对应的映射检索请求集合;
根据所述映射检索请求集合,确定由所述表层检索请求集合中每个拆分请求对应的最后更新时间构成的最后更新时间集合;
根据所述最后更新时间集合和所述表层检索请求集合在预设的表层数据库中进行表层检索处理,得到表层检索结果;
其中,所述根据所述最后更新时间集合和所述表层检索请求集合在预设的表层数据库中进行表层检索处理,得到表层检索结果的步骤包括:
获取预设的表层数据库最后一次的数据库更新时间;
根据所述最后更新时间集合,对所述表层检索请求集合进行拆分处理,得到第一请求子集合和第二请求子集合;其中,所述第一请求子集合中每个拆分请求对应的最后更新时间皆小于所述数据库更新时间,所述第二请求子集合中每个拆分请求对应的最后更新时间皆大于或者等于所述数据库更新时间;
在所述映射检索请求集合中确定与所述第二请求子集合对应的映射检索请求子集合;
根据所述映射检索请求子集合,在所述表层数据库中进行表层检索处理,得到第二检索结果;
聚合所述第二检索结果,得到表层检索结果。
2.根据权利要求1所述的数据检索方法,其特征在于,在所述根据所述最后更新时间集合,对所述表层检索请求集合进行拆分处理,得到第一请求子集合和第二请求子集合的步骤之后,所述方法还包括:
根据所第一请求子集合,在所述全量数据库中进行全量检索处理,得到第一检索结果;
所述聚合所述第二检索结果,得到表层检索结果的步骤包括:
聚合所述第一检索结果和所述第二检索结果,得到表层检索结果。
3.根据权利要求1所述的数据检索方法,其特征在于,在所述接收数据检索请求之后,所述方法还包括:
存储所述数据检索请求;
获取存储所述数据检索请求的存储时间;
对所述数据检索请求进行热点查询分析处理,得到分析结果;
根据所述存储时间和所述分析结果,对预设的请求映射库进行更新处理。
4.根据权利要求3所述的数据检索方法,其特征在于,所述根据所述存储时间和所述分析结果,对预设的请求映射库进行更新处理,包括:
根据所述分析结果判断预设的请求映射库中是否存储有与所述数据检索请求相匹配的目标映射请求;
如果是,获取所述目标映射请求及与所述目标映射请求对应的目标最后更新时间;
根据所述存储时间和所述目标最后更新时间,获取与所述数据检索请求相匹配的目标标识;
根据所述目标标识、所述数据检索请求和所述目标最后更新时间,对所述请求映射库进行更新处理。
5.一种数据检索装置,其特征在于,所述数据检索装置包括:
接收单元,用于接收数据检索请求;
拆分单元,用于根据预设的请求拆分规则对所述数据检索请求进行拆分处理,得到多个拆分请求;
检索单元,用于对所述多个拆分请求分别进行数据检索,得到与所述多个拆分请求一一对应的多个检索结果;
汇总单元,用于汇总所述多个检索结果,得到与所述数据检索请求对应的数据检索结果;
其中,所述检索单元包括:
归类子单元,用于根据预设的请求归类规则对多个拆分请求进行归类处理,得到全量检索请求集合和表层检索请求集合;
检索子单元,用于根据全量检索请求集合在预设的全量数据库中进行全量检索处理,得到全量检索结果;
所述检索子单元,还用于根据表层检索请求集合在预设的表层数据库中进行表层检索处理,得到表层检索结果;
确定子单元,用于根据全量检索结果和表层检索结果,确定与多个拆分请求一一对应的多个检索结果;
其中,所述检索子单元在根据表层检索请求集合在预设的表层数据库中进行表层检索处理,得到表层检索结果的操作时,具体执行在预设的请求映射库中确定表层检索请求集合对应的映射检索请求集合;
根据映射检索请求集合,确定由表层检索请求集合中每个拆分请求对应的最后更新时间构成的最后更新时间集合;
根据最后更新时间集合和表层检索请求集合在预设的表层数据库中进行表层检索处理,得到表层检索结果的操作;
其中,所述检索子单元在执行根据最后更新时间集合和表层检索请求集合在预设的表层数据库中进行表层检索处理,得到表层检索结果的操作时,具体执行获取预设的表层数据库最后一次的数据库更新时间;
根据最后更新时间集合,对表层检索请求集合进行拆分处理,得到第一请求子集合和第二请求子集合;其中,第一请求子集合中每个拆分请求对应的最后更新时间皆小于数据库更新时间,第二请求子集合中每个拆分请求对应的最后更新时间皆大于或者等于数据库更新时间;
在映射检索请求集合中确定与第二请求子集合对应的映射检索请求子集合;
根据映射检索请求子集合,在表层数据库中进行表层检索处理,得到第二检索结果;
聚合第二检索结果,得到表层检索结果。
6.一种电子设备,其特征在于,所述电子设备包括存储器以及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行权利要求1至4中任一项所述的数据检索方法。
7.一种可读存储介质,其特征在于,所述可读取存储介质中存储有计算机程序指令,所述计算机程序指令被一处理器读取并运行时,执行权利要求1至4任一项所述的数据检索方法。
CN202010445888.5A 2020-05-22 2020-05-22 一种数据检索方法及装置 Active CN111597212B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010445888.5A CN111597212B (zh) 2020-05-22 2020-05-22 一种数据检索方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010445888.5A CN111597212B (zh) 2020-05-22 2020-05-22 一种数据检索方法及装置

Publications (2)

Publication Number Publication Date
CN111597212A CN111597212A (zh) 2020-08-28
CN111597212B true CN111597212B (zh) 2024-03-08

Family

ID=72186400

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010445888.5A Active CN111597212B (zh) 2020-05-22 2020-05-22 一种数据检索方法及装置

Country Status (1)

Country Link
CN (1) CN111597212B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6678674B1 (en) * 1998-07-09 2004-01-13 Informex, Inc. Data retrieving method and apparatus data retrieving system and storage medium
CN1987853A (zh) * 2005-12-23 2007-06-27 北大方正集团有限公司 关系型数据库与全文检索相结合的检索方法
CN107870985A (zh) * 2017-10-12 2018-04-03 深圳市金立通信设备有限公司 一种检索信息的方法、服务器及计算机可读存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6678674B1 (en) * 1998-07-09 2004-01-13 Informex, Inc. Data retrieving method and apparatus data retrieving system and storage medium
CN1987853A (zh) * 2005-12-23 2007-06-27 北大方正集团有限公司 关系型数据库与全文检索相结合的检索方法
CN107870985A (zh) * 2017-10-12 2018-04-03 深圳市金立通信设备有限公司 一种检索信息的方法、服务器及计算机可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陆群 ; .中国网络之门争夺战悄然进行.软件.1998,(09),全文. *

Also Published As

Publication number Publication date
CN111597212A (zh) 2020-08-28

Similar Documents

Publication Publication Date Title
CN106033416B (zh) 一种字符串处理方法及装置
CN108304444B (zh) 信息查询方法及装置
CN109947904B (zh) 一种基于Spark环境的偏好空间Skyline查询处理方法
KR100544514B1 (ko) 검색 쿼리 연관성 판단 방법 및 시스템
US9720986B2 (en) Method and system for integrating data into a database
CN103049575A (zh) 一种主题自适应的学术会议搜索***
CN112115227A (zh) 数据的查询方法、装置、电子设备及存储介质
De Boom et al. Semantics-driven event clustering in Twitter feeds
CA2906767A1 (en) Non-deterministic disambiguation and matching of business locale data
CN115145871A (zh) 文件查询方法、装置和电子设备
CN113220904A (zh) 数据处理方法及数据处理装置、电子设备
CN103226601A (zh) 一种图片搜索的方法和装置
CN109656947B (zh) 数据查询方法、装置、计算机设备和存储介质
CN110705297A (zh) 一种企业曾用名识别方法、***、介质及设备
US20150154195A1 (en) Method for entity-driven alerts based on disambiguated features
CN111597212B (zh) 一种数据检索方法及装置
CN117056477A (zh) 一种案例数据的检索方法、装置、设备及可读存储介质
CN110633430B (zh) 事件发现方法、装置、设备和计算机可读存储介质
CN103891244B (zh) 一种进行数据存储和检索的方法及装置
CN111639099A (zh) 全文索引方法及***
CN106339369B (zh) 一种资料集的同义词识别方法及***
CN110781309A (zh) 一种基于模式匹配的实体并列关系相似度计算方法
US20190303464A1 (en) Directed Data Indexing Based on Conceptual Relevance
CN105224567B (zh) 一种关键字的搜索方法及装置
Zhang et al. An approximate approach to frequent itemset mining

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Country or region after: China

Address after: 15-5, 1st Floor, Building 4, No. 15 Haidian Middle Street, Haidian District, Beijing, 100082

Applicant after: Beijing minglue Zhaohui Technology Co.,Ltd.

Address before: Room 2020, 2nd floor, building 27, 25 North Third Ring Road West, Haidian District, Beijing

Applicant before: BEIJING SUPERTOOL INTERNET TECHNOLOGY LTD.

Country or region before: China

GR01 Patent grant
GR01 Patent grant