CN109542930A

CN109542930A - 一种基于ElasticSearch的数据高效检索方法

Info

Publication number: CN109542930A
Application number: CN201811365956.6A
Authority: CN
Inventors: 罗志勇; 汪源野; 韩冷; 罗蓉; 郑焕平; 赵杰; 蔡婷; 杨美美
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2018-11-16
Filing date: 2018-11-16
Publication date: 2019-03-29

Abstract

本发明请求保护一种基于ElasticSearch的数据高效检索方法。该方法包括：接收用户输入的第一检索条件，将共享的历史查询结果在ElasticSearch集群中建立索引，在新的第一检索条件请求到达时，首先与历史检索条件进行匹配，若能实现匹配，则直接将匹配部分的历史查询结果直接作为新检索条件请求结果的一部分。本发明利用ElasticSearch搜索引擎，减少了大量对历史查询的重复计算，节省了搜索时间，提高了检索效率。

Description

一种基于ElasticSearch的数据高效检索方法

技术领域

本发明属于数据检索领域，尤其涉及一种基于ElasticSearch的数据高效检索方法。

背景技术

随着信息技术的发展，越来越多的应用或者站点，每个月都会产生TB级别的数据。与此同时，越来越多的需求每天需要处理几PB，几百PB级的数据。，如何高效便捷地获取信息已成为当前互联网服务商亟待解决的问题，搜索***的出现很好的解决了这一问题。搜索***是指能对文本中特定关键字执行检索操作的软件***，通常将能够进行全文检索的软件***称为搜索引擎。但是，目前互联网上常见的各类搜索引擎架构以集中式为主，在容错性、访问效率、可扩展性、I/O方面存在瓶颈，越来越难以应对数据量飞速增加所带来的问题。

ElasticSearch是一款基于Lucene工具包的支持分布式的开源全文检索***，在企业中非常受欢迎，***(Wikipedia)、StackOverflow、Github等公司的全文检索、关键词高亮、实时键入搜索、自动纠错、相关内容推荐等功能都是基于ElasticSearch实现的。除此之外，ElasticSearch也备受创业公司的青睐，它对机器的性能没有较严苛的要求，即使在普通PC机组成的集群中也可以正常运行。

ElasticSearch目前还是一门比较新的技术，在国内的推广度还相当的有限，所以相当多的知识检索***并没有用到该门技术。而ElasticSearch有其独有的全文搜索，结构化检索，搜索纠错，搜索推荐等等丰富的功能能够极大的满足用户的需求。

发明内容

本发明旨在解决以上现有技术的问题。提出了一种提高检索效率的基于ElasticSearch的数据高效检索方法。本发明的技术方案如下：

一种基于ElasticSearch的数据高效检索方法，其包括以下步骤：

a.用户向开源分布式搜索引擎ElasticSearch发起查询请求；

b.对查询请求和历史查询集群进行匹配，所述历史查询集群是历史查询的集合所述匹配有两种情况：完全匹配和不完全匹配；

c.若完全匹配，则根据历史查询结果和继续查询的结果得出第一结果，若不完全匹配，则重新执行查询得到第二结果，查询的第一结果或第二结果反馈给用户；

d.若是不完全匹配，则将查询的第二结果更新历史查询集群。

进一步的，所述步骤a用户向ElasticSearch发起查询请求，所述查询请求包括提取用户在搜索引擎中输入的字符内容，并将查询请求作为第一检索条件。

进一步的，所述ElasticSearch是一款基于Lucene工具包的支持分布式的开源全文检索***，利用该***开源快速搭建一个零配置并且开源高效的搜索引擎，结合与历史查询结果集群，每次与其进行匹配，有相同查询结果的话直接取得该结果而不需要进行一次全局搜索。

进一步的，所述步骤b中对查询请求和历史查询集群进行匹配，匹配有两种情况：完全匹配和不匹配，主要步骤如下：

2.1)如果匹配结果为完全匹配，则表明用户新来的查询请求以前同样出现过，这样以前同样的查询所得到的查询结果可以直接为本次查询所利用；则共享历史同样查询的查询结果，由于历史查询只是对某段时间以前的数据进行的查询，有可能在该历史查询后又有新的数据记录产生，因此对新增的数据仍然需要执行第二次检索查询，第二次检索查询采用历史查询记录加上新的检索条件作为检索条件，第一次是直接拿到的历史查询集群中的结果，为了避免历史集群有新的记录添加到该集群中而获取不到，所以需要再次用利用检索条件进行一次查询，并得出相关结果，将以上两步结果合并，得出第一结果；

2.2)如果匹配结果为不匹配，则表明用户新来的查询请求没有任何历史查询可供匹配，需要重新执行查询；其需要执行全部的查询，并得出第二结果。

本发明的优点及有益效果如下：

本发明采用了上述技术方案后，通过ElasticSearch引擎，以及对新请求进行历史集群的匹配的方法，减少重新针对大数据的集合进行全部查询带来的时间消耗，有效提高了知识搜索效率。本发明的创新点是通过ElasticSearch引擎，以及对新请求进行历史集群的匹配。

附图说明

图1是本发明提供优选实施例知识快速索引方法运行流程图。

图2为新的查询请求与历史查询集群匹配示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。

本发明解决上述技术问题的技术方案是：

本发明提出一种基于ElasticSearch的数据高效检索方法，利用Redis基于内存读写效率高的特性实现知识数据的快速索引。下面结合附图和具体实施方式对本发明作进一步详细说明。

图1给出了本发明知识快速索引方法的运行流程图，具体是这样实现的：

1)用户发起查询请求，主要是获得用户发起请求的查询内容；

2)对查询请求和历史查询集群进行匹配，匹配有两种情况：完全匹配和不匹配。主要步骤如下：

2.1)如果匹配结果为完全匹配，则表明用户新来的查询请求以前同样出现过，这样以前同样的查询所得到的查询结果可以直接为本次查询所利用；其需要共享历史同样查询的查询结果，由于历史查询只是对某段时间以前的数据进行的查询，有可能在该历史查询后又有新的数据记录产生，因此对新增的数据仍然需要执行查询，并得出相关结果，将以上两步结果合并，得出相关结果。与历史查询集群比对的主要有以下步骤：

2.1.1)图2中的P1,P2,P3,P4,P5,P6,U1及U2为历史查询集群中的所有查询条件。找到与新的查询请求的数据源相同的云数据库表；

2.1.2)查找云数据库(表1)下的P1节点，找到后做一标记，并跳到步骤2.1.3；若没有，则退出程序。

2.1.3)继续在2.1.2的基础上往下找节点P6，找到后做一标记，并跳到本步骤；若没有，则退出程序。

2.1.4)重复步骤2.1.3，直到退出程序。

2.2)如果匹配结果为不匹配。则表明用户新来的查询请求没有任何历史查询可供匹配，需要重新执行查询；其需要执行全部的查询，并得出结果。

3)将结果集反馈给用户,将最终得出的结果返回给前端页面进行展示。

4)更新历史查询集群，如果为全新的查询请求，将该查询请求更新到历史查询集群中。

以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.一种基于ElasticSearch的数据高效检索方法，其特征在于，包括以下步骤：

a.用户向开源分布式搜索引擎ElasticSearch发起查询请求；

2.根据权利要求1所述的基于ElasticSearch的数据高效检索方法，其特征在于，所述步骤a用户向ElasticSearch发起查询请求，所述查询请求包括提取用户在搜索引擎中输入的字符内容，并将查询请求作为第一检索条件。

3.根据权利要求1所述的基于ElasticSearch的数据高效检索方法，其特征在于，所述ElasticSearch是一款基于Lucene工具包的支持分布式的开源全文检索***，利用该***开源快速搭建一个零配置并且开源高效的搜索引擎，结合与历史查询结果集群，每次与其进行匹配，有相同查询结果的话直接取得该结果而不需要进行一次全局搜索。

4.根据权利要求1-3之一所述的基于ElasticSearch的数据高效检索方法，其特征在于，所述步骤b中对查询请求和历史查询集群进行匹配，匹配有两种情况：完全匹配和不匹配，主要步骤如下：