CN106649828A

CN106649828A - 一种数据查询方法及***

Info

Publication number: CN106649828A
Application number: CN201611248518.2A
Authority: CN
Inventors: 禹熹; 周继恩; 冯兴; 王颖卓; 方亚超; 叶炜
Original assignee: China Unionpay Co Ltd
Current assignee: China Unionpay Co Ltd
Priority date: 2016-12-29
Filing date: 2016-12-29
Publication date: 2017-05-10
Anticipated expiration: 2036-12-29
Also published as: CN106649828B

Abstract

本发明实施例公开了一种数据查询方法及***，包括：接收业务***发送的查询请求消息，根据待查询数据记录的查询信息，以及查询信息与数据引擎的对应关系，确定出与待查询数据记录对应的目标数据引擎，进而查询目标数据引擎中的数据记录，得到待查询数据记录。由于数据记录的查询信息包括数据记录的查询并发量和查询条件数量，且查询信息与数据引擎具有对应关系，可见，查询并发量和查询条件数量不同的数据记录可对应不同的数据引擎。因而，根据查询信息与数据引擎之间的对应关系确定出待查询数据记录的目标数据引擎，再通过确定出的目标数据引擎，查询其中的数据记录，可充分利用不同数据引擎的优势，从而有效提高数据查询的效率。

Description

一种数据查询方法及***

技术领域

本发明涉及数据处理技术领域，尤其涉及一种数据查询方法及***。

背景技术

随着大数据时代的到来，各业务***中的数据量日趋庞大，大数据的查询应用变得越来越普遍。由于查询效率直接影响查询***的响应时间，面对日益增长的海量数据，如何实现高效、准确、实时的数据查询已成为业界亟待解决的重要问题。

目前，各业务***中通常采用关系型数据库来存储业务数据，但是关系型数据库横向扩展能力差，扩容的成本高，而且很难做分布式扩展。当数据库中存储海量数据时，会出现由于数据库占用资源过多，而使得进行数据查询时，数据库的响应较慢、读写访问性能较差。

为了解决这个问题，现有技术中，可通过对数据库进行分区，将数据切分到不同的库和不同的表中，以避免数据库的单个表中存储过多的数据。然而，即使对数据库进行了分区处理，由于在对数据进行写入和读取的时，需要处理复杂的分库分表逻辑，当数据库中存储海量数据时，表的数量过多，仍然会使得数据库的访问性能变差，数据查询的效率较低，而且使数据库的管理和运维变得很复杂。

综上，目前亟需一种数据查询方法，以提高的数据查询的效率。

发明内容

本发明提供一种数据查询方法及***，用于解决现有技术中数据库的访问性能较差，数据查询效率较低的技术问题。

本发明实施例提供的一种数据查询方法，包括：

接收业务***发送的查询请求消息，所述查询请求消息包括待查询数据记录的查询信息；所述待查询数据记录的查询信息包括所述待查询数据记录对应的查询并发量和查询条件数量；

根据所述待查询数据记录的查询并发量和查询条件数量以及所述查询信息和数据引擎的对应关系，确定与所述待查询数据记录的查询信息对应的目标数据引擎；

查询所述目标数据引擎中的数据记录，得到所述待查询数据记录。

可选地，所述目标数据引擎中的数据记录是通过以下方式导入的：

接收联机***发送的第N条数据记录，并将所述第N条数据记录存储在数据缓冲区；

从所述数据缓冲区获取所述第N条数据记录以及所述第N条数据记录的查询信息；

根据所述第N条数据记录的查询信息，以及所述查询信息和数据引擎的对应关系，将所述第N条数据记录存储到所述目标数据引擎中。

可选地，根据所述第N条数据记录的查询信息，以及所述查询信息和数据引擎的对应关系，将所述第N条数据记录存储到所述目标数据引擎中，包括：

若所述第N条数据记录的查询信息为查询并发量大于等于预设查询并发量，且查询条件数量小于等于预设查询条件阈值，则根据所述查询信息和数据引擎的对应关系，将Hbase数据引擎确定为所述目标数据引擎，并将所述第N条数据记录存储到Hbase数据引擎中；

若所述第N条数据记录的查询信息为查询并发量小于预设查询并发量，或查询条件数量大于等于预设查询条件阈值，则根据所述查询信息和数据引擎的对应关系，将Impala数据引擎确定为所述目标数据引擎，并将所述第N条数据记录存储到Impala数据引擎中。

可选地，根据所述第N条数据记录的查询信息，以及所述查询信息和数据引擎的对应关系，将所述第N条数据记录存储到所述目标数据引擎中之后，还包括：

接收所述联机***发送的批量数据记录；

根据所述批量数据记录的查询信息，确定所述批量数据记录对应的目标数据引擎；

将所述目标数据引擎中存储的与所述批量数据记录对应的数据记录替换为所述批量数据记录。

可选地，所述目标数据引擎包括M个集群节点，M为大于等于1的整数。

基于同样的发明构思，本发明实施例进一步提供一种数据查询***，包括：

接收模块，用于接收业务***发送的查询请求消息，所述查询请求消息包括待查询数据记录的查询信息；所述待查询数据记录的查询信息包括所述待查询数据记录对应的查询并发量和查询条件数量；

确定模块，用于根据所述待查询数据记录的查询并发量和查询条件数量以及所述查询信息和数据引擎的对应关系，确定与所述待查询数据记录的查询信息对应的目标数据引擎；

处理模块，用于查询所述目标数据引擎中的数据记录，得到所述待查询数据记录。

可选地，所述接收模块还用于：

所述处理模块还用于：

从所述数据缓冲区获取所述第N条数据记录以及所述第N条数据记录的查询信息；以及，

可选地，所述处理模块具体用于：

可选地，所述接收模块还用于：

接收所述联机***发送的批量数据记录；

所述处理模块还用于：

本发明实施例，通过接收业务***发送的查询请求消息，根据查询请求消息中包含的待查询数据记录的查询信息，以及查询信息与数据引擎的对应关系，确定出与待查询数据记录的查询信息对应的目标数据引擎，进而可通过查询目标数据引擎中的数据记录，得到待查询数据记录。由于数据记录的查询信息包括数据记录的查询并发量和查询条件数量，且查询信息与数据引擎具有对应关系，可见，查询并发量和查询条件数量不同的数据记录可对应不同的数据引擎。因而，根据查询并发量和查询条件数量以及与数据引擎之间的对应关系确定出待查询数据记录的目标数据引擎，再通过确定出的目标数据引擎，查询目标数据引擎中的数据记录，可充分利用不同数据引擎的优势，从而有效提高数据查询的效率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中的一种数据查询方法所对应的流程示意图；

图2为本发明实施例中的数据记录的实时导入流程所对应的流程示意图；

图3为本发明实施例中的批量数据记录导入流程所对应的流程示意图；

图4为本发明实施例中一种数据查询***的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例，仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

本发明实施例中的数据查询方法可应用于大数据***，所述大数据***中包括一个或多个数据引擎，所述数据引擎具体用于存储数据记录，以及对存储的数据记录进行查询等处理操作。

具体的，所述数据引擎可以为多种类型的数据引擎，如非关系型NoSQL数据库Hbase数据引擎或MPP数据库Impala数据引擎，也可以为其他类型的数据引擎，此处不做限制。

本发明实施例中，所述大数据***可以与一个或多个联机***连接。其中，所述联机***可以为多种类型的联机***，其进行的业务处理的内容可由本领域技术人员根据实际需要设置，此处不做限制。而且，所述联机***可在进行业务处理的同时，实时产生或更新其源数据库中的数据记录。

因此，为了避免大数据***进行的数据查询等处理操作影响联机***的业务处理，大数据库中的数据记录可与联机***的源数据库中的数据记录独立存储。本发明实施例中，大数据***可从联机***的源数据库获取数据记录的副本，以实现数据记录查询。

本发明实施例中，所述大数据***可与一个或多个业务***连接。其中，任一业务***均可通过所述大数据***中相应的接口发送查询请求消息的方式，查询大数据***中已存储的数据记录。

下面结合说明书附图对本发明实施例做进一步详细描述。

图1为本发明实施例提供的一种数据查询方法所对应的流程示意图，如图1所示，包括以下步骤101至步骤103：

步骤101：接收业务***发送的查询请求消息，所述查询请求消息包括待查询数据记录的查询信息；所述待查询数据记录的查询信息包括所述待查询数据记录对应的查询并发量和查询条件数量；

步骤102：根据所述待查询数据记录的查询并发量和查询条件数量以及所述查询信息和数据引擎的对应关系，确定与所述待查询数据记录的查询信息对应的目标数据引擎；

步骤103：查询所述目标数据引擎中的数据记录，得到所述待查询数据记录。

由于数据记录的查询信息包括数据记录的查询并发量和查询条件数量，且查询信息与数据引擎具有对应关系，可见，查询并发量和查询条件数量不同的数据记录可对应不同的数据引擎。因而，根据查询并发量和查询条件数量以及与数据引擎之间的对应关系确定出待查询数据记录的目标数据引擎，再通过确定出的目标数据引擎，查询目标数据引擎中的数据记录，可充分利用不同数据引擎的优势，从而有效提高数据查询的效率。

具体来说，步骤201中，大数据***中包括数据查询客户端，所述数据查询客户端具有一个或多个接口。因而，业务***可以通过大数据***的数据查询客户端的相应的接口向数据查询服务发送查询请求消息。

其中，所述查询请求消息中包括待查询数据记录的查询信息，即所述待查询数据记录对应的查询并发量和查询条件，用以表示所述待查询数据记录的业务应用场景。所述业务***可以为一个或多个，不同的业务***对应的数据查询客户端的接口可以相同，也可以不相同，此处不做限制。

大数据***中还可包括数据查询服务，所述数据查询服务具备数据引擎适配功能。进而，在步骤202和203中，数据查询服务接收到查询请求消息后可根据待查询数据记录的查询信息，以及查询信息和数据引擎的对应关系，确定出待查询数据记录所在的目标数据引擎。

进一步地，步骤103中，大数据***可通过确定出的目标数据引擎的相应访问接口，查询并获取待查询数据记录。

由于上述待查询数据记录可在业务***发出查询请求消息之前，根据待查询数据记录对应的业务应用场景即查询并发量和查询条件的数量，以及业务应用场景与数据引擎的对应关系，将待查询数据记录存储到对应的目标数据引擎中，因而，查询时可以充分发挥不同数据引擎的优势，提高数据查询的效率。

以银联***一年中交易明细数据的查询为例，若通过***和时间进行交易明细查询，90％左右的数据查询请求可以在10ms内完成，97％左右的数据查询请求可以在1s内完成。

本发明实施例中，大数据***在为各个业务***提供数据查询服务的同时，可以实时导入的方式从联机***的源数据库中获取数据记录，并存储到目标数据引擎中。

在所述大数据***与联机***连接之后，大数据***即可从联机***的源数据库中实时导入数据记录。由于数据记录一般情况下都较多，下面以联机***发送的第N条数据记录为例，详细说明数据记录的实时导入流程。

图2为本发明实施例中数据记录的实时导入流程所对应的流程示意图，如图2所示，包括如下步骤201至203：

步骤201：接收联机***发送的第N条数据记录，并将所述第N条数据记录存储在数据缓冲区；

步骤202：从所述数据缓冲区获取所述第N条数据记录以及所述第N条数据记录的查询信息；

步骤203：根据所述第N条数据记录的查询信息，以及所述查询信息和数据引擎的对应关系，将所述第N条数据记录存储到所述目标数据引擎中。

具体来说，大数据***可通过数据接入层接收联机***发送的第N条数据记录，并将所述第N条数据记录转化为预设的数据格式。由于不同的联机***产生和发送实时数据记录的方式不同，为了便于大数据***对接收到的数据记录进行后续处理，大数据***可将从不同联机***接收到的数据记录通过相应的适配器转化为预设数据格式。本发明实施例中，所述预设数据格式可以由本领域技术人员根据实际需要设置，此处不做限制。

由于大数据***接收和处理数据记录的速率可能不同，因而，所述大数据***将接收到的第N条数据记录转化为预设数据格式后，可将第N条数据记录存储在数据缓冲区中，以提高数据记录接收的可靠性，并可有效避免数据记录的接收与后续数据记录处理之间的相互影响。

本发明实施例中，所述数据缓冲区可以采用持久化的存储介质。因此，即使大数据***在数据记录的处理过程中出现异常，数据记录不会丢失，仍可以从数据缓冲区中读取数据记录进行再次处理。

此外，由于与所述大数据***连接的联机***中的产生数据记录的速率可能较快，而且数据量较大，因而，所述数据缓冲层应具备较大的数据吞吐量，比如说，采用可横向扩展的数据缓冲层，通过增加节点提高数据处理能力。

在步骤202中，所述大数据***中的流式数据处理层可从数据缓冲区中获取所述第N条数据记录，并根据所述第N条数据记录相关的业务要求进行相应的数据处理。

根据数据处理的复杂程度和耗时情况的不同，所述流式数据处理层可以采用多种类型的处理结构。比如说，所述流式数据处理层可以采用单进程或进程内部多线程并发的处理结构，也可以采用分布式、使用流式处理框架的多进程协作实时处理的架构，此处不做限制。

进而，步骤203中，可根据第N条数据记录的查询信息和数据引擎的对应关系，将处理后的第N条数据记录存储到数据存储层中的目标数据引擎中。

其中，所述目标数据引擎通过分布式技术构建，并具有横向扩展能力，也就是说，所述目标数据引擎可包括M个集群节点，M为大于等于1的整数。当目标数据引擎需要存储海量的数据记录的情况下，可以通过增加集群节点的数量以提高整个大数据***数据处理的能力。例如，一个包括60个节点的小型Hbase集群，可用于管理包含36个字段的银联一年的交易明细数据，并对外提供性能优异的查询服务。在更多数据量的请况下，可进一步增加Hbase集群的节点，以支持查询服务的性能。

本发明实施例中，数据存储层包含有多个不同类型的数据引擎，由于不同类型的数据引擎存储和查询数据记录的方式不同，因而，不同类型的数据引擎的数据处理能力也不同，将不同业务应用场景的数据记录分别存储在不同类型的数据引擎中，可充分利用数据引擎的特性，提高数据记录导入和查询的效率。

具体的，大数据***根据第N条数据记录的查询信息，以及所述查询信息和数据引擎的对应关系，可将第N条数据记录存储到对应的，目标数据引擎中。其中，所述数据记录的查询信息包括查询并发量和查询条件数量，用于表示该数据记录对应的业务应用场景。

若所述第N条数据记录的查询信息为查询并发量大于等于预设查询并发量，且查询条件数量小于等于预设查询条件阈值，则根据所述查询信息和数据引擎的对应关系，将Hbase数据引擎确定为目标数据引擎，并将所述第N条数据记录存储到Hbase数据引擎中；

若所述第N条数据记录的查询信息为查询并发量小于预设查询并发量，或查询条件数量大于等于预设查询条件阈值，则根据所述查询信息和数据引擎的对应关系，将Impala数据引擎确定为目标数据引擎，并将所述第N条数据记录存储到Impala数据引擎中。

其中，所述数据记录的查询信息可以为大数据***从联机***的源数据库中接收的，也可以为大数据***根据接收到的数据记录自行确定的，此处不做限制；而且，所述预设查询并发量和所述预设查询条件阈值均可由本领域技术人员根据实际需要设置，此处不做限制。

需要指出的是，所述查询信息中还可包括查询性能要求。若所述第N条数据记录对应的查询性能大于预设性能要求阈值，则可根据查询性能要求与数据引擎的对应关系，将Hbase数据引擎确定为目标数据引擎，并将所述第N条数据记录存储到Hbase数据引擎中。

举例来说，银联***中面向外部持卡人、商户等高并发、高性能要求的查询数据，如银联CUPS清算明细可存储在Hbase数据引擎中进行处理，而面向内部管理***、查询条件丰富的数据可存储在Impala数据引擎中进行处理，以充分发挥各个数据引擎的长处和优点。

为了进一步提高数据记录实时导入的可靠性，所述大数据***在从联机***的源数据库中实时导入数据记录的流程，还可包括分布式事务的处理，在实时的数据记录写入出现异常的情况下，可进行事务回退，并重新写入数据。

由于联机***的源数据库中还存在着某些通过批量后台上传处理的脱机的数据记录，这些脱机的数据记录并不能通过实时导入流程导入到数据引擎中。因此，为了实现数据存储层的各数据引擎中所存储数据记录的不重不漏，所述大数据***还可采用日终时从联机***中导入批量数据记录的方式，补上或擦去实时导入流程中因网络或***异常而丢失或重复写的数据记录。

图3为本发明实施例中的批量数据记录导入流程所对应的流程示意图，如图3所示，批量数据导入流程包括如下步骤301至303：

步骤301：接收所述联机***发送的批量数据记录；

步骤302：根据所述批量数据记录的查询信息，确定所述批量数据记录对应的目标数据引擎；

步骤303：将所述目标数据引擎中存储的与所述批量数据记录对应的数据记录替换为所述批量数据记录。

具体来说，步骤301中，大数据***可使用ETL(Extract-Transform-Load)工具从联机***的源数据库中抽取批量数据记录，并将所述批量数据记录存储到中间数据存储区中。其中，所述ETL工具可以为多种类型的ETL工具，例如，Informatica、Datastage等，本领域技术人员可根据实际需要选择合适的ETL工具，此处不做限制。

相应地，所述中间数据存储区也可以为多种类型的数据存储区。本发明实施例中，由于采用了Hbase和Impala两种数据引擎，因而，中间数据存储区可采用与所述数据引擎相匹配的Hadoop分布式文件***。当然，在大数据***采用其他数据引擎的情况下，中间数据存储区也可采用其他类型的数据存储形式，此处不做限制。

随后，在步骤302中，大数据***可将获取到的批量数据记录进行加工转化处理后，根据查询信息即查询并发量和查询条件数量，以及查询信息和数据引擎的对应关系，从数据存储中的多个数据引擎中确定出所述批量数据记录对应的目标数据引擎，并将所述批量数据记录存储到对应的目标数据引擎中，以替换所述目标数据引擎中原有的数据记录。

具体的，针对批量数据记录中的每一条数据记录，所述大数据***可将所述每一条数据记录进行处理，并根据其查询信息，即查询并发量和查询条件的数量，将所述每一条数据记录存储到对应的目标数据引擎中。其中，所述批量数据记录的加工转化处理包括对批量数据记录文件的格式处理，以及对批量数据记录中每一条数据记录对应的业务处理。

需要说明的是，为了提高批量数据导入流程的处理性能，大数据***可以采用并发形式处理批量数据的抽取和加工处理过程，因而，本发明实施例中，采用MapReduce并行数据处理框架进行数据的抽取和加工处理，有效缩短批量数据导入的时间。

基于同样的发明构思，本发明实施例进一步提供了一种数据查询***，如图4所示，所述***400包括：

接收模块401，用于接收业务***发送的查询请求消息，所述查询请求消息包括待查询数据记录的查询信息；所述待查询数据记录的查询信息包括所述待查询数据记录对应的查询并发量和查询条件数量；

确定模块402，用于根据所述待查询数据记录的查询并发量和查询条件数量以及所述查询信息和数据引擎的对应关系，确定与所述待查询数据记录的查询信息对应的目标数据引擎；

处理模块403，用于查询所述目标数据引擎中的数据记录，得到所述待查询数据记录。

可选地，所述接收模块401还用于：

所述处理模块403还用于：

可选地，所述处理模块403具体用于：

可选地，所述接收模块401还用于：

接收所述联机***发送的批量数据记录；

所述处理模块403还用于：

由上述内容可以看出：

本领域内的技术人员应明白，本发明的实施例可提供为方法、***、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或两个以上其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或两个以上流程和/或方框图一个方框或两个以上方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或两个以上流程和/或方框图一个方框或两个以上方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或两个以上流程和/或方框图一个方框或两个以上方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种数据查询方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述目标数据引擎中的数据记录是通过以下方式导入的：

3.根据权利要求2所述的方法，其特征在于，根据所述第N条数据记录的查询信息，以及所述查询信息和数据引擎的对应关系，将所述第N条数据记录存储到所述目标数据引擎中，包括：

4.根据权利要求2所述的方法，其特征在于，根据所述第N条数据记录的查询信息，以及所述查询信息和数据引擎的对应关系，将所述第N条数据记录存储到所述目标数据引擎中之后，还包括：

接收所述联机***发送的批量数据记录；

5.根据权利要求1至4中任一项所述的方法，其特征在于，所述目标数据引擎包括M个集群节点，M为大于等于1的整数。

6.一种数据查询***，其特征在于，所述***包括：

7.根据权利要求6所述的***，其特征在于，所述接收模块还用于：

所述处理模块还用于：

8.根据权利要求7所述的***，其特征在于，所述处理模块具体用于：

9.根据权利要求7所述的***，其特征在于，所述接收模块还用于：

接收所述联机***发送的批量数据记录；

所述处理模块还用于：

10.根据权利要求6至9中任一项所述的***，其特征在于，所述目标数据引擎包括M个集群节点，M为大于等于1的整数。