CN110569312A

CN110569312A - 一种基于gpu的大数据快速检索***及其使用方法

Info

Publication number: CN110569312A
Application number: CN201911073999.1A
Authority: CN
Inventors: 许强; 应晶; 方敏; 余小益; 付超; 马新强; 张智林
Original assignee: Zhejiang Yikang Data Technology Research Institute Co Ltd; Pioneering Huikang Technology Co Ltd; Jiangyin Peoples Hospital
Current assignee: Zhejiang Yikang Data Technology Research Institute Co Ltd; Pioneering Huikang Technology Co Ltd; Jiangyin Peoples Hospital
Priority date: 2019-11-06
Filing date: 2019-11-06
Publication date: 2019-12-13
Anticipated expiration: 2039-11-06
Also published as: CN110569312B

Abstract

本发明涉及数据检索技术领域，公开了一种基于GPU大数据快速检索***及其使用方法，包括多个分布式数据库节点，用于存储数据；GPU模块，连接于每个分布式数据库节点，GPU模块包括GPU任务判断模块、任务创建模块、GPU数据广播模块、通用并行架构模块和GPU运行模块；GPU任务判断模块用于判断查询请求是否能完全或部分运行；任务创建模块用于创建需运行的查询任务；通用并行架构模块用于协调多个查询任务同时运行；GPU运行模块运行查询任务并返回数据。本发明能够使用相对成本较低的GPU硬件辅助计算，处理一般查询、对查询性能要求不高的操作时使用传统CPU运算，能够提供超越纯CPU架构的大数据平台的超高算力。

Description

一种基于GPU的大数据快速检索***及其使用方法

技术领域

本发明涉及数据检索技术领域，尤其涉及了一种基于GPU大数据快速检索***及其使用方法。

背景技术

传统的大数据平台，对大规模数据量的计算分析能力较弱，满足不了大数据领域的实时数据计算需求，大数据平台虽然采用了分布式的集群存储和计算架构，能够将计算任务分散到多个处理计算节点并行运算以提高计算速度与分析能力，解决了大规模数据的处理需求，但计算速度与分析性能受限于计算节点的硬件性能，无法实现大数据的实时处理。

在处理大规模数据的查询分析时，对硬件尤其是CPU的处理性能要求极高，造成了大数据技术架构高昂的硬件成本，在处理一般查询时，高配置的CPU查询又不能够发挥全部的硬件优势，造成算力闲置现象。

发明内容

本发明针对现有技术中硬件要求高、处理效率差的缺点，提供了一种基于GPU大数据快速检索***及其使用方法。

为了解决上述技术问题，本发明通过下述技术方案得以解决

一种基于GPU的大数据快速检索***，包括：

分布式数据存储模块，包括多个分布式数据库节点，用于存储数据；

多个GPU模块，连接于每个分布式数据库节点，GPU模块包括GPU任务判断模块、任务创建模块、GPU数据广播模块、通用并行架构模块和GPU运行模块；GPU任务判断模块用于判断查询请求是否能完全或部分运行；任务创建模块用于创建需运行的查询任务；GPU数据广播模块，用于对多个GPU模块之间建立数据广播链路并同步数据传输消息；通用并行架构模块用于协调多个查询任务同时运行；GPU运行模块运行查询任务并返回数据。

作为优选，任务创建模块中，创建运行任务过程包括创建GPU本地二进制文件的源代码，在执行阶段前启动即时编译进程。

作为优选，GPU运行模块中，运行过程包括提取数据行集装载入直接存储器存储缓存并异步启动存储器传输和GPU内核执行。

作为优选，分布式数据库节点输出的数据为列式存储数据表。

作为优选，GPU运行模块中，还包括过滤、聚合和分组三种处理方式。

作为优选，GPU任务判断模块包括GPU处理器和CPU处理器，用于分配任务、判断运行成本和判断运行任务量。

作为优选，GPU数据广播模块运行过程为在数据发送GPU模块和数据接受GPU模块之间建立广播数据传输链路，同时对余下的GPU模块均与数据发送GPU模块生成转发树，通过转发树对数据传输消息进行发送。

一种基于GPU的大数据快速检索***的使用方法，包括如下步骤：

（1）获取检索任务，***调用GPU任务判断模块对给定查询是否可以在GPU上执行进行判断，判断过程包括：对任务量的是否能在GPU模块运行判断和对是否小于CPU处理器运行成本的判断，如判断结果都为是，则返回结果可以运行，则进入下一步，如不可以运行则跳出；

（2）判断任务是否可以在计算场景执行，如可以则调用GPU创建模块在运行中创建GPU本地二进制文件的源代码，在执行阶段前启动即时编译进程生成GPU可执行程序；

（3）***提取数据行集装载入直接存储器缓存，并异步启动DMA传输和GPU内核执行；

（4）通过GPU通用并行架构模块和GPU运行模块快速执行生成的GPU可执行程序对任务进行查询并返回结果。

作为优选，步骤（1）中，是否能在GPU模块运行判断包括对于SQL查询运算类型判断和对于SQL查询运算规则判断；是否小于CPU处理器运行成本的判断包括与GPU任务判断模块连接的查询优化器，在查询执行计划期间与查询优化器进行交互，选择执行成本较低的CPU处理器或GPU模块上进行运行。

作为优选，步骤（2）中，计算场景包括SCAN，JOIN或GROUP BY中的任何一项。

本发明由于采用了以上技术方案，具有显著的技术效果：本发明能够使用相对成本较低的GPU硬件辅助计算，在处理一般查询、对查询性能要求不高的操作时使用传统CPU运算，当处理高性能查询需求时运用GPU辅助运算，能够提供超越纯CPU架构的大数据平台的超高算力。基于GPU辅助的架构特点，本发明还能够在保证运算能力的前提下有效降低高性能大数据分布式存储计算平台的综合成本。在针对大量数据执行重复性操作时，采用分布式技术架构的大数据平台能够将数据动态均衡负载到各分布式数据库节点，从而能够充分利用各节点所配置的GPU平台的结构特点，将CPU的密集型数据计算工作负载转移至GPU处理，利用GPU的强大并行计算能力快速完成数据检索与计算任务，从而大大缩短大规模数据计算的执行处理时间。

附图说明

图1是本发明一种基于GPU大数据快速检索***及其使用方法的结构示意图；

图2是本发明一种基于GPU大数据快速检索***及其使用方法的查询原理示意图；

图3是本发明一种基于GPU大数据快速检索***及其使用方法的试验结果数据柱状图。

图4是本发明一种基于GPU大数据快速检索***及其使用方法的数据广播链路连接示意图。

具体实施方式

下面结合附图与实施例对本发明作进一步详细描述。

如图1至图4所示，一种基于GPU的大数据快速检索***，包括：

任务创建模块中，创建运行任务过程包括创建GPU本地二进制文件的源代码，在执行阶段前启动即时编译进程。

GPU运行模块中，运行过程包括提取数据行集装载入直接存储器存储缓存并异步启动存储器传输和GPU内核执行。

分布式数据库节点输出的数据为列式存储数据表。

GPU运行模块中，还包括过滤、聚合和分组三种处理方式。

GPU任务判断模块包括GPU处理器和CPU处理器，用于分配任务、判断运行成本和判断运行任务量。

GPU数据广播模块运行过程为在数据发送GPU模块和数据接受GPU模块之间建立广播数据传输链路，同时对余下的GPU模块均与数据发送GPU模块生成转发树，通过转发树对数据传输消息进行发送。

传统环模式计算分配由于每个链路都是双向的，如图4a所示，可构建两个环：从一个环开始是 A-> B-> D-> C-> A，另一个反方向是 A-> C-> D-> B-> A。要做广播 A 可以将数据分成两部分，并在每个环上发送一个部分。因此，如果数据大小为 n 并且链路带宽大小为 b，则所花费的时间将是 n 除以 2b，但是A < - > D 和 B < - > C（虚线表示）的两个交叉链接没有被有效利用起来。

为实现更高的GPU链路利用率，加快速度传输，借鉴使用基于广播的数据传输方案的协议，充分利用相连的 GPU 组来实现更高效率。该策略旨在克服拓扑异构性的困难，这种困难是由于使用的 GPU 数量不同、硬件层的异构性，多机器训练而引起的。在图4b展示了一个基于广播的数据传输模式，在这种情况下，从 GPU A 发送到 GPU B 的数据，然后再被广播到 GPU C 和 GPU D，可构造三个这样的转发树，因此链路利用率提高，并且所花费的总时间变为 n 除以 3b。通过上述并行运算架构的应用，在GPU辅助运算中，能够发挥GPU集群的超高算力，大幅提升运算效率，减少执行运算的耗时。

步骤（1）中，是否能在GPU模块运行判断包括对于SQL查询运算类型判断和对于SQL查询运算规则判断；是否小于CPU处理器运行成本的判断包括与GPU任务判断模块连接的查询优化器，在查询执行计划期间与查询优化器进行交互，选择执行成本较低的CPU处理器或GPU模块上进行运行。

SQL查询运算类型判断例如数据类型必须是数字类型，日期和时间类型，可变长度字符串。SQL查询运算规则判断；运算符支持算术运算，比较运算符和一些内置运算符。

是否小于CPU处理器运行成本中，如果此估算成本比在CPU上运行的其他查询执行计划要好，则选择在GPU设备上运行替代查询执行计划，否则在CPU设备上运行传统查询执行计划。

步骤（2）中，计算场景包括SCAN，JOIN或GROUP BY中的任何一项。

存储管理器中储存了查询所需的数据，CPU将查询语句所需的数据分配到不同的GPU计算单元中，GPU计算单元通过存储管理器中的共享缓存直接读取数据，此处的数据由GPU通过PCI-E总线直接读取而无需到存储管理器外的机器缓存中读取，减少了机器缓存重新加载存储管理器里数据的延迟。Query查询语句在执行前经过用户自定义扫描的过滤，能够转移到GPU模块里的查询操作将会通过GPU扫描后经过二进制解析建表并排序后形成GPU中可执行的GPU代码。此时的GPU任务通过CPU控制的消息总线经行进程调度，GPU程序管理器取消息总线中的GPU任务进程分配到不同的GPU运算模块中进行并行计算。

本发明能够使用相对成本较低的GPU硬件辅助计算，在处理一般查询、对查询性能要求不高的操作时使用传统CPU运算，当处理高性能查询需求时运用GPU辅助运算，能够提供超越纯CPU架构的大数据平台的超高算力。基于GPU辅助的架构特点，本发明还能够在保证运算能力的前提下有效降低高性能大数据分布式存储计算平台的综合成本。在针对大量数据执行重复性操作时，采用分布式技术架构的大数据平台能够将数据动态均衡负载到各分布式数据库节点，从而能够充分利用各节点所配置的GPU平台的结构特点，将CPU的密集型数据计算工作负载转移至GPU处理，利用GPU的强大并行计算能力快速完成数据检索与计算任务，从而大大缩短大规模数据计算的执行处理时间。

实施例

如图3所示，以一个的管理信息分析***查询为例，该***中包含100GB的数据，执行40个典型的复杂报表查询，基于GPU的大数据快速检索***和传统数据库性能对比如图所示，查询响应时间可减少到传统数据库的四分之一左右。

总之，以上所述仅为本发明的较佳实施例，凡依本发明申请专利范围所作的均等变化与修饰，皆应属本发明专利的涵盖范围。

Claims

1.一种基于GPU的大数据快速检索***，其特征在于：包括：

2.根据权利要求1所述的一种基于GPU的大数据快速检索***，其特征在于：任务创建模块中，创建运行任务过程包括创建GPU本地二进制文件的源代码，在执行阶段前启动即时编译进程。

3.根据权利要求1所述的一种基于GPU的大数据快速检索***，其特征在于：GPU运行模块中，运行过程包括提取数据行集装载入直接存储器存储缓存并异步启动存储器传输和GPU内核执行。

4.根据权利要求1所述的一种基于GPU的大数据快速检索***，其特征在于：分布式数据库节点输出的数据为列式存储数据表。

5.根据权利要求1所述的一种基于GPU的大数据快速检索***，其特征在于：GPU运行模块中，还包括过滤、聚合和分组三种处理方式。

6.根据权利要求1所述的一种基于GPU的大数据快速检索***，其特征在于：GPU任务判断模块包括GPU处理器和CPU处理器，用于分配任务、判断运行成本和判断运行任务量。

7.根据权利要求1所述的一种基于GPU的大数据快速检索***，其特征在于：GPU数据广播模块运行过程为在数据发送GPU模块和数据接受GPU模块之间建立广播数据传输链路，同时对余下的GPU模块均与数据发送GPU模块生成转发树，通过转发树对数据传输消息进行发送。

8.一种如权利要求1~7任一项所述的基于GPU的大数据快速检索***的使用方法，其特征在于，包括如下步骤：

9.根据权利要求8所述的一种基于GPU的大数据快速检索***的使用方法，其特征在于：步骤（1）中，是否能在GPU模块运行判断包括对于SQL查询运算类型判断和对于SQL查询运算规则判断；是否小于CPU处理器运行成本的判断过程包括与GPU任务判断模块连接的查询优化器，在查询执行计划期间与查询优化器进行交互，选择执行成本较低的CPU处理器或GPU模块上进行运行。

10.根据权利要求8所述的一种基于GPU的大数据快速检索***的使用方法，其特征在于：步骤（2）中，计算场景包括SCAN，JOIN或GROUP BY中的任何一项。