CN107102897B

CN107102897B - 一种多gpu并行处理的数据库主动防御方法

Info

Publication number: CN107102897B
Application number: CN201610098118.1A
Authority: CN
Inventors: 秦明; 尹立东; 谢东辉
Original assignee: Shenzhen Know Dome Technology Co Ltd
Current assignee: Shenzhen Know Dome Technology Co Ltd
Priority date: 2016-02-23
Filing date: 2016-02-23
Publication date: 2019-08-23
Anticipated expiration: 2036-02-23
Also published as: CN107102897A

Abstract

本发明公开了一种多GPU并行处理的数据库主动防御技术方法。该方法将所有GPU的显存虚拟化成共享显存，创建为GPU端的全局数组，并在CPU中开设一个共享缓冲区，当共享缓冲区的网络数据包达到启用GPU处理的判断阈值时，把共享缓冲区的数据包同步到GPU端的全局数组中，然后由CPU调度多个GPU的内核处理函数对网络数据包进行处理。本发明在数据库主动防御***面对高并发网络流量时，采用多GPU加速处理，从而获得整体的性能提升，解决了此时CPU面临的高速率和低延迟的问题。

Description

一种多GPU并行处理的数据库主动防御方法

技术领域

本发明涉及访问数据库的网络数据包并行处理技术，尤其涉及一种多GPU并行处理的数据库主动防御方法。

背景技术

随着互联网网速的高速发展，人们对高速率和低延迟的网络访问提出了更高的要求，一方面在CPU上由于随之引入的多线程间通信开销和同步开销，性能提升较小，甚至出现不升反降的现象；另一方面提升CPU处理性能的成本太高。现有利用CPU线程技术实现的数据库主动防御***面对高并发网络流量时已经难以满足数据处理的需求。

发明内容

本发明的目的是针对上述现有技术存在的缺陷，提供一种多GPU并行处理的数据库主动防御方法。

本发明采用的技术方案是，一种多GPU并行处理的数据库主动防御方法，包括下列步骤：

步骤1，初始化：

1.1 根据CPU的处理能力，计算启用GPU处理网络数据包的阀值；

1.2 对所有GPU的计算能力进行分类：预处理GPU组，TCP流重组GPU组，数据库协议解析GPU组，SQL语法解析GPU组,策略匹配GPU组和结果处理GPU组，以便后续的任务调度策略调度；

1.3 将所有GPU 的显存虚拟化成共享显存，通过共享的全局地址空间来实现节点间GPU-to-GPU 通信，并通过内部透明的CPU 端临时全局数组和GPU端全局数组来维护数据一致性，保证通信数据的正确性，而且部分通信操作可以直接与GPU 端全局数组进行传输，减少了内存与显存间的数据传输开销，从而提供一个多GPU 上直接的GPU-GPU 通信接口；

1.4 对GPU的硬件体系结构进行建模，并初始化任务调度策略的相关辅助算法所需资源；

步骤2，启动对网络数据包的分析处理；具体步骤如下：

2.1 判断CPU工作线程判断共享缓冲区中的网络数据包的数量是否达到启用GPU的判定阈值；

2.2 如果共享缓冲区中的网络数据包的数量未达到判定阈值，则由CPU中的工作线程对网络数据包进行预处理、计算处理和结果处理；

2.3 如果共享缓冲区中的网络数据包的数量达到判定阈值，则由CPU中的工作线程从缓冲区取出阈值数量的网络数据包拷贝到预先分配的共享显存，并调用任务调度策略分配预处理任务,并启动预处理GPU组；

2.4 预处理GPU组从全局共享缓存区获取网络数据包，分别对数据包进行协议识别、TCP协议头部解析，并判断数据包中是否含有受保护的数据库的应用层协议和数据，若有，则由任务调度策略分配TCP流重组任务，并启动TCP流重组GPU组；若无，则由任务调度策略直接分配结果处理任务，并启动结果处理GPU组；

2.5 TCP流重组GPU组从全局共享缓存区获取经过预处理的网络数据包，根据所属流的索引号对网络数据包进行流重组，并判断当前流中的网络数据包是否有需要进行数据库协议解析处理的数据包，若有，则由任务调度策略分配数据库协议解析任务，并启动数据库协议解析GPU组；若无，则由任务调度策略直接分配结果处理任务，并启动结果处理GPU组；

2.6 数据库协议解析GPU组从全局共享缓存区获取经过TCP流重组的网络数据包，对数据包携带的数据部分进行解析，对包含的SQL语句进行还原，并判断当前网络数据包携带的数据部分是否对包含的SQL语句组装完成，若是，则由任务调度策略分配SQL语法解析任务，并启动SQL语法解析GPU组；若不是，则由任务调度策略直接分配结果处理任务，并启动结果处理GPU组；

2.7 SQL语法解析GPU组从全局共享缓存区获取经过数据库协议解析的数据缓存（SQL语句），对其进行SQL语法解析，并判断解析结果是否正确，若是，则由任务调度策略分配策略匹配任务，并启动策略匹配GPU组；若不是，则由任务调度策略直接分配结果处理任务，并启动结果处理GPU组；

2.8 策略匹配GPU组从全局共享缓存区获取经过SQL语法解析的数据缓存（语法解析结果集），与预匹配的策略规则进行匹配，并将匹配结果写入全局数据缓存中；由任务调度策略分配结果处理任务，并启动结果处理GPU组；

2.9 结果处理GPU组从全局共享缓存区获取经过处理的数据包的数据缓存，对网络数据包结果处理的转发标志位进行判断，是对当前数据包进行转发还是中止；如果数据包的处理标志位为转发，则由GPU结果处理线程对当前处理数据包直接进行转发处理；如果数据包的处理标志位为中止，则由GPU结果处理线程对发送当前数据包的数据库连接进行阻断；进一步的，GPU结果处理线程对网络数据包结果处理的日志记录标志位进行判断，判断是否记录相关日志（包括记录SQL语句及策略匹配后需要记录的相关的监测日志、审计日志、阻断日志）。

本发明提出一种通过共享缓冲区和多线程协作，充分利用多GPU 的大规模并行计算能力，实现高速率和低延迟地处理访问数据库网络数据包的方法。该方法在数据库主动防御***面对高并发网络流量时，采用多GPU加速处理，从而获得整体的性能提升，解决了此时CPU面临的高速率和低延迟的问题。

附图说明

图1是为本发明CPU和多GPU通信方式的示意图；

图2是为本发明协调利用CPU和多GPU进行网络数据包处理的流程图；

图3是为本发明CPU对多GPU任务调度管理的流程图。

具体实施方式

下面结合附图和实施例对发明进行详细的说明。

现代图形处理器（GPU）由于其超强的计算能力、高速访存带宽、高数据级并行体系结构等特点，作为高性能运算部件在计算环境中得到广泛应用，并使现代计算技术正在逐渐进入数据级并行计算的时代。

数据级并行计算能否在实际应用领域得到越来越广泛的采用，不仅仅取决于所设计和实现的数据级并行算法是否能够在当前的硬件计算环境中获取较高的计算能力，更为基础和重要的是所设计和实现的数据级并行算法是否能够同时在***层面(节点与节点之间)和节点层面(单个节点内部)具有良好的和可持续的可扩展性，即它的性能能够随着计算环境中硬件资源的计算能力和内存带宽的提升而带来几乎线性的性能提升。

本发明的构思是在高并发网络流量的网络中，协调利用CPU和多个GPU进行数据包处理，有效地提高速率和降低延迟，从而使得数据包处理的效率更高，执行速度更快，降低延迟问题。

图1为本发明CPU和多个GPU通信方式的示意图。本发明将所有GPU 的显存虚拟化成共享显存，创建为GPU端的全局数组，并在CPU中开设一个共享缓冲区，当共享缓冲区的网络数据包达到启用GPU处理的判断阈值时，把共享缓冲区的数据包同步到GPU端的全局数组中，然后由CPU调度多个GPU的内核处理函数对网络数据包进行处理。

图2是为本发明协调利用CPU和多GPU进行网络数据包处理的流程图，包括以下步骤：

步骤1，初始化工作。

1.1 判断当前CPU的处理能力，计算启用GPU处理数据包个数的阀值；

1.2 判断所有GPU的计算能力，并根据计算能力进行分类：预处理GPU组，TCP流重组GPU组，数据库协议解析GPU组，SQL语法解析GPU组,策略匹配GPU组和结果处理GPU组，以便后续的任务调度策略调度；

步骤2，启动对网络数据包的分析处理；具体步骤如下：

2.1 CPU工作线程判断共享缓冲区中的网络数据包的数量是否达到启用GPU的判定阈值；

图3是为本发明CPU对多GPU任务调度管理的流程图，其中：

网络数据包缓存区到预处理GPU组处理对应图2中的步骤2.3和2.4；

流重组数据包缓冲区到TCP流重组GPU组处理对应图2中的步骤2.5；

数据库协议解析数据包缓冲区到数据库协议解析GPU组处理对应图2

中的步骤2.6；

SQL语句缓冲区到SQL语法解析GPU组处理对应图2的步骤2.7；

SQL语法解析结果集缓存区到策略匹配GPU组处理对应图2的步骤2.8；

处理结果缓存区到结果处理GPU组处理对应图2中的步骤2.9。

多GPU***级任务调度策略是，首先根据任务的并行度高低、输入规模大小、负载大小三个关键参数将其划分成基本的六类任务类型：

(1)高度的并行性，较小规模的输入数据和较小的负载；

(2)高度的并行性，较大规模的输入数据和较大的负载；

(3) 中等程度的并行性，较小规模的输入数据和较小的负载；

(4) 中等程度的并行性，较大规模的输入数据和较大的负载；

(5)有限的并行性，较小规模的输入数据和较小的负载；

(6)有限的并行性，较大规模的输入数据和较大的负载。

然后提出一种有效的任务调度策略以最优化任务和计算资源之间的匹配。并且通过相应的算法来辅助实现这种任务调度策略。这种任务调度策略由若干相关辅助算法进行实现：第一个是任务打包算法(Packing Task Algorithm，PTA)，为了利用一个GPU能够同时执行多个内核程序的能力，PTA算法能够将一组只能部分利用GPU计算资源的任务打包成能够充分利用GPU计算资源的单个任务。第二个是不考虑处理器权值的***级任务调度算法(System Level Scheduling Algorithm， SLSA)，SLSA算法能够分别将经PTA算法打包后最终形成的并行任务及串行任务分配到相应的节点的并行和串行处理器，以分别达到最小化GPU异构集群所有节点的并行总负载和串行总负载，同时尽可能地提供更好的***层面的负载平衡。第三个是考虑处理器权值的***级任务调度算法(System-Level SchedulingAlgorithm Involving Processors’Weights， WSLSA)，WSLSA算法在SLSA算法的基础上提供了能够考虑处理器权值的能力，这将进一步优化任务的分配结果。PTA算法用于标识出将一组不能充分利用GPU计算资源的任务打包成能够充分利用GPU计算资源的单个任务的方法，以充分利用现代GPU 能够同时执行多个内核程序的能力。SLSA算法能够将给定的一组任务分配到一组给定的处理器，但它不考虑这些处理器之间的计算能力的差别。WSLSA算法在SLSA算法的基础上增加了对于处理器之间的不同计算能力差别的考虑。

当共享缓冲区中的网络数据包的数量达到判定阈值，先经PTA算法形成预处理任务并调度预处理GPU组处理；当网络数据包的缓存速率未超过预处理GPU组处理速率时，由SLSA算法调度各GPU组的工作任务处理线程，否则由WSLSA算法调度各GPU组的工作任务处理线程。

上述实施例仅用于说明本发明的具体实施方式。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和变化，这些变形和变化都应属于本发明的保护范围。

Claims

1.一种多GPU并行处理的数据库主动防御方法，其特征在于，包括下列步骤：

步骤1，初始化：

1.1 根据CPU的处理能力，计算启用GPU处理网络数据包的阀值；

步骤2，启动对网络数据包的分析处理；具体步骤如下：

2.7 SQL语法解析GPU组从全局共享缓存区获取经过数据库协议解析的数据缓存，对其进行SQL语法解析，并判断解析结果是否正确，若是，则由任务调度策略分配策略匹配任务，并启动策略匹配GPU组；若不是，则由任务调度策略直接分配结果处理任务，并启动结果处理GPU组；

2.8 策略匹配GPU组从全局共享缓存区获取经过SQL语法解析的数据缓存，与预匹配的策略规则进行匹配，并将匹配结果写入全局数据缓存中；由任务调度策略分配结果处理任务，并启动结果处理GPU组；

2.9 结果处理GPU组从全局共享缓存区获取经过处理的数据包的数据缓存，对网络数据包结果处理的转发标志位进行判断，是对当前数据包进行转发还是中止；如果数据包的处理标志位为转发，则由GPU结果处理线程对当前处理数据包直接进行转发处理；如果数据包的处理标志位为中止，则由GPU结果处理线程对发送当前数据包的数据库连接进行阻断；进一步的，GPU结果处理线程对网络数据包结果处理的日志记录标志位进行判断，判断是否记录相关日志。

2.如权利要求1所述的方法，其特征在于，步骤1.2 中，对所有GPU的计算能力进行分类的策略是根据任务的并行度高低、输入规模大小、负载大小三个关键参数将其划分成基本的六类任务类型：

高度的并行性，较小规模的输入数据和较小的负载；

高度的并行性，较大规模的输入数据和较大的负载；

中等程度的并行性，较小规模的输入数据和较小的负载；

中等程度的并行性，较大规模的输入数据和较大的负载；

有限的并行性，较小规模的输入数据和较小的负载；

有限的并行性，较大规模的输入数据和较大的负载。