CN112035388A

CN112035388A - 一种基于PCI-e通道的高性能加解密方法

Info

Publication number: CN112035388A
Application number: CN202010809501.XA
Authority: CN
Inventors: 朱云; 李元骅; 乐宏彦
Original assignee: Beijing Shudun Information Technology Co ltd
Current assignee: Beijing Shudun Information Technology Co ltd
Priority date: 2020-08-12
Filing date: 2020-08-12
Publication date: 2020-12-04
Anticipated expiration: 2040-08-12
Also published as: CN112035388B

Abstract

一种基于PCI‑e通道的高性能加解密方法，由至少一个FPGA实现，其特征是：所述的FPGA包括一个PCI‑e 3.0核、两个SWITCH模块和若干个算法核组成，所述的PCI‑e 3.0核与SWITCH模块之间有若干个DMA通道负责搬运数据，所述的PCI‑e 3.0核通过物理接口直接与客户机相连，客户机通过PCI‑e 3.0通道与加密卡进行通讯，并且可以通过PCI‑e寄存器指定特定的DMA通道搬运数据；该一种基于PCI‑e通道的高性能加解密方法数据不经控制芯片直接由PCI‑e 3.0接口传入算法核模块处理，达到了减少中间数据传输环节，降低数据最终返回的延迟，提高***性能的有益效果；采用异步传输加缓冲队列的模式和算法核模块内部的数据缓冲区组成双缓冲模式，达到了使算法核模块始终处于工作状态，充分利用了硬件计算能力的有益效果。

Description

一种基于PCI-e通道的高性能加解密方法

技术领域

本发明涉及计算机、信息技术领域，尤其是一种基于PCI-e通道的高性能加解密方法。

背景技术

现有技术中加密卡是将数据包组织成适合加密芯片处理的格式，由驱动程序送入加密模块内部，然后等待加密模块处理后，将处理后的数据经DMA再送至驱动程序，再由驱动程序送给用户程序。在数据流程上，由于加密模块只用于加解密运算，数据由 PCI-e接口传入经由主控芯片再传输给加密模块处理后，再返回给主控芯片，最后由 PCI-e 接口送给用户。主控芯片在加密模块处理时一直等待，等待时间大大多于加密模块处理数据的时间，加密处理完数据后也会等待主控芯片再传入新的数据，所以这种 “等待传输数据 -处理数据 - 等待返回数据”的持续等待模式浪费了加密模块很多处理性能。

发明内容

为了解决现有技术数据传输中间环节和不必要的等待时间，并解决高并发大数据处理中线程冲突，互斥带来的性能降低问题不足，本发明提供了一种基于PCI-e通道的高性能加解密方法，该一种基于PCI-e通道的高性能加解密方法数据不经控制芯片直接由PCI-e 3.0接口传入算法核模块处理，减少了中间数据传输环节，降低了数据最终返回的延迟，提高***性能；采用异步传输加缓冲队列的模式和算法模块内部的数据缓冲区组成双缓冲模式，使算法核模块始终处于工作状态，充分利用了硬件计算能力；采用多通道DMA传输数据，一方面不占用算法核模块计算时间来传输数据，另一方面采用多通道提高了数据传输效率，在大数据量的情况下不会出现等待传输数据情况，保证算法核模块满负荷工作；DMA使用SG（scatter/gather）模式，将多个DMA请求合并，提高了DMA的利用率；各线程相互独立，可以充分利用客户机SMP多核多线程并行运算的优势，最大化算法核模块使用率，使***尽可能工作在最大速度；队列读写采用了互斥锁和原子操作，串行并行操作间采用了内存屏障保证数据的有效、有序性；接收和发送线程之间采用原子变量同步，防止发送溢出。

本发明解决其问题的技术方案是，由至少一个FPGA实现，其中，所述的FPGA包括一个PCI-e 3.0核、两个SWITCH模块和若干个算法核组成，所述的PCI-e 3.0核与SWITCH模块之间有若干个DMA通道负责搬运数据，所述的PCI-e 3.0核通过物理接口直接与客户机相连，客户机通过PCI-e 3.0通道与加密卡进行通讯，并且可以通过PCI-e寄存器指定特定的DMA通道搬运数据；

进一步，该一种基于PCIE加密卡的高性能加解密方法的工作流程为：由多个数据通道组成，其中，每两个DMA通道、一个SWITCH模块、两个算法核模块构成一个数据通道，每个数据通道有三个线程：发送线程、接收线程、回调线程，每个数据通道能独立完成加解密操作，以单个数据通道工作流程为例，

A、发送线程：用户程序发起加解密请求，驱动程序为该请求创建一个任务节点用于记录用户数据地址并分配一个索引节点，索引节点用于记录用户回调函数地址，创建任务节点后将该任务节点挂载到发送队列等待发送；

B、接收线程：接收线程初始化完毕后不断查询是否接收到数据，接收到数据后将接收到的数据拷贝到用户地址，并将相应的任务节点挂载到回调队列中；

C、回调线程：回调线程初始化完毕后不断查询发回调列是否为空，不为空则从队列不断取出任务节点根据任务类型执行相应操作，如果为异步请求则将请求挂载到回调线程队列，由回调线程执行相关操作并释放该请求的内存；

进一步，数据通道数目根据算法核模块DMA通道数决定，以最大限度利用多通道DMA和算法核模块的性能；

进一步，由于用户请求多为异步请求，处理时间也不尽相同，为了快速定位用户回调函数，驱动程序初始化时会建立一个索引表，在发送线程启动DMA发送时会将任务节点地址存放在索引表中，发送数据时会将索引值一起发送给算法核模块，算法核模块处理完毕后会将返回数据和索引值一同返回，这样回调线程可以根据索引值快速的从索引表中取出任务节点，找到相对应的回调函数完成相应的后续处理；

进一步，为了同时高效使用多个计算通道，驱动程序使用了轮询负载均衡算法，在给各通道分配加解密任务时采取轮询调度算法先依次使用第一个算法核模块的DMA通道1、DMA通道2、DMA通道3、DMA通道4，然后第二个算法核模块，以此类推。

本发明的有益效果是：该一种基于PCI-e通道的高性能加解密方法数据不经控制芯片直接由PCI-e 3.0接口传入算法核模块处理，达到了减少中间数据传输环节，降低数据最终返回的延迟，提高***性能的有益效果；采用异步传输加缓冲队列的模式和算法核模块内部的数据缓冲区组成双缓冲模式，达到了使算法核模块始终处于工作状态，充分利用了硬件计算能力的有益效果；采用多通道DMA传输数据，一方面不占用算法核模块计算时间来传输数据，另一方面采用多通道提高了数据传输效率，达到了在大数据量的情况下不会出现等待传输数据情况，保证算法核模块满负荷工作的有益效果；DMA使用SG（scatter/gather）模式，将多个DMA请求合并，达到了提高了DMA的利用率的有益效果；各线程相互独立，可以充分利用客户机SMP多核多线程并行运算的优势，达到了最大化算法核模块使用率，使***尽可能工作在最大速度的有益效果；队列读写采用了互斥锁和原子操作，串行并行操作间采用了内存屏障保证数据的有效、有序性；接收和发送线程之间采用原子变量同步，达到了防止发送溢出的有益效果。

附图说明：

图1为本发明结构示意图；

图2为本发明单个数据通道工作流程框图；

图3为本发明多数据多通道工作流程框图；

图4为本发明回调获取流程框图；

图5为本发明请求分配示意图；

下面结合附图对本发明进一步说明。

具体实施方式：

本发明的具体实施方式是，参照图1，由至少一个FPGA实现，其中，所述的FPGA包括一个PCI-e 3.0核、两个SWITCH模块和若干个算法核模块组成，所述的PCI-e 3.0核与SWITCH模块之间有若干个DMA通道负责搬运数据，所述的PCI-e 3.0核通过物理接口直接与客户机相连，客户机通过PCI-e 3.0通道与加密卡进行通讯，并且可以通过PCI-e寄存器指定特定的DMA通道搬运数据；

参照图2，进一步，该一种基于PCIE加密卡的高性能加解密方法的工作流程为：由多个数据通道组成，每两个DMA通道、一个SWITCH模块、两个算法核模块构成一个数据通道，每个数据通道有三个线程：发送线程、接收线程、回调线程，每个数据通道能独立完成加解密操作，以单个数据通道工作流程为例，

A、发送线程：用户程序发起加解密请求，驱动程序为该请求创建一个任务节点用于记录用户数据地址并分配一个索引节点，索引节点用于记录用户回调函数地址，创建任务节点后将该任务节点挂载到发送队列等待发送；发送线程初始化完毕后不断查询发送队列是否为空，为空则继续查询，不为空的话则从发送队列获取请求点，初始化DMA并启动发送，通过DMA的SG模式将所有发送请求合并发送给算法核模块；

C、回调线程：回调线程初始化完毕后不断查询发回调列是否为空，不为空则从队列不断取出任务节点根据任务类型执行相应操作，如果为异步请求则将请求挂载到回调线程队列，由回调线程执行相关操作并释放该请求的内存；如果为同步请求则直接唤醒用户程序；发送线程、接收线程、回调线程相互独立并且有各自的请求队列，各自工作时互不影响，可充分发挥多核处理器的优势；

参照图3，进一步，数据通道数目根据算法核模块DMA通道数决定，以最大限度利用多通道DMA和算法核模块的性能；每个通道除共享发送队列外相互独立，通道数目可以根据客户机的CPU和算法核模块的性能修改；

参照图,4，进一步，由于用户请求多为异步请求，处理时间也不尽相同，为了快速定位用户回调函数，驱动程序初始化时会建立一个索引表，在发送线程启动DMA发送时会将任务节点地址存放在索引表中，发送数据时会将索引值一起发送给算法核模块，算法核模块处理完毕后会将返回数据和索引值一同返回，这样回调线程可以根据索引值快速的从索引表中取出任务节点，找到相对应的回调函数完成相应的后续处理；

参照图5，进一步，为了同时高效使用多个计算通道，驱动程序使用了轮询负载均衡算法，在给各通道分配加解密任务时采取轮询调度算法先依次使用第一个算法核模块的DMA通道1、DMA通道2、DMA通道3、DMA通道4，然后第二个算法核模块，以此类推，由于每个DMA的通道数据搬运能力一致，采用轮询法既简单有效又能发挥***性能，平衡了负载与性能的关系；该算法具有简洁，无需记录当前所有状态的特性，是一种无状态调度算法。该算法假设所有的操作均需相似的时间，由于加解密的计算负荷相对均衡，所以该均衡算法对于加密模组是一个简单且高效的均衡算法。

上述实施例仅为本发明较佳的实施例，是提供给本领域技术人员来实现和使用本发明的，本领域技术人员可在不脱离本发明的发明思想的情况下，对上述实施例做出种种修改或变化，因而本发明的发明范围并不被上述实施例所限，任何基于本发明思想的修改或变化均在本发明保护范围内。

Claims

1.一种基于PCI-e通道的高性能加解密方法，由至少一个FPGA实现，其特征是：所述的FPGA包括一个PCI-e 3.0核、两个SWITCH模块和若干个算法核组成，所述的PCI-e 3.0核与SWITCH模块之间有若干个DMA通道负责搬运数据，所述的PCI-e 3.0核通过物理接口直接与客户机相连，客户机通过PCI-e 3.0通道与加密卡进行通讯，并且可以通过PCI-e寄存器指定特定的DMA通道搬运数据。

2.根据权利要求1所述的一种基于PCI-e通道的高性能加解密方法，其特征是：该一种基于PCIE加密卡的高性能加解密方法的工作流程为：由多个数据通道组成，其中，每两个DMA通道、一个SWITCH模块、两个算法核模块构成一个数据通道，每个数据通道有三个线程：发送线程、接收线程、回调线程，每个数据通道能独立完成加解密操作，以单个数据通道工作流程为例，

C、回调线程：回调线程初始化完毕后不断查询发回调列是否为空，不为空则从队列不断取出任务节点根据任务类型执行相应操作，如果为异步请求则将请求挂载到回调线程队列，由回调线程执行相关操作并释放该请求的内存。

3.根据权利要求2所述的一种基于PCI-e通道的高性能加解密方法，其特征是：数据通道数目根据算法核模块DMA通道数决定，以最大限度利用多通道DMA和算法核模块的性能。

4.根据权利要求1或2所述的一种基于PCI-e通道的高性能加解密方法，其特征是：由于用户请求多为异步请求，处理时间也不尽相同，为了快速定位用户回调函数，驱动程序初始化时会建立一个索引表，在发送线程启动DMA发送时会将任务节点地址存放在索引表中，发送数据时会将索引值一起发送给算法核模块，算法核模块处理完毕后会将返回数据和索引值一同返回，这样回调线程可以根据索引值快速的从索引表中取出任务节点，找到相对应的回调函数完成相应的后续处理。

5.根据权利要求1或2所述的一种基于PCI-e通道的高性能加解密方法，其特征是：为了同时高效使用多个计算通道，驱动程序使用了轮询负载均衡算法，在给各通道分配加解密任务时采取轮询调度算法先依次使用第一个算法核模块的DMA通道1、DMA通道2、DMA通道3、DMA通道4，然后第二个算法核模块，以此类推。