CN103475469A

CN103475469A - 一种结合cpu和gpu实现sm2算法的方法及装置

Info

Publication number: CN103475469A
Application number: CN2013104083121A
Authority: CN
Inventors: 林璟锵; 荆继武; 蔡权伟; 顾青; 谢超; 江伟玉; 梁佐泉
Original assignee: Shanghai Chrust Information Technology Co ltd; Data Assurance and Communication Security Research Center of CAS
Current assignee: Shanghai Chrust Information Technology Co ltd; Data Assurance and Communication Security Research Center of CAS
Priority date: 2013-09-10
Filing date: 2013-09-10
Publication date: 2013-12-25

Abstract

本发明公开了一种结合CPU和GPU实现SM2算法的方法及装置，本发明采用CPU和GPU协作方式进行SM2算法，将SM2算法中的计算量比较大的椭圆曲线多倍点运算步骤在GPU预先计算得到结果并存储在设置的存储器中，然后由CPU根据SM2算法步骤对SM2算法的输入数据顺序计算时，调用存储器存储的预先计算得到的结果，从而节省了对SM2算法的输入数据进行SM2算法的计算时间，提高了SM2算法的计算效率。

Description

一种结合CPU和GPU实现SM2算法的方法及装置

技术领域

本发明涉及公钥密码算法技术，特别涉及一种结合中央处理器（CPU）和图形处理器（GPU，Graphics Processing Unit）实现SM2算法的方法及装置。

背景技术

采用多核并行计算是提升处理器性能的重要方式，因此出现了包括海量并行结构运算单元的GPU，GPU已经发展成为了并行度高、多线程、计算快捷及内存带宽大的高性能通用处理器。GPU体系结构在组成上分为三层：第一层由若干个线程处理器簇（TPC，Thread Preocessing Cluster）组成，第二层由多个流多处理器（SM，Streaming Multiprocessor）组成，第三层为构成SM的流处理器（SP，Stream Processor），也可以称为线程处理器。SM作为GPU的一个任务执行和调度单元，主要负责执行GPU分发的线程指令，而SP是GPU中最基本的指令执行单元，其执行的操作由所属的SM控制。

2006年NVIDIA公司推出了计算机一体设备结构（CUDA，ComputeUnified Device Architecture）可编程平台，可以实现GPU线程的调度。在CUDA可编程平台架构下，GPU执行的最小单位是线程（thread），数个线程（thread）可以组成一个线程块（block）。一个block中的thread可以存取同一共享内存且同步。执行相同程序的thread，组成栅格（grid），不同的grid可以执行不同的程序。

相对于中央处理器（CPU），GPU具有强大的数据处理能力，在浮点运算及并行计算等方面，提高几十倍甚至数百倍于CPU的性能。GPU具有几千个核，有很高的并行性，但是每个SM相比CPU处理能力比较弱。CPU计算能力强，但是核数比较少。因此，采用何种CPU和GPU协作方式进行构架，完成各种计算，以提高***整体计算能力，是一个亟待解决的问题。

椭圆曲线公钥密码（SM2）算法，是中国国家密码管理局发布的密码算法。该SM2算法，基于椭圆曲线离散对数问题，是目前公认的安全有效的公钥密码算法之一。椭圆曲线公钥密码涉及两个主要运算：椭圆曲线上的点加运算和多倍点运算。在椭圆曲线多倍点运算中Q=[k]P=P+P+...+P，其中基点P是椭圆曲线E上阶为N的点，k为正整数，P的k倍点为Q，P的k倍点也是椭圆曲线上的点，已知多倍点Q与基点P，求解倍数k的问题称为椭圆曲线离散对数问题。

在SM2算法中包括数字签名算法、密钥交换协议算法及加密算法等都需要进行椭圆曲线多倍点运算，椭圆曲线多倍点运算的效率直接影响了SM2算法中的数字签名算法、密钥交换协议算法及加密算法的计算效率。

SM2算法的数字签名算法、密钥交换协议和加密算法的具体过程如下所述。

SM2算法的数字签名生成算法

设待签名的消息为M，为了获取消息M的数字签名(r,s)，作为签名者的用户A实现以下运算步骤：

A1：置

Z_A‖M表示Z_A与M的拼接;

A2：计算

将e的数据类型转换为整数；

A3：产生随机数k∈[1,n-1];

A4：计算椭圆曲线点（x,y）=[k]G；

A5：计算r=(e+x)mod n，若r=0或r+k=n则返回A3；

A6：计算s=((1+d_A)^-1·(k-r·d_A))mod n,若s=0则返回A3；

A7：将r、s的数据类型转换为字节串，消息M的签名为(r,s)。

其中：H_V：消息摘要长度为v比特的密码杂凑函数；G：椭圆曲线上的一个基点，其阶为素数；n：基点G的阶；d_A：用户A的私钥；[k]G：椭圆曲线上点G的k倍点，即，[k]G=G+G…+G，表示k个G在椭圆曲线域上相加。

在该算法中，在步骤A3和步骤A4采用了椭圆曲线多倍点运算。

SM2算法中的密钥交换协议算法

设用户A和用户B协商获得密钥数据的长度为klen比特，用户A为发起方，用户B为响应方。用户A和用户B双方为了获得相同的密钥，实现如下运算步骤：

记

发起方用户A：

A1：用随机数发生器产生随机数r_A∈[1,n-1]；

A2：计算椭圆曲线点R_A=(x₁,y₁)=[r_A]G；

A3：将R_A发送给用户B；

A4：从R_A中取出域元素x₁，将x₁的数据类型转换为整数，计算

A5：计算

t_{A} = (d_{A} + {\overset{&OverBar;}{x}}_{1} \cdot r_{A}) \mod n;

A6：在等待中收到来自响应方的R_B、（选项）S_B后，验证R_B是否满足椭圆曲线方程，若不满足则协商失败；否则从R_B中取出域元素x₂，将x₂的数据类型转换为整数，计算

A7：计算椭圆曲线点

U = [h \cdot t_{A}] (P_{B} + [{\overset{&OverBar;}{x}}_{2}] R_{B}) = (x_{U}, y_{U}),

若U是无穷远点，则A协商失败；否则将x_U、y_U的数据类型转换为比特串；

A8：计算K_A=KDF(x_U||y_U||Z_A||Z_B,klen)；

A9：(选项)将RA的坐标x₁、y₁和R_B的坐标x₂、y₂的数据类型转换为比特串，计算S₁=Hash(0x02||y_U||Hash(x_U||Z_A||Z_B||x₁||y₁||x₂||y₂))，并检验S₁=S_B是否成立，若等式不成立则从B到A的密钥确认失败；

A10：(选项)计算S_A=Hash(0x03||y_U||Hash(x_U||Z_A||Z_B||x₁||y₁||x₂||y₂))，并将S_A发送给用户B。

响应方用户B：

B1：用随机数发生器产生随机数r_B∈[1,n-1]；

B2：计算椭圆曲线点R_B=[r_B]G=(x₂;y₂)；

B3：从R_B中取出域元素x₂，将x₂的数据类型转换为整数，计算

B4：计算

t_{B} = (d_{B} + {\overset{&OverBar;}{x}}_{2} \cdot r_{B}) \mod n;

B5：验证R_A是否满足椭圆曲线方程，若不满足则协商失败；否则从R_A中取出域元素x₁，将x₁的数据类型转换为整数，计算

B6：计算椭圆曲线点

V = [h \cdot t_{B}] (P_{A} + [{\overset{&OverBar;}{x}}_{1}] R_{A}) = (x_{V}, y_{V}),

若V是无穷远点，则B协商失败；否则将x_V、y_V的数据类型转换为比特串；

B7：计算K_B=KDF(x_V||y_V||Z_A||Z_B，klen)；

B8：(选项)将R_A的坐标x1、y1和R_B的坐标x₂、y₂的数据类型转换为比特串，计算S_B=Hash(0x02||y_V||Hash(x_V||Z_A||Z_B||x₁||y₁||x₂||y₂))；

B9：将R_B、(选项S_B)发送给用户A；

B10：(选项)计算S₂=Hash(0x03||y_V||Hash(x_V||Z_A||Z_B||x₁||y₁||x₂||y₂))，并检验S₂=S_A是否成立，若等式不成立则从A到B的密钥确认失败。

在该算法中，在步骤A1、A2、B1和B2采用了椭圆曲线多倍点运算。

SM2算法中的加密算法

设需要发送的消息为比特串M，klen为M的比特长度。为了对消息M进行加密，作为加密者的用户A实现以下运算步骤：

A1：用随机数发生器产生随机数k∈[1,n-1]；

A2：计算椭圆曲线点C₁=[k]G=(x₁,y₁)，将C₁的数据类型转换为比特串；

A3：计算椭圆曲线点S=[h]P_B，若S是无穷远点，则报错并退出；

A4：计算椭圆曲线点[k]P_B=(x₂,y₂)，将坐标x₂、y₂的数据类型转换为比特串；

A5：计算t=KDF(x₂||y₂,klen)，若t为全0比特串，则返回A1；

A6：计算C₂=M⊕t；

A7：计算C₃=Hash(x₂||M||y₂)；

A8：输出密文C=C₁||C₃||C₂。

在该算法中，步骤A1、A2、A3和A4采用了椭圆曲线多倍点运算。

目前，椭圆曲线多倍点运算基于CPU架构以二进制展开法、加减法和滑动窗法等算法进行，这不利于计算效率的提高。

发明内容

有鉴于此，本发明提供一种结合CPU和GPU实现SM2算法的方法，该方法能够提高SM2算法的计算效率。

本发明还提供一种结合CPU和GPU实现SM2算法的装置，该装置能够提高SM2算法的计算效率。

为达到上述目的，本发明实施的技术方案具体是这样实现的：

一种结合中央处理器CPU和图形处理器GPU实现SM2算法的方法，该方法包括：

CPU调用GPU，GPU预先执行SM2算法中的计算椭圆曲线多倍点运算步骤，得到椭圆曲线点及对应的随机数预先存储在存储器中；

CPU根据SM2算法步骤对SM2算法的输入数据顺序计算时，调用存储器存储的椭圆曲线点及对应的随机数，完成SM2算法的计算。

在所述调用存储器存储的椭圆曲线点及对应的随机数之后，删除或者标记存储器存储的椭圆曲线点及对应的随机数。

CPU设定椭圆曲线上的点Q，所述GPU执行SM2算法中的计算椭圆曲线多倍点运算步骤，由GPU线程按照步骤1）、2）和3）循环计算完成：

1），读取一个随机数ki，将ki赋值给k，即k=ki；

2），计算[k]Q，[k]Q为椭圆曲线上的点Q的k倍点；

3），将(k,[k]Q)存储在设定的存储器中。

所述GPU执行SM2算法中的计算椭圆曲线多倍点运算步骤由一个GPU线程顺序完成，或多个GPU线程同时计算完成；

所述多个GPU线程同时完成时，针对不同的椭圆曲线和不同的点Q，或者针对相同的椭圆曲线和不同的点Q。

所述SM2算法为SM2算法的数字签名生成算法、密钥交换协议或加密算法。

所述SM2算法为SM2算法的数字签名生成算法或密钥交换协议时，所述计算椭圆曲线多倍点运算步骤为计算基点G的椭圆曲线多倍点；

所述SM2算法为加密算法时，所述计算椭圆曲线多倍点运算步骤为计算基点G的椭圆曲线多倍点和公钥P的椭圆曲线多倍点。

一种结合CPU和GPU实现SM2算法的装置，包括：GPU计算单元、存储器和CPU计算单元，其中，

GPU计算单元，用于在CPU计算单元的调用下，预先执行SM2算法中的计算椭圆曲线多倍点运算步骤，得到椭圆曲线点及对应的随机数预先存储在存储器中；

CPU计算单元，用于调用GPU计算单元，根据SM2算法步骤对SM2算法的输入数据顺序计算时，调用存储器存储的椭圆曲线点及对应的随机数，完成SM2算法的计算；

存储器，用于预先存储GPU计算单元计算的椭圆曲线点及对应的随机数。

所述GPU单元，还用于所述GPU执行SM2算法中的计算椭圆曲线多倍点运算步骤，由GPU线程按照步骤1）、2）和3）循环计算完成：

1），读取一个随机数ki，将ki赋值给k，即k=ki；

2），计算[k]Q，[k]Q椭圆曲线上的点Q的k倍点；

3），将(k,[k]Q)存储在设定的存储器中。

所述GPU计算单元为一个或多个，分别承载有GPU线程，用于单独或同时执行SM2算法中的计算椭圆曲线多倍点运算步骤，所述计算椭圆曲线多倍点运算针对针对不同的椭圆曲线和不同的点Q，或者针对相同的椭圆曲线和不同的点Q。

所述CPU计算单元，还用于调用存储器存储的椭圆曲线点及对应的随机数后，删除或标记存储器中存储的GPU计算单元计算的椭圆曲线点及对应的随机数。

由上述方案可以看出，本发明采用CPU和GPU协作方式进行SM2算法，将SM2算法中的计算量比较大的计算椭圆曲线多倍点运算步骤在GPU预先计算得到结果并预先存储在设置的存储器中，然后由CPU根据SM2算法步骤对SM2算法的输入数据顺序计算时，调用存储器存储的预先计算得到的结果，从而节省了对SM2算法的输入数据进行SM2算法的计算时间，提高了SM2算法的计算效率。

附图说明

图1为本发明实施例提供的结合CPU和GPU实现SM2算法的方法流程图；

图2为本发明实施例提供的结合CPU和GPU实现SM2算法的装置结构示意图；

图3为本发明实施例提供的提高SM2算法中的数字签名生成算法的计算效率的方法流程图；

图4为本发明实施例提供的提高SM2算法的密钥交换协议的计算效率的方法一流程图；

图5为本发明实施例提供的提高SM2算法的密钥交换协议的计算效率的方法二流程图；

图6为本发明实施例提供的提高SM2算法中的加密算法的计算效率方法流程图；

图7为本发明实施例提供的同时调用多个GPU线程针对不同公钥进行椭圆曲线多倍点运算的示意图；

图8为本发明实施例提供的同时提高不同SM2算法的计算效率的示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下参照附图并举实施例，对本发明作进一步详细说明。

为了提高SM2算法的计算效率，本发明采用CPU和GPU协作方式进行SM2算法，将SM2算法中的计算量比较大的计算椭圆曲线多倍点运算步骤在GPU预先计算得到结果并存储在设置的存储器中，然后由CPU根据SM2算法步骤对SM2算法的输入数据顺序计算时，调用存储器存储的预先计算得到的结果，从而节省了对SM2算法的输入数据进行SM2算法的计算时间。

图1为本发明实施例提供的结合CPU和GPU实现SM2算法的方法流程图，其具体步骤为：

步骤101、CPU调用GPU，GPU预先执行SM2算法中的计算椭圆曲线多倍点运算步骤，得到椭圆曲线点及对应的随机数预先存储在存储器中；

步骤102、CPU根据SM2算法步骤对SM2算法的输入数据顺序计算时，调用存储器存储的椭圆曲线点及对应的随机数，完成SM2算法的计算。

在该方法中，步骤101和步骤102并不需要按照顺序执行，而是预先于步骤102执行，预先计算好椭圆曲线点及对应的随机数并存储。只要CPU进行SM2算法计算时，就可以直接从存储器获取到椭圆曲线点及对应的随机数了。

具体地，在步骤101中，CPU设定椭圆曲线上的点Q，所述GPU执行SM2算法中的计算椭圆曲线多倍点运算步骤为：

CPU调用GPU线程，GPU线程采用如下循环计算椭圆曲线多倍点运算：

第一步，读取一个随机数ki，将ki赋值给k，即k=ki；

第二步，计算[k]Q，[k]Q椭圆曲线上的点Q的k倍点；

第三步，将(k,[k]Q)存储在设定的存储器中。

在图1中，GPU执行SM2算法中的计算椭圆曲线多倍点运算步骤时，可以由一个GPU线程完成，也可以由多个GPU线程同时计算完成。这时，针对不同的椭圆曲线和不同的点Q，或者针对相同的椭圆曲线和不同的点Q。

在图1中的步骤102中，当CPU调用存储器存储的椭圆曲线点及对应的随机数后，可以删除。

图2为本发明实施例提供的结合CPU和GPU实现SM2算法的装置结构示意图，包括：GPU计算单元、存储器和CPU计算单元，其中，

存储器，用于存储GPU计算单元计算的椭圆曲线点及对应的随机数。

在该结构中，GPU计算单元为一个或多个，分别承载有GPU线程，用于单独或同时执行SM2算法中的计算椭圆曲线多倍点运算步骤，所述计算椭圆曲线多倍点运算针对不同的椭圆曲线和不同的点Q，或者针对相同的椭圆曲线和不同的点Q。

在该结构中，CPU计算单元，还用于调用存储器存储的椭圆曲线点及对应的随机数后，删除存储器中存储的GPU计算单元计算的椭圆曲线点及对应的随机数。

在本发明中，图1所述的方法应用在对传输数据的加密领域，保证数据传输的安全性。

在本发明中，图1所述的SM2算法可以为SM2算法的数字签名生成算法、密钥交换协议或加密算法。

在本发明中，执行SM2算法中的计算椭圆曲线多倍点运算步骤可以提高SM2算法的计算效率，CPU可以同时调用多个GPU线程针对不同公钥进行椭圆曲线多倍点运算，以及可以同时提高不同SM2算法的计算效率，以下详细说明。

提高SM2算法的计算效率

一、提高SM2算法中的数字签名生成算法的计算效率

图3为本发明实施例提供的提高SM2算法中的数字签名生成算法的计算效率的方法流程图，其具体步骤为：

步骤301、CPU运行SM2数字签名生成算法前，CPU设定Q=G，调用GPU，使GPU预先并行计算G的椭圆曲线多倍点并预先存储在存储器中；

步骤302、CPU执行SM2数字签名生成算法流程中的步骤A1和步骤A2；

步骤303、CPU从存储器中直接读取一个(k_i,[k_i]G)，将k_i赋值给k:k=k_i，设定(x₁,y₁)=[k]G；

步骤304、CPU删除存储器中对应的记录（k,[k]G）；

步骤305、CPU继续执行SM2数字签名生成算法流程中的步骤A5开始以后的步骤，直到完成SM2数字签名生成算法流程。

在该过程中，步骤301与后续步骤并不是顺序执行，其可以预先执行完成。

二、提高SM2算法的密钥交换协议的计算效率

图4为本发明实施例提供的提高SM2算法的密钥交换协议的计算效率的方法一流程图，该方法一应用在发起方，其具体步骤为：

步骤401、在进行密钥协商前，CPU设定Q=G，调用GPU，使GPU预先并行计算G的椭圆曲线多倍点并预先存储在存储器中；

步骤402、CPU开始进行密钥协商，从存储器中读取一个(k_i,[k_i]G),将k_i赋值给r_A:r_A=k，设定R_A=(x₁,y₁)=[r_A]G，将R_A发送给响应方；

步骤403、CPU删除存储器中对应的记录（r_A,[r_A]G）；

步骤404、CPU继续执行SM2算法中的密钥交换协议的发起方流程中的步骤A3开始以后的步骤。

在该过程中，步骤401与后续步骤并不是顺序执行，其可以预先执行完成。

图5为本发明实施例提供的提高SM2算法的密钥交换协议的计算效率的方法二流程图，该方法二应用在响应方，其具体步骤为：

步骤501、在进行密钥协商前，CPU设定Q=G，调用GPU，使GPU预先并行计算G的椭圆曲线多倍点并预先存储在存储器中；

步骤502、CPU开始进行密钥协商，从存储器中读取一个(k_i,[k_i]G),将k_i赋值给r_B:r_B=k，设定R_B=(x₂,y₂)=[r_B]G；

步骤503、CPU删除存储器中对应的记录（r_B,[r_B]G）；

步骤504、CPU继续执行执行SM2算法中的密钥交换协议的响应方流程中的步骤B3开始以后的步骤。

在该过程中，步骤501与后续步骤并不是顺序执行，其可以预先执行完成。

三、提高SM2算法中的加密算法的计算效率

图6为本发明实施例提供的提高SM2算法中的加密算法的计算效率方法流程图，其具体步骤为：

步骤601、进行加密算法流程前，CPU调用GPU预先并行计算基点G的椭圆曲线多倍点和公钥P_B的椭圆曲线多倍点，即启用t_G个GPU线程预计算G的多倍点，t_P个GPU线程预计算P_B的多倍点，在每一次循环中，t_G个线程读取的随机数和t_P个线程读取的随机数一样；

在本步骤中，由于每一个G的k倍点和P_B的k倍点成对出现，t_G和t_P的取值是可调节的；

步骤602、CPU开始执行加密算法流程，从存储器中读取G的一个多倍点[k]G，并设定C₁=(x₁,y₁)=[k]G；

步骤603、CPU删除存储器中对应的记录(k,[k]G)；

步骤604、CPU从存储器中读取P_B的k倍点[k]P_B，设定（x₂,y₂）=[k]P_B；

步骤605、CPU删除存储器中对应的记录(k,[k]P_B)；

步骤606、CPU继续执行从SM2算法中的加密算法的步骤A6开始以后的步骤。

在该过程中，步骤601与后续步骤并不是顺序执行，其可以预先执行完成。

在本发明中，CPU还可以同时调用多个GPU线程针对不同公钥进行椭圆曲线多倍点运算。由于在传输加密的数据结束后，下次可能还会进行加密通信，因此在存储器存储最近使用的用于加密的公钥，并利用GPU预计算这些公钥的椭圆曲线多倍点。同时与多个用户进行加密通信，如m个用户：用户A，公钥为P₁；用户B，公钥分别为P₂；...；用户X，公钥为P_m时，CPU会调用t1个GPU线程预计算P₁的多倍点，即设定Q=P₁，t₂个GPU线程预计算P₂的多倍点，即设定Q=P₂，...，t_m个GPU线程预计算P_m的椭圆曲线多倍点，即设定Q=P_m，其中t₁,t₂,...,t_m的取值都是可调节的。如图7所示的同时调用多个GPU线程针对不同公钥进行椭圆曲线多倍点运算的示意图。

本发明还可以同时提高不同SM2算法的计算效率。在同时收到多个不同类型的SM2算法的计算请求时，如对SM2算法的输入数据进行数字签名的请求、协商密钥的请求、加密数据的请求等，本发明采用预计算的方法，CPU同时调用t个GPU线程用于数字签名生成算法和密钥协商流程中椭圆曲线多倍点的预计算，即设定Q=G，预计算G的椭圆曲线多倍点；调用m×t^/个GPU线程用于加密算法的多倍点的预计算，并将这m×t^/个线程分成m组，每一组对应不同的用户公钥P_i，1<=i<=m，每组包括t^/=t_G+t_P个线程，在每组t^/个GPU线程中，用t_G个线程预计算基点的多倍点，即设定Q=G，用t_P个线程预计算加密公钥的椭圆曲线多倍点，即设定Q=该组对应的公钥P_i，，其中t₁,t₂,t_G,t_P,m的取值都是可调节的。如图8所示的同时提高不同SM2算法的计算效率的示意图。

举一个具体实例对本发明进行详细说明

本实例选用了型号为E21230v2的CPU与型号为GTX680的GPU。其中型号为GTX680的GPU共有1536个SP，分为8个SM，即每个SM包括192个SP。

在实例中，CPU执行SM2算法的流程，并负责调度GPU并行预计算椭圆曲线多倍点。根据SM2算法的类型以及充当的角色，在算法流程执行之前，CPU调用GPU计算单元，启动多个GPU线程并行预计算SM2算法中需要预计算的椭圆曲线多倍点并存储，预计算的结果格式是形如（k,[k]Q）的（随机数，多倍点）对，其中k是随机数，Q是待计算的点，然后CPU再根据SM2算法流程运行计算。

在执行SM2算法的数字签名生成算法流程或密钥交换协议时，首先CPU设置5M的存储器空间用于存储预计算结果。然后，CPU调用GPU的32×8个线程预计算基点G的椭圆曲线多倍点，将这256个线程分成8组，每组线程在同一个SM上并行进行预计算，每组单独预计算G的椭圆曲线多倍点，因此GPU同时计算G的8个椭圆曲线多倍点，将计算结果存入CPU设定的存储器中。

在与某一个用户通信，执行SM2算法的加密算法流程时，首先CPU设置5M的存储器空间用于存储预计算结果。然后，CPU调用GPU的32×4个线程，这128个线程分成4组，分别标识为G1,G2,G3,G3，预计算基点G的椭圆曲线多倍点，调用32×4个线程，这128个线程分成4组，分别标识为P1,P2,P3,P3，预计算加密公钥P的椭圆曲线多倍点，其中Gi组线程读入的随机数与Pi组线程读入的随机数一样。随后，预计算结果以（k,[k]G,[k]P）的格式存入CPU设定的10M的存储器中。

在同时与多个用户通信，执行SM2算法的加密算法流程时，首先CPU设置10M的存取器空间用于存储预计算结果。然后，CPU为每个进行通信的用户分配2个SM进行加密计算，启动32个线程，对应一个SM计算G的椭圆曲线多倍点，32个线程计算该用户的加密公钥P的椭圆曲线多倍点。因此，同时可为4个用户的通信计算椭圆曲线多倍点。当与用户通信的数超过4时，CPU按照通信任务的优先级或者通信的频繁程度，选取一组线程，该组线程计算的椭圆曲线多倍点对应的用户公钥加密通信较少，用于较为频繁的加密通信的椭圆曲线多倍点计算。

在同时需要进行两种SM2算法或三种SM2算法时，CPU首先设置10M的存储器空间用于存储预计算结果。然后，CPU启用32×4个线程计算G的椭圆曲线多倍点用于数字签名算法和密钥交换协议，并分配已设置的10M存储器空间的5M用于存储预计算结果；CPU启用32×4个线程用于加密算法中的椭圆曲线多倍点运算，并分配已设置的10M存储器空间的另5M用于存储预计算结果，其中预计算中的公钥可根据需求轮流替换。

可以看出，本发明结合CPU和GPU的***架构，利用CPU进行总体调度，采用GPU并行计算的特点执行具体的SM2算法中的椭圆曲线多倍点计算，提高了SM2算法的计算效率，缩短了SM2算法的响应时间。保证了SM2算法中的数字签名生成算法、密钥交换协议及加密算法中的椭圆曲线多倍点运算的高效性。

以上举较佳实施例，对本发明的目的、技术方案和优点进行了进一步详细说明，所应理解的是，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种结合中央处理器CPU和图形处理器GPU实现SM2算法的方法，其特征在于，该方法包括：

2.如权利要求1所述的方法，其特征在于，在所述调用存储器存储的椭圆曲线点及对应的随机数之后，删除或者标记存储器存储的椭圆曲线点及对应的随机数。

3.如权利要求1所述的方法，其特征在于，CPU设定椭圆曲线上的点Q，所述GPU执行SM2算法中的计算椭圆曲线多倍点运算步骤，由GPU线程按照步骤1）、2）和3）循环计算完成：

1），读取一个随机数ki，将ki赋值给k，即k=ki；

2），计算[k]Q，[k]Q为椭圆曲线上的点Q的k倍点；

3），将(k,[k]Q)存储在设定的存储器中。

4.如权利要求1或2所述的方法，其特征在于，所述GPU执行SM2算法中的计算椭圆曲线多倍点运算步骤由一个GPU线程顺序完成，或多个GPU线程同时计算完成；

5.如权利要求1或3所述的方法，其特征在于，所述SM2算法为SM2算法的数字签名生成算法、密钥交换协议或加密算法。

6.如权利要求5所述的方法，其特征在于，所述SM2算法为SM2算法的数字签名生成算法或密钥交换协议时，所述计算椭圆曲线多倍点运算步骤为计算基点G的椭圆曲线多倍点；

7.一种结合CPU和GPU实现SM2算法的装置，其特征在于，包括：GPU计算单元、存储器和CPU计算单元，其中，

8.如权利要求7所述的装置，其特征在于，所述GPU单元，还用于所述GPU执行SM2算法中的计算椭圆曲线多倍点运算步骤，由GPU线程按照步骤1）、2）和3）循环计算完成：

1），读取一个随机数ki，将ki赋值给k，即k=ki；

2），计算[k]Q，[k]Q椭圆曲线上的点Q的k倍点；

3），将(k,[k]Q)存储在设定的存储器中。

9.如权利要求7或8所述的装置，其特征在于，所述GPU计算单元为一个或多个，分别承载有GPU线程，用于单独或同时执行SM2算法中的计算椭圆曲线多倍点运算步骤，所述计算椭圆曲线多倍点运算针对针对不同的椭圆曲线和不同的点Q，或者针对相同的椭圆曲线和不同的点Q。

10.如权利要求7所述的装置，其特征在于，所述CPU计算单元，还用于调用存储器存储的椭圆曲线点及对应的随机数后，删除或标记存储器中存储的GPU计算单元计算的椭圆曲线点及对应的随机数。