CN103914277B

CN103914277B - 一种基于改进的Montgomery模乘算法的可扩展模乘器电路

Info

Publication number: CN103914277B
Application number: CN201410145671.7A
Authority: CN
Inventors: 韩军; 窦仁峰; 曾凌云; 曾晓洋
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2014-04-14
Filing date: 2014-04-14
Publication date: 2017-02-15
Anticipated expiration: 2034-04-14
Also published as: CN103914277A

Abstract

本发明属于高性能公钥密码学集成电路设计技术领域，具体为一种基于改进的Montgomery模乘算法的可扩展模乘器电路。本发明通过引入一个额外的参数，使得Montgomery域的数据位宽相比原来得以减小，从而减小整个***的硬件开销。本发明还基于上述算法，设计了一个高性能可扩展乘法器电路。其主要由时序控制器、部分积产生电路、进位保存加法器压缩树电路、部分积反馈电路、模乘器扩展相关电路和时序控制器构成；其使得较大位宽的模乘可以通过多个模乘器联合起来实现，计算延时降低，扩展性能良好，模乘效率显著提高。

Description

一种基于改进的Montgomery模乘算法的可扩展模乘器电路

技术领域

本发明属于公钥密码学集成电路设计技术领域，具体涉及一种基于改进的商流水Montgomery模乘算法的可扩展模乘器电路结构。

背景技术

近些年来，随着计算机技术与互联网技术的不断发展，云计算的时代正在悄悄来临。随着云计算技术的不断深入，如何保障用户的数据安全与隐私，成为了一个重要的挑战。高安全的数据加密与身份验证是云计算发展的必然。无论是对于数据加密还是身份验证，公钥密码学，由于其非对称加密特性，使得其在这些应用中扮演了重要的角色。模乘是公钥密码学中最为核心的运算。如何进行高性能的模乘器设计，是解决云计算的相关挑战的重要技术基础。

随着物联网、移动互联网、无线通信应用技术的不断发展，无线接入设备越来越多，对于无线接入点的接入认证任务也越来越重。由其对于移动多媒体流应用，频繁的切换接入点会带来较差的用户体验。如何解决低延时的接入认证，是解决上述问题的基础。目前的接入认证主要也是基于公钥密码学，所以低延时的模乘器设计成为了解决挑战的关键技术。

随着密码攻击与破解技术的不断提升，较小的秘钥宽度已经很难保证加密后的数据具有足够的安全性。随着秘钥宽度的不断增加，带来了计算量的大幅提升。在安全性增加的同时，为了实现可以接受的运算时间，高性能的模乘器设计是首先需要考虑的。与此同时，为了满足不同的安全性需求，加密协议中的位宽往往是可以变化的，如ECC-256、ECC-521、RSA-1024、RSA-2048等。为了满足不同协议的需求，可扩展的模乘器设计是技术关键。

发明内容

为了克服现有技术的不足，本发明的目的在于提供一种基于改进的商流水Montgomery模乘算法及基于该算法的高性能可扩展的电路，其有助于解决当前云计算、移动无线接入等技术领域面临的挑战。

本发明首先对原有的商流水Montgomery模乘算法进行改进，提出了一种可以减小Montgomery域数据位宽的改进的算法。所述改进的Montgomery模乘算法基于原始商流水Montgomery模乘算法增加了一个用于运算的参数，该参数通过下面方法获得：

新增的参数用于

其中，M 为模乘中的模数，k 为模乘的基；改进算法中的与原始算法中的相同；S_n+1与S_n+2为迭代运算中的运算结果，Q_n为第n次迭代的Q值。具体见说明书附录部分的附录2和附录4。

与原始商流水Montgomery模乘算法要求相比，其位宽可以减少k-1比特；由于高性能模乘设计几乎都是采用高基的实现方法，而高基实现方法中，k值较大，通常为几十或几百的量级。所以，k-1比特的减少对于硬件设计来说是一个比较大的改进，可以较大的减少***中运算单元与寄存器堆等的数据位宽，从而使得***的开销得到减小，并有利于达到更好的时序性能，实现更高的工作频率。

在改进的算法的基础上，本发明还提出了一种基于改进的Montgomery模乘算法的可扩展模乘器电路。该电路结构主要由部分积产生电路、第一级流水线进位保存加法器（PCSA）压缩树、第二级PCSA压缩树、部分积反馈电路、模乘器扩展相关电路和时序控制器构成；其中：

所述部分积产生电路由单个部分积产生电路构成，其在时序控制器的控制信号下，根据寄存器B（附录2中的参数B）、寄存器B+M₂（附录2中的参数B和参数的累加结果）、寄存器M₂（附录2中的参数）、寄存器M₁（附录2中的参数）、以及寄存器A（附录2中的参数A）和寄存器Q（附录2中的参数Q _i）的输出，产生相应的操作数高半部分或者低半部分的的部分积并送给第一级PCSA压缩树的输入端；作为部分积产生电路的输入

所述第一级PCSA压缩树在时序控制器产生的控制信号控制下对部分积产生电路所产生的部分积进行压缩，并将压缩后的结果送到流水线寄存器进行寄存；

所述第二级PCSA压缩树在时序控制器产生的控制信号控制下，对寄存后的部分积、部分积反馈电路产生的部分积、以及加法器产生的进位信号进行压缩，并把压缩后的结果送到相应的结果寄存器进行保存；

所述部分积反馈电路根据结果寄存器以及扩展信号中的 S值（多模乘器扩展时，其它模乘运算中产生的S值，如图1中加法器电路生产的24比特S值输出信号）输入在时序控制器的控制下产生用于反馈的部分积，并把其送到第二级PCSA压缩树的输入端；

所述模乘器扩展相关电路包括引出的数据线接口、部分积反馈电路中的部分逻辑、以及加法器和复用器；用于扩展的S值输入直接接入到部分积反馈电路模块，经过寄存器寄存后送给复用器；加法器对结果寄存器中的低部分比特进行累加实现Q值（对应于算法中的Q _i，如附录4所示）的计算，其进位值送给第二级PCSA压缩树，其输出直接引出作为用于扩展的S值输出信号；加法器的输出经过寄存器Q’寄存后作为用于扩展的Q值输出；外部输入的用于扩展的Q值和寄存器Q’的值通过复用器进行选择并送给寄存器Q进行寄存；作为部分积产生电路的输入信号。

上述第一级PCSA压缩树和第二级PCSA压缩树采用的方法实现；所述第一级和第二级PCSA压缩树由若干个流水线进位保存加法器（PCSA）经过一定的树状连接构成；PCSA可以减小进位保存加法器的位宽，从N比特减少到[N/2]+1比特，其主要由[N/2]+1比特的进位保存加法器和一个进位寄存器构成；[N/2]+1比特的进位保存加法器的输入为三个操作数的高半部分或者低半部分数据；[N/2]+1比特的进位保存加法器的进位输出（C_H/C_L的最高位，C_MSB）会经过一个一比特的寄存器进行寄存；寄存后的C_MSB会拼接到C_H/C_L信号的最低位用作PCSA的C_H/C_L输出，对于进位保存加法器的S_H/S_L的输出直接作为PCSA的C_H/C_L输出。PCSA将操作数低半部分压缩的进位信号通过一个1比特寄存器进行暂存，到下一个时钟周期拼接到操作数高半部分压缩结果的最低比特位置。

上述部分积产生电路中，单个部分积产生电路主要由复用器构成。其中时序控制器产生的M₁M₂选择信号会对M₁与M₂的值进行选择并送到下一级4输入复用器；寄存器A信号和Q值信号对4输入复用器的输入信号进行选择并作为部分积输出。

本发明的有益效果在于：其采用改进的Montgomery模乘算法，并且基于PCSA压缩树的结构，使得模乘操作数的高半部分和低半部分可以流水操作，从而避免了直接实现中较大的数据通路开销，并且可以达到较好的时序性能，实现较高的电路工作频率。与此同时还将用于扩展的Q值信号和S值信号引出，从而实现了可扩展的设计，使得一个较大位宽的模乘可以通过多个模乘器联合起来实现，实现较低的计算延时，实现很好的扩展性能。本发明通过算法与电路结构的创新，提出了改进的模乘算法与高性能可扩展的模乘器的电路结构设计。经过验证，模乘效率显著提高。

附图说明

图1是高性能可扩展模乘器整体电路结构图。

图2是部分积产生电路结构图。

图3是进位保存加法器（CSA）与流水线进位保存加法器(PCSA)结构图。

图4是第一级24-8流水线进位保存加法器(PCSA)压缩树。

图5是第二级9-3流水线进位保存加法器(PCSA)压缩树。

图6是部分积反馈电路结构图。

图7是两级压缩树种的操作数高低部分流水线调度图。

图8是四模乘器扩展结构图。

图9 是四模乘器模乘任务划分图。

具体实施方式

下面结合附图和实施例对本发明进一步详细阐述。

本发明的目的在于提供一种改进的商流水Montgomery模乘算法及其高性能可扩展的电路，有助于解决当前云计算、移动无线接入等技术领域面临的挑战。

本发明基于原始的商流水Montgomery模乘算法进行改进，提出了一种可以减小Montgomery域数据位宽的改进的算法。原始算法说明书附录（附录3）所示，该算法的符号定义如附录1所示。可以看出其Montgomery域数据位宽需满足kn≥ω+2k+2。改进后的算法如说明书附录（附录2、附录4）所示，可以看出其Montgomery域数据位宽只需满足kn≥ω+k+3。与之前的要求相比，可以发现其位宽可以减少k-1比特。由于高性能模乘设计几乎都是采用高基的实现方法，而高基实现方法中，k值较大，通常为几十或几百的量级。所以，k-1比特的减少对于硬件设计来说是一个比较大的改进，可以较大的减少***中运算单元与寄存器堆等的数据位宽，从而提高性能。

在改进的算法的基础上，本发明还提出了一种高性能可扩展的模乘器电路结构。其结构图如图1所示。该结构主要由部分积产生电路、第一级PCSA压缩树、第二级PCSA压缩树、部分积反馈电路、模乘器扩展相关电路与时序控制器构成。

其中，部分积产生电路可以在时序控制器的控制下产生操作数高半部分的k个部分积或者低半部分的k个部分积。该电路由k个单个部分积产生电路构成，如图2所示。其中单个部分积产生电路主要由一个用于选择M₁与M₂复用器（MUX）与一个用于选择0、M₁与M₂复用器输出、B、B+M₂的4输入复用器构成。

其中，第一级和第二级压缩树采用PCSA的方法实现，分别如4、图5所示。在第二级压缩过程中，先对寄存器输出的6个部分积进行压缩再把反馈的部分积与其他部分积一起送入9-3压缩树进行压缩，这样可以减少反馈部分积在压缩过程中的延时，为部分积反馈电路腾出时间进行计算，从而实现较好的时序性能。PCSA将操作数低半部分压缩的进位信号通过一个1比特寄存器进行暂存，到下一个时钟周期拼接到操作数高半部分压缩结果的最低比特位置。其电路结构如图3所示。

其中，部分积反馈电路将用于模乘扩展的S信号引入，并在时序控制器的控制下对S2的值进行拼接。然后通过S使能信号来对S2的值与拼接后的值进行选择。然后三个反馈信号在时序控制器的控制下先后进行移位操作、高低部分选择与输出使能操作。详见图6。

为了演示该乘法器的可扩展性，这里给出了一个用四个模乘器联合起来完成一个长位宽的模乘的连接方法，如图8所示。其中，长操作数A被分为4段，分别我为A[3]、A[2]、A[1]、A[0]。其他操作数类似，其任务划分如图9所示。其中用一个用于Q值广播的开关网络，是为了实现可配置性。应用于选择把某个模乘器的Q值最为Q值得输入。S值传递通过一个环来实现，在图中所示的操作数的配置下，模乘器3的S输入处于非使能状态，所以图中采用虚线来表示。

对基于该专利方法的288比特模乘器在TSMC 65nm LP该工艺下进行了综合，其工作频率可以达到约1GHz，对于一个288比特的模乘只需要约30个周期（32ns）即可完成，对于一个1056比特的摸乘，在四个模乘器联合实现下只需要约100周期（100ns）即可完成。可见其非常低的延时和较高的性能。

附录

附录1原始算法中的符号意义

附录2 改进算法中的符号意义

附录3 原始商流水Montgomery模乘算法

附录4改进的商流水Montgomery模乘算法

。

Claims

1.一种基于改进的Montgomery模乘算法的可扩展模乘器电路，其特征在于：

其包括部分积产生电路、第一级PCSA压缩树、第二级PCSA压缩树、部分积反馈电路、模乘器扩展相关电路和时序控制器；其中：

所述部分积产生电路由若干个单个部分积产生电路构成，其在时序控制器的控制信号下，根据寄存器B、寄存器B+M₂、寄存器M₂、寄存器M₁、以及寄存器A和寄存器Q的输出，产生相应的操作数高半部分或者低半部分的的部分积并送给第一级PCSA压缩树的输入端；

所述部分积反馈电路根据结果寄存器以及扩展信号中的 S值输入在时序控制器的控制下产生用于反馈的部分积，并把其送到第二级PCSA压缩树的输入端；

所述模乘器扩展相关电路包括引出的数据线接口、部分积反馈电路中的部分逻辑、以及加法器和复用器；用于扩展的S值输入直接接入到部分积反馈电路模块，经过寄存器寄存后送给复用器；加法器对结果寄存器中的低部分比特进行累加实现Q值的计算，其进位值送给第二级PCSA压缩树，其输出直接引出作为用于扩展的S值输出信号；加法器的输出经过寄存器Q’寄存后作为用于扩展的Q值输出；外部输入的用于扩展的Q值和寄存器Q’的值通过复用器进行选择并送给寄存器Q进行寄存；作为部分积产生电路的输入信号；

所述第一级和第二级PCSA压缩树由若干个流水线进位保存加法器经过一定的树状连接构成；流水线进位保存加法器包括[N/2]+1比特的进位保存加法器和一个进位寄存器；[N/2]+1比特的进位保存加法器的输入为三个操作数的高半部分或者低半部分数据；[N/2]+1比特的进位保存加法器的进位输出C_H/C_L的最高位，C_MSB经过一个一比特的寄存器进行寄存；寄存后的C_MSB拼接到C_H/C_L信号的最低位用作PCSA的C_H/C_L输出，对于进位保存加法器的S_H/S_L的输出直接作为PCSA的C_H/C_L输出。

2.根据权利要求1所述的基于改进的Montgomery模乘算法的可扩展模乘器电路，其特征在于，所述改进的Montgomery模乘算法基于原始商流水Montgomery模乘算法增加了一个用于运算的参数，该参数通过下面方法获得：

新增的参数用于

其中，M为模乘中的模数，k为模乘的基；改进算法中的与原始算法中的相同；S_n+1与S_n+2为迭代运算中的运算结果，Q_n为第n次迭代的Q值。