CN114647399B

CN114647399B - 一种低能耗高精度近似并行定宽乘法累加装置

Info

Publication number: CN114647399B
Application number: CN202210541757.6A
Authority: CN
Inventors: 崔子英; 陈珂; 刘伟强; 崔益军; 王成华; 吴比
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2022-05-19
Filing date: 2022-05-19
Publication date: 2022-08-16
Anticipated expiration: 2042-05-19
Also published as: CN114647399A

Abstract

本发明公开了一种低能耗高精度近似并行定宽乘法累加装置，包括输入截断补偿电路、基‑8布斯编码器和解码器电路、一级部分积压缩电路、二级部分积压缩电路和超前进位加法器电路。其中一级部分积压缩电路中权重为

的***树截断低位，次低2位使用近似4_2压缩器，高位使用精确压缩器；二级部分积压缩电路使用精确压缩器，且包含概率常数补偿部分，分别为对一级部分积截断的补偿，对使用近似4_2压缩器产生误差的补偿和对二级部分积截断的补偿。本发明通过使用截断和近似的方法降低了功耗，减少了硬件开销，同时对误差采用概率常数补偿策略，维持了较高的精度。

Description

一种低能耗高精度近似并行定宽乘法累加装置

技术领域

本发明涉及近似算术运算电路设计技术领域，具体而言涉及一种低能耗高精度近似并行定宽乘法累加装置。

背景技术

自2007年以来，摩尔定律、登纳德缩放定律等一系列半导体规律逐渐失效，在维持芯片同样能耗的情况下持续提高其性能变得十分困难。且现如今大数据处理和人工智能的重要性不断提高，这些应用需要海量的数据和复杂的计算，也就对高能效、高性能的通用计算引擎以及专用集成电路提出了更高的要求。现有许多应用如模式识别、视频处理、数据挖掘其本身存在容错能力，在此类应用存在的前提下，近似计算将计算精度作为新的维度引入设计空间，以满足应用要求为前提降低硬件开销和功耗，作为一种新的高能效设计方法被采用以缓解上述问题。

乘法累加单元作为数字信号处理器的重要计算单元，在卷积神经网络等类似应用中使用广泛。串行乘法累加单元由于其较小的硬件开销而备受青睐，但在对时延要求高的应用中的使用效果不尽如人意。仅管存在并行乘法累加单元，但针对这方面的研究较少，多通过复制单个乘法器和加法器来实现并行，硬件开销太大。发表于IEEE TRANSACTIONS ONCIRCUITS AND SYSTEMS的论文《A High-Performance and Energy-Efficient FIRAdaptive Filter Using Approximate Distributed Arithmetic Circuits》公开了一种基于分布式算法的自适应滤波器设计方法，其中误差计算模块与并行乘法累加单元的设计思路吻合，但近似手段较为粗糙，未能实现精度与硬件开销之间的有效平衡。

发明内容

本发明针对现有技术中的不足，提供一种低能耗高精度近似并行定宽乘法累加装置，目的是在原有设计上改进近似和截断策略，降低功耗，减小硬件开销，并维持较高精度。

为实现上述目的，本发明采用以下技术方案：

一种低能耗高精度近似并行定宽乘法累加装置，所述乘法累加装置包括输入截断补偿电路、基-8布斯编码器和解码器电路、一级部分积压缩电路、二级部分积压缩电路和超前进位加法器电路；

所述输入截断补偿电路对导入的两组长度为

、每组元素数为

的数据分别做以下处理：截断低

位，k的取值根据对精度的具体要求而定，取值范围为

，在第

位上补1，最终

位结果输出至基-8布斯编码器和解码器电路；

所述基-8布斯编码器和解码器电路包括N组基-8布斯编码器、近似解码加法器和传统解码器；基-8布斯编码器将其中一组输入截断补偿电路的输出按三位一组划分进行编码，将编码结果输出到传统解码器；近似解码加法器对另一组输入截断补偿电路的输出进行计算；传统解码器对基-8布斯编码器与近似解码加法器的结果进行处理以生成部分积，输出到一级部分积压缩电路中；

所述一级部分积压缩电路包含

个一级***树，每一个一级华莱士树的大小都为

，每一个一级***树均为规则矩形；将每个一级*** 树分三段做近似处理，对一权重为

的一级***树，截断低

位，次低2位使用近似 4_2压缩器压缩，剩余高位用精确加法器压缩成两行，仅将所有一级***树的精确加法器压缩结果输出到二级部分积压缩电路；

所述二级部分积压缩电路包含二级***树和概率常数补偿模块，概率常数补偿模块用于对一级部分积截断、使用近似4_2压缩器产生的误差、二级部分积截断进行补偿，得到截断和近似的常数补偿部分数据；二级***树使用精确加法器将接收到的输入数据与常数补偿部分数据压缩成两行，取

位输出到超前进位加法器电路；

所述超前进位加法器电路将二级部分积压缩电路的输出结果相加，保留

位以产生最终乘法累加装置的输出结果。

为优化上述技术方案，采取的具体措施还包括：

进一步地，所述基-8布斯编码器包括五个输出信号，使用

，

，

，

分别表示其输入信号的最高位、次高位、次低位和最低位，表达式分别为：

；

；

；

；

；

所述传统解码器仅产生在一级部分积压缩电路中被精确压缩和近似压缩的部分积，表达式为：

，其中

为近似解码加法器输入的第

位，

为近似解码加法器输出的第

位。

进一步地，所述近似解码加法器对输入数据的低

位做两位一组的近似累加，p 为根据精度要求决定的非负整数，公式为：

，

，

，其中

表示输入y的第

位，

为输入进位，

为输出进位，

为最终和的第

位；对输入数据的第

和

低位附加误差恢复电路，公式为：

，

，

，其中

为最终和的第

位的误差恢复信号，

和

分别为恢复后的第

位最终和和输出进位；使用行波进位加法器对输入数据的高位做累加。

进一步地，在一级部分积压缩电路中使用的近似4_2压缩器公式为：

，

，其中

为***树第i列的四个输入；精确加法器包括精确全加器和精确半加器；每一行部分积的符号补偿位不计入*** 树，通过常数补偿方法减小误差。

进一步地，所述二级部分积压缩电路在确定输入符号的情况下对符号位做统一处理：在仅保留数值位的前提下，在一级部分积压缩器的最低位压缩树任意一输出的高位添加111，次低位和次高位压缩树任意一输出的高位添加110。

进一步地，所述一级部分积截断的补偿的过程包括：

假设输入呈均匀分布：

；

其中

为输入信号x的第m位。截位补偿之后每一位的概率为：

；

对其中一组操作数做基-8布斯编码，根据编码规则在最低位补0，编码结果概率如下：

；

；

；

其中

为布斯编码结果的第

位。当布斯编码值为

时，在解码过程中需要用到近似解码加法器的输出

，因此需要计算

每一位的概率，根据近似解码加法器的特性得到：

；

其中

为

的第

位。计算出部分积的期望如下：

其中下标n表示两组输入向量的第n个元素的运算结果，上标i或j表示该数的第i 或j个二进制位，

为权重为

的压缩树的第

行第

列部分积；符号修正位的期望恒为 0.5，

。

进一步地，所述对使用近似4_2压缩器的补偿包括：

使用δ表示实际输出和准确输出之间的误差，计算得到误差期望为

；

表示模式

发生的概率，

，

表示误差，

；具体补偿值为各个误差期望的和。

进一步地，根据近似4_2压缩器的输出值期望对二级部分积截断做常数补偿：

，

。

进一步地，所述超前进位加法器的输入为

位，分为四位一组，组内为行波进位加法器，组间为超前进位加法器。

进一步地，所述一级部分积压缩电路和二级部分积压缩电路采用符号拓展消除法。所述的符号拓展消除法利用2进制运算非0即1的特点，对部分积压缩电路的输入的符号位做统一处理，将负值转换到最高的一位，便于随后的全正值的压缩处理。

本发明的有益效果是：

本发明的低能耗高精度近似并行定宽乘法累加装置，采用分布式算法提高乘法累加单元的并行度，有效提高了电路性能，同时采用截断和近似手段，减少电路复杂度的同时降低功耗，采用常数补偿策略以极小的硬件开销换取精度。截断部分积不仅节省了压缩器，缩短了超前进位加法器的关键路径长度，还节省了生成被截断部分积的传统布斯解码器，大大节省了硬件开销。

附图说明

图1是本发明的低能耗高精度近似并行定宽乘法累加装置的结构示意图。

图2a是以

，

为例的一级***压缩树-0的结构示意图。

图2b是以

，

为例的一级***压缩树-1的结构示意图。

图2c是以

，

为例的一级***压缩树-2的结构示意图。

图2d是以

，

为例的一级***压缩树-3的结构示意图。

图3是以

，

为例的二级部分积压缩树示意图。

具体实施方式

现在结合附图对本发明作进一步详细的说明。

需要注意的是，发明中所引用的如“上”、“下”、“左”、“右”、“前”、“后”等的用语，亦仅为便于叙述的明了，而非用以限定本发明可实施的范围，其相对关系的改变或调整，在无实质变更技术内容下，当亦视为本发明可实施的范畴。

图1是本发明的低能耗高精度近似并行定宽乘法累加装置的结构示意图。参见图1，该乘法累加装置包括输入截断补偿电路、基-8布斯编码器和解码器电路、一级部分积压缩电路、二级部分积压缩电路和超前进位加法器电路。

输入截断补偿电路是将并行乘法累加单元的两组长度为

，每组元素数为

的输入截断低

位，并在第

位上补1，最终

位结果输出到基-8布斯编码器和解码器电路。

基-8布斯编码器和解码器电路是将其中一组输入按三位一组划分进行编码，另一组输入近似解码加法器，编码结果与产生的

输出到传统解码器，生成部分积，之后输出到一级部分积压缩电路中。

一级部分积压缩电路包含

个***树，每一个***树的大小都为

，每一个一级***树均为规则矩形，将一级***树分三段做近似处理，对一权重为

的***树，截断低

位，次低2位使用近似4_2压缩器压缩，剩余高位用精确加法器压缩成两行，仅将所有***树的精确加法器压缩结果输出到二级部分积压缩电路。

二级部分积压缩电路包含1个***树，使用精确加法器将输入与截断和近似的常数补偿部分压缩成两行，取

位输出到超前进位加法器电路。

超前进位加法器电路将二级部分积压缩电路的结果相加，保留

位以产生最终乘法累加单元的结果。

（一）基-8布斯编码器和解码器电路

基-8布斯编码器和解码器电路包括基-8布斯编码器、近似解码加法器和传统解码器。

基-8布斯编码器有五个输出信号，表达式为：

；

；

；

；

。

解码器由产生

的近似解码加法器和传统解码器构成，仅产生在一级部分积压缩电路中被精确压缩和近似压缩的部分积，表达式为：

。

近似解码加法器对低

位采用两位一组近似累加，公式为：

，

，

；同时对第

和

低位附加误差恢复电路，公式为：

，

，

，高位使用行波进位加法器做累加。

（二）一级部分积压缩电路

在一级部分积压缩电路中使用的近似4_2压缩器公式为：

，

；精确加法器包括精确全加器和精确半加器；每一行部分积的符号补偿位不计入***树，通过常数补偿方法减小误差。

（三）二级部分积压缩电路

二级部分积压缩电路中的常数概率补偿包括三部分，分别是对一级部分积截断的补偿，对使用近似4_2压缩器产生误差的补偿和对二级部分积截断的补偿。

（1）第一部分：对一级部分积截断的补偿。

假设输入呈均匀分布，即(此处省略下标，因为所有输入的概率均相同)：

；

截位补偿之后每一位的概率为(为方便起见所有输入除以

)：

；

对其中一组操作数做基-8布斯编码，根据编码规则需在最低位补0。由于最低位编码输入的低两位恒为(1,0)，因此与其他位编码结果概率不同，需分开考虑。编码结果概率如下（正负概率相同）：

；

；

；

为得到部分积的概率，还需要计算

每一位的概率，根据近似解码加法器的特性可得：

；

根据上式可计算出部分积的期望如下：

其中

为权重为

的压缩树的第

行，第

列部分积；其中符号修正位的期望恒为0.5，即

。

（2）第二部分：对使用近似4_2压缩器的补偿。

使用

表示输入的不同模式，有

；使用

表示误差，有

；使用

表示

发生的概率，则误差期望为

。具体补偿值为各个误差期望的和。

（3）第三部分：对二级部分积截断的补偿。

这一部分的误差来自二级部分积压缩电路截断了近似4_2压缩器的输出结果，这一部分根据输出值期望做常数补偿：

，

。

（四）超前进位加法器

超前进位加法器输入为

下面以

，

为例，结合附图对本发明实施例的乘法累加装置作更进一步的说明。

该

，

的低功耗近似并行定宽乘法累加单元，其结构包括输入截断补偿电路、基-8布斯编码器和解码器电路、一级部分积压缩电路、二级部分积压缩电路和超前进位加法器电路。

输入截断补偿电路是将并行乘法累加单元的两组长度为16的输入截断低5位，并在第4位上补1，最终12位结果输出到基-8布斯编码器和解码器电路。只需对其中一组输入做基-8编码，按照三位一组划分，另一组输入同时送入近似解码加法器，计算3x，接着将他们送入传统解码器，仅产生一级部分积压缩电路压缩的部分，结果根据编码权重送入对应权重不同的一级***压缩树，如图1所示。图1中一级***树-0表示一级部分积压缩电路中的最低位***树，一级***树-1表示一级部分积压缩电路中的次低位***树，以此类推。该一级部分积压缩电路共有4个***树，每个***树为14*8的矩形，如图2a-图2d所示。将一级部分积压缩电路的结果根据权重进行移位，输入二级部分积压缩电路，使用精确加法器压缩至两行，最终取低16位送入超前进位加法器，结果也取低16位为最终定宽输出。

基-8布斯编码器有五个输出信号，表达式为：

；

；

；

；

；

解码器由产生

。

近似解码加法器对低4位采用两位一组近似累加，公式为：

，

，

；同时对最低3位和最低4位附加误差恢复电路，公式为：

，

，

；高位使用行波进位加法器做累加。

如图2a-图2d所示，对一级部分积压缩电路的四个***树均做符号拓展处理，最终控制两个输出符号为一正一负。最低位压缩树截断低8位，次低位压缩树截断低5位,次高位压缩树截断低2位，最高位压缩树不截断，除最高位压缩树以外，所有压缩树的次高2位使用近似4_2压缩器，最高位压缩树的最低1位使用近似4_2压缩器，其余高位用精确加法器压缩成两行，仅将所有压缩树的精确加法器压缩结果输入到二级部分积压缩电路。

在一级部分积压缩电路中使用的近似4_2压缩器公式为：

，

；精确加法器包括精确全加器和精确半加器。每一行部分积的符号补偿位不计入压缩树，通过常数补偿方法减小误差。

作为本实施方式的进一步优化方案，二级部分积压缩电路在确定输入符号的情况下对符号位做统一处理：在仅保留数值位的前提下，在一级部分积压缩器的最低位压缩树任意一输出的高位添加“111”，次低位和次高位压缩树任意一输出的高位添加“110”，如图3所示。

作为本实施方式的进一步优化方案，二级部分积压缩器包含对截断与近似的常数补偿部分，该常数补偿由理论概率推导得到：在二级部分积压缩树的第2位和第4位补1，如图3所示。最终16位结果送入超前进位加法器。

超前进位加法器输入为16位，分为四位一组，组内为行波进位加法器，组间为超前进位加法器，取低16位作为最终近似乘法累加单元的定宽结果。

最终该改进设计相比原设计功率延时积降低25%，比全精度副本功率延时积降低80%，比未采用补偿的副本平均错误距离降低58%。

尽管已描述了本说明书实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本说明书实施例范围的所有变更和修改。

显然，本领域的技术人员可以对本说明书实施例进行各种改动和变型而不脱离本说明书实施例的精神和范围。这样，倘若本说明书实施例的这些修改和变型属于本说明书实施例权利要求及其等同技术的范围之内，则本说明书实施例也意图包含这些改动和变型在内。

Claims

1.一种低能耗高精度近似并行定宽乘法累加装置，其特征在于，所述乘法累加装置包括输入截断补偿电路、基-8布斯编码器和解码器电路、一级部分积压缩电路、二级部分积压缩电路和超前进位加法器电路；

所述输入截断补偿电路对导入的两组长度为

、每组元素数为

的数据分别做以下处理：截断低

位，k的取值根据对精度的具体要求而定，取值范围为

，在第

位上补1，最终

位结果输出至基-8布斯编码器和解码器电路；

所述一级部分积压缩电路包含

个一级***树，每一个一级***树的大小都为

，每一个一级***树均为规则矩形；将每个一级***树分三段做近似处理，对一权重为

的一级***树，截断低

位，次低2位使用近似4_2压缩器压缩，剩余高位用精确加法器压缩成两行，仅将所有一级***树的精确加法器压缩结果输出到二级部分积压缩电路；

位输出到超前进位加法器电路；

位以产生最终乘法累加装置的输出结果。

2.根据权利要求1所述的低能耗高精度近似并行定宽乘法累加装置，其特征在于，所述基-8布斯编码器包括五个输出信号，使用

，

，

，

；

；

；

；

；

，其中

为近似解码加法器输入的第

位，

为近似解码加法器输出的第

位。

3.根据权利要求1所述的低能耗高精度近似并行定宽乘法累加装置，其特征在于，所述近似解码加法器对输入数据的低

位做两位一组的近似累加，p为根据精度要求决定的非负整数，公式为：

，

，

，其中

表示输入y的第

位，

为输入进位，

为输出进位，

为最终和的第

位；对输入数据的第

和

低位附加误差恢复电路，公式为：

，

，

，其中

为最终和的第

位的误差恢复信号，

和

分别为恢复后的第

4.根据权利要求3所述的低能耗高精度近似并行定宽乘法累加装置，其特征在于，在一级部分积压缩电路中使用的近似4_2压缩器输出信号的公式为：

，

，其中

为***树第

列的四个输入；精确加法器包括精确全加器和精确半加器；每一行部分积的符号补偿位不计入***树，通过常数补偿方法减小误差。

5.根据权利要求1所述的低能耗高精度近似并行定宽乘法累加装置，其特征在于，所述二级部分积压缩电路在确定输入符号的情况下对符号位做统一处理：在仅保留数值位的前提下，在一级部分积压缩器的最低位压缩树任意一输出的高位添加111，次低位和次高位压缩树任意一输出的高位添加110。

6.根据权利要求1所述的低能耗高精度近似并行定宽乘法累加装置，其特征在于，所述一级部分积截断的补偿的过程包括：

假设输入呈均匀分布：

；

其中

为输入信号x的第m位；截位补偿之后每一位的概率为：

；

；

；

；

其中

为布斯编码结果的第

位；当布斯编码值为

时，采用近似解码加法器的输出

进行解码，计算

每一位的概率，根据近似解码加法器的特性得到：

；

其中

为

的第

位；计算出部分积的期望如下：

其中下标n表示两组输入向量的第n个元素的运算结果，上标i或j表示该数的第i或j个二进制位，

为权重为

的压缩树的第

行第

列部分积；符号修正位的期望恒为0.5，

。

7.根据权利要求4所述的低能耗高精度近似并行定宽乘法累加装置，其特征在于，对使用近似4_2压缩器的补偿包括：

使用

表示实际输出和准确输出之间的误差，计算得到误差期望为

；

表示模式

发生的概率，

，

表示误差，

；具体补偿值为各个误差期望的和。

8.根据权利要求7所述的低能耗高精度近似并行定宽乘法累加装置，其特征在于，根据近似4_2压缩器的输出值期望对二级部分积截断做常数补偿：

，

。

9.根据权利要求1所述的低能耗高精度近似并行定宽乘法累加装置，其特征在于，所述超前进位加法器的输入为