CN105335127A

CN105335127A - Gpdsp中支持浮点除法的标量运算单元结构

Info

Publication number: CN105335127A
Application number: CN201510718454.7A
Authority: CN
Inventors: 彭元喜; 雷元武; 彭浩; 陈书明; 郭阳; 刘祥远; 田甜; 徐恩; 胡封林; 刘仲; 孙永节; 陈虎; 刘胜; ***; 吴虎成
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2015-10-29
Filing date: 2015-10-29
Publication date: 2016-02-17

Abstract

本发明公开了一种GPDSP中支持浮点除法的标量运算单元结构，其包括作为标量运算部件的第一部件SMAC1、第二部件SMAC2和第三部件SIEU，用于支持标量基础运算；每个所述标量运算部件对应VLIW执行包中的一条标量指令。本发明具有指令执行周期少、延迟小、结构简单、可行性好等优点。

Description

GPDSP中支持浮点除法的标量运算单元结构

技术领域

本发明主要涉及到微处理器领域，特指一种适用于在高性能通用DSP(GPDSP)芯片中支持浮点除法的标量运算单元实现结构。

背景技术

随着互联网、移动通信、消费电子、多媒体技术带动的数字业务的飞速发展，人们需要更加强大的数字信号处理器，来处理庞大的数据业务。例如高清2D或3D数字图像处理、雷达信号处理、自主导航信息处理、移动通信等。由于这些算法都具有数据运算密集型的特点，涉及到大量浮点、定点、逻辑、复数的基本操作和除法等运算。尤其除法，单精度浮点除法或者双精度浮点除法运算的性能将对整个处理器整体性能的产生较大影响，将成为某些应用中的性能瓶颈。

目前，没有一款能直接支持浮点除法指令的高性能通用DSP(GPDSP)。例如TI通用浮点系列DSP不能直接实现浮点除法指令，硬件通过查找表的方法得到倒数的近似值，然后通过牛顿迭代方式调用相关子程序来实现除法运算。这种实现方式面积较小，但是无法通过迭代方法获得IEEE-754标准的浮点除法结果，而且相对于直接硬件实现，该方法迭代计算时间较长。

由于除法硬件实现算法复杂度高、设计结构复杂、占用面积较大，一般不在并行性较大的向量部件直接设计除法部件。因此，一种支持浮点除法的标量运算单元设计具有重要的意义。

发明内容

本发明要解决的技术问题就在于：针对现有技术存在的技术问题，本发明提供一种指令执行周期少、延迟小、结构简单、可行性好的GPDSP中支持浮点除法的标量运算单元结构。

为解决上述技术问题，本发明采用以下技术方案：

一种GPDSP中支持浮点除法的标量运算单元结构，其包括作为标量运算部件的第一部件SMAC1、第二部件SMAC2和第三部件SIEU，用于支持标量基础运算；每个所述标量运算部件对应VLIW执行包中的一条标量指令。

作为本发明的进一步改进：还包括标量寄存器文件，用于数据的读取及写回操作；当接收到派发部件派发的标量指令，译码后判断是属于哪个标量运算部件，同时将对应的源操作数地址及读请求送至标量寄存器文件，待指令有效信号送至对用的标量运算部件后，将得到从标量寄存器文件得到的数据，开始执行运算，最后将结果写回标量寄存器文件。

作为本发明的进一步改进：所述第一部件SMAC1和第二部件SMAC2为同构MAC运算部件；所述MAC运算部件包括浮点乘加单元FMAC、定点乘加单元IMAC、浮点算术逻辑单元FALU、浮点除法单元FDIV；上述各功能单元是拥有相同数据通路的独立单元，同一周期只能有一个功能部件执行有效指令，执行完后，结果通过最后一级选择逻辑，输出至对应的目的地址。

作为本发明的进一步改进：所述浮点乘加单元FMAC用来处理多周期复杂浮点运算，采用动态流水线结构，每个周期可以流出一条指令，同一个时钟周期各流水站可以执行不同的操作。

作为本发明的进一步改进：所述浮点乘加单元FMAC采用双精度对阶移位操作和单精度对阶移位操作分离FMAC结构，包括：操作数准备模块R、尾数乘法模块X、双精度乘加运算通路Y、单精度乘加运算通路Z、单双精度通路复用的规格化处理模块S；所述操作数准备模块R根据指令，按照IEEE-754标准完成浮点单精度、双精度操作数的符号、指数、尾数的分离和输入操作数的例外判断；所述尾数乘法模块X负责所有指令的单精度乘法结果尾数计算；所述双精度乘加运算通路Y用来完成双精度操作的指数阶差计算及双精度操作数C的161位对阶移位、双精度结果尾数计算的最后一级CSA4:2部分积压缩；所述单精度乘加运算通路Z用来完成SIMD乘加、SIMD乘减、SIMD乘法和点积、复数乘法操作的指数阶差计算、尾数交换和尾数交换后的对阶；所述单双精度通路复用的规格化处理模块S用来完成对阶移位后的结果尾数计算、规格化处理及指数修正操作。

作为本发明的进一步改进：所述定点乘加单元IMAC用来执行定点乘累加；在实现定点和浮点乘加、乘减指令的时候，输入乘法器的两操作数为64位浮点数据，第三操作数为53位的的浮点操作数，结果为64位的浮点操作数；而执行定点乘加减指令时，乘法器的两个操作数为32位有符号/无符号的操作数，第三个操作数为一个64位的有符号/无符号操作数，结果为一个64位的有符号/无符号的目的操作数。

作为本发明的进一步改进：所述浮点算术逻辑单元FALU包括浮点FALU短周期指令模块、浮点ALU转换指令模块和浮点ALU加减法指令模块；所述浮点FALU短周期指令模块包含所有单周期的浮点算术逻辑指令，包括单/双精度的大于、小于及相等比较指令，求单/双精度的指数、尾数和绝对值的指令，计算单/双精度倒数和平方根倒数的指令以及单精度浮点转换成双精度浮点数的指令。

作为本发明的进一步改进：所述第三部件SIEU包括位处理单元BP和定点算术逻辑单元IALU，两者是具有相同数据通路的独立单元，同一周期只能有一个功能单元执行有效指令；执行完后，结果通过最后一级选择逻辑，输出至对应的目的地址；同时，根据指令执行时候的饱和和非饱和情况，还会产生置位信号，标示出该条指令执行情况。

作为本发明的进一步改进：所述BP单元包括三个功能单元，分别是64位移位器单元shifter、位处理单元Bitp和打包解包单元PK；从译码站出来的译码信号以及来自于寄存器的源操作数被三个功能单元接收，并立即开始运算，最终的输出结果根据选择信号从移位和打包解包功能单元的运算结果中选择及位处理单元结果输出；若是打包解包指令，且需要判饱和，饱和标志会在结果输出的同时输出给状态寄存器。

与现有技术相比，本发明的优点在于：

1、本发明的GPDSP中支持浮点除法的标量运算单元结构，基于SRT-8算法的浮点除法指令硬件实现结构，具有指令执行周期少，延迟小，结构简单，可行性好的特点。同时，整个SPE结构能够提供逻辑复用设计，更好的满足设计的可移植性及面积可控性的特点。

2、本发明的GPDSP中支持浮点除法的标量运算单元结构，为混合运算单元，能够实现64位定点、32位定点、双精度浮点和单精度浮点相关运算，功能全面。

3、本发明的GPDSP中支持浮点除法的标量运算单元结构，可实现三条流水线的并行执行，适合在处理器中实现；浮点运算部分支持浮点乘加、乘法、加法，还有复数、点积等相关运算，可以满足多种应用场合的要求。

4、本发明的GPDSP中支持浮点除法的标量运算单元结构，复用关键部件64*64乘法器，能在同一硬件平台上实现定点和浮点混合乘法，面积开销小。本发明支持基于SRT-8算法的除法设计，能够实现64位有符号无符号定点整数除法、32位有符号无符号定点整数除法、双精度浮点除法和单精度浮点除法的指令。

附图说明

图1是本发明标量运算单元(SPE)在处理器中的位置示意图。

图2是本发明标量运算单元(SPE)的拓扑结构示意图。

图3是本发明标量运算单元(SPE)的数据通路结构示意图。

图4是本发明在具体应用实例中SMAC部件的拓扑结构示意图。

图5是本发明在具体应用实例中SMAC部件子单元FMAC的结构示意图。

图6是本发明在具体应用实例中SMAC部件子单元IMAC的结构示意图。

图7是本发明在具体应用实例中SMAC部件子单元FALU的结构示意图。

图8是本发明在具体应用实例中SMAC部件子单元FDIV的结构示意图。

图9是本发明在具体应用实例中SMAC部件复用64*64乘法器的结构示意图。

图10是本发明在具体应用实例中IEU部件的拓扑结构示意图。

图11是本发明在具体应用实例中SIEU部件子单元BP的结构示意图。

图12是本发明在具体应用实例中SIEU部件子单元IALU的结构示意图。

具体实施方式

以下将结合说明书附图和具体实施例对本发明做进一步详细说明。

如图1所示，为本发明的标量运算单元(SPE)在处理器中的位置。本发明的标量运算单元SPE位于处理器的标量处理单元SC中，通过接收指令流控单元中派发部件派发的标量运算类指令，译码后送到SPE内对应的功能运算单元执行。标量处理单元SC中还包含标量数据访存单元，它能实现标量访存指令译码、地址计算及数据写回等访存流水站控制，还可以为SPE提供数据支持；同时SPE也可以给标量访存单元提供地址处理、数据读取等相关运算。

如图2所示，为本发明的标量运算单元SPE的拓扑结构示意图。SPE内部集成三个运算部件，分别是第一部件SMAC1、第二部件SMAC2和第三部件SIEU，用于支持标量基础运算。每个标量运算部件，对应VLIW执行包中的一条标量指令，即SPE包括三条可并行执行的流水线。同时，SPE中还包含一个标量寄存器文件，用于数据的读取及写回操作。当SPE接收到派发部件派发的标量指令，译码后判断是属于哪个运算部件，同时将对应的源操作数地址及读请求送至标量寄存器文件，待指令有效信号送至对用的运算部件后，将得到从标量寄存器文件得到的数据，开始执行运算，最后将结果写回标量寄存器文件。处理器中的标量寄存器文件位于标量运算单元SPE中，它能够为第一部件SMAC1、第二部件SMAC2和第三部件SIEU这三个功能部件提供独立的读写端口，以保证每个功能部件满足其实现指令所需操作数数目，如第一部件SMAC1、第二部件SMAC2分别有3个读端口和1个写端口，第三部件SIEU有2个读端口，1个写端口。

如图3和图4所示，第一部件SMAC1、第二部件SMAC2为同构MAC运算部件，每个MAC运算部件包含四个独立的功能单元，分别为：浮点乘加单元FMAC、定点乘加单元IMAC、浮点算术逻辑单元FALU、浮点除法单元FDIV。其中，浮点乘加单元FMAC和定点乘加单元IMAC复用了一个64*64乘法器，使得整个处理器的面积有所减少。浮点乘加单元FMAC、定点乘加单元IMAC、浮点算术逻辑单元FALU、浮点除法单元FDIV这四个功能单元是拥有相同数据通路的独立单元，同一周期只能有一个功能部件执行有效指令，执行完后，结果通过最后一级选择逻辑，输出至对应的目的地址；即同一周期四者不能同时开始执行或写回，但可由软件流水调度并行；其操作数来源主要为标量寄存器文件中的数据，还可以来自立即数Imm。除了浮点算术逻辑单元FALU只有两操作数指令，其他三个单元都支持三操作数指令。第三部件SIEU包括位处理单元BP和定点算术逻辑单元IALU，两者是具有相同数据通路的独立单元，同一周期两者不能同时开始执行或写回，可由软件流水调度实现并行；其操作数来源主要为标量寄存器文件中的数据，还可以来自立即数Imm、标向量共享寄存器SVR、向量单元局部控制寄存器VULCR，两者都只有两操作数指令。

如图5所示，浮点乘加单元FMAC是处理器运算单元中处理多周期复杂浮点运算的功能部件。该部件能实现4类浮点指令：乘法指令、乘加指令、乘后加指令、加法指令。它采用动态流水线结构，每个周期可以流出一条指令，同一个时钟周期各流水站可以执行不同的操作。

本实施例中，浮点乘加单元FMAC采用双精度对阶移位操作和单精度对阶移位操作分离FMAC结构，即通路分离的FMAC结构，目的是为了简化硬件实现算法和减少站间的大位宽数据寄存出发。其总体结构由五部分组成：操作数准备模块R，尾数乘法模块X，双精度乘加运算通路Y，单精度乘加运算通路Z，单双精度通路复用的规格化处理模块S。其中，操作数准备模块R根据指令，按照IEEE-754标准完成浮点单精度、双精度操作数的符号、指数、尾数的分离和输入操作数的例外判断。尾数乘法模块X负责所有指令的单精度乘法结果尾数计算。双精度通路Y完成双精度操作的指数阶差计算及双精度操作数C的161位对阶移位、双精度结果尾数计算的最后一级CSA4:2部分积压缩。单精度通路Z完成SIMD乘加，SIMD乘减，SIMD乘法和点积、复数乘法操作的指数阶差计算、尾数交换和尾数交换后的对阶。S模块完成对阶移位后的结果尾数计算、规格化处理及指数修正等操作。

如图6所示，定点乘加单元IMAC是运算处理单元中执行定点乘累加的功能单元，可以执行定点加减法运算、乘法运算、乘加运算、乘减运算、MOV类运算。在定点算法运行和控制过程中都存在大量定点加减法以及MOV运算，将定点加减法和MOV集成到定点MAC单元的目的是为了在VLIW指令中增加定点加减法和MOV类的指令槽，提高运算速率。在实现定点和浮点乘加、乘减指令的时候，输入乘法器的两操作数为64位浮点数据，第三操作数为53位的的浮点操作数，结果为64位的浮点操作数；而定点乘加减指令的实现，乘法器的两个操作数为32位有符号/无符号的操作数，第三个操作数为一个64位的有符号/无符号操作数，结果为一个64位的有符号/无符号的目的操作数。还支持定点点积和复数的相关运算。

如图7所示，在浮点算术逻辑单元FALU的结构中，根据实现功能及指令周期的不同，分成了三个子执行模块：浮点FALU短周期指令模块、浮点ALU转换指令模块和浮点ALU加减法指令模块；其中，浮点FALU短周期指令模块包含所有单周期的浮点算术逻辑指令，包括单/双精度的大于、小于及相等比较指令，求单/双精度的指数、尾数和绝对值的指令，计算单/双精度倒数和平方根倒数的指令以及单精度浮点转换成双精度浮点数的指令；浮点ALU转换指令模块实现了2周期浮点与定点之间以及单/双精度浮点之间的类型转换指令，包括单/双精度浮点数转换为整数指令、单/双精度浮点数截断转换成整数、(有符号或无符号)整数转换为单/双精度浮点数、双精度浮点转换成单精度浮点数指令；浮点ALU加减法指令模块实现了4周期的单/双精度浮点加减法指令。

如图8所示，为本实施例中的浮点除法单元FDIV，其中两个遵循IEEE-754浮点格式的操作数A和B，它们之间执行除法操作，其运算可以分为以下几步：

S1.检测操作数是否为例外数据，并设置结果数据。

S2.计算结果值的符号位：两符号位异或。

S3.计算结果的指数部分，两指数阶码相减。

S4.尾数相除：将除数的尾数低位增加0以此来扩展除数的尾数位数使之增加为原来的一倍，获得精度限制的位数结果。

S5.结果规格化：尾数相除后，可能需要左移，同时减小指数，并根据舍入模式，进行尾数结果调整。

S6.异常检测：在IEEE-754中对浮点除法规定了两种异常的产生上溢和下溢：如果结果指数超出了精度所允许的最大指数值则返回上溢异常；如果结果指数比精度所规定的最小指数值还要小则返回下溢异常。

该浮点除法单元FDIV的结构设计基于SRT-8算法的SIMD结构浮点除法指令。所述SRT-8指令分为01、10、11次调用指令，即图中所示的选择信号来选择出指令执行的类型；其分别执行双精度浮点1～6(SIMD双单精度浮点1～3)次除法迭代，双精度浮点7～12(SIMD双单精度浮点4～6)次除法迭代，双精度浮点13～18(SIMD双单精度浮点7～9)次除法迭代。最后根据SRT-8指令输出的余数和商结果，及SRT-8指令的调用次数，规格化双精度浮点除法或者SIMD双单精度浮点除法不同运算精度的商结果。

该结构以SRT-8算法为基础，利用硬件资源复用技术和迭代切割技术，在同一硬件结构上并行实现双精度浮点除法，SIMD双单精度浮点除法功能。

本发明的SPE结构支持浮点除法。标量浮点除法部件(SFDIV)是SMAC部件中执行标量浮点除法运算的功能单元，主要实现了四条指令，分别为基于SRT-8除法算法的双精度浮点除法迭代指令、双精度浮点除法规格化指令、基于SRT-8除法算法的SIMD双单精度浮点除法迭代指令和SIMD双单精度浮点除法规格化指令。在GPDSP中指令采用40位编码，其SIMD浮点除法指令集包括两条双精度浮点除法指令(FSRT8D和FNORMD)和两条SIMD双单精度浮点除法指令(FSRT8S32和FNORMS32)。其实现的指令描述如表1所示：

表1除法单元指令类型和功能

指令名称	节拍数	编码位数	指令功能	标量指令
					SFSRT8D	7	40	双精度浮点除法迭代	是
SFNORMD	2	40	双精度浮点除法规格化	是
					SFSRT8S32	4	40	SIMD双单精度浮点除法迭代	是
SFNORMS32	2	40	SIMD双单精度浮点除法规格化	是

如图9所示，为本发明中SMAC部件复用的64*64乘法器结构示意图。在SMAC结构中考虑到64x64位乘法指令在设计中占用很大面积的情况，SMAC部件中的乘法器采用逻辑模块复用设计，定点/浮点复用模块主体是四个32x32位乘法器。数据输入后经操作数处理开始执行乘法操作，根据不同的指令，需根据派发过来的指令，先进行操作数选择和位扩展处理，将处理好的操作数分别输入到4个32x32乘法器中进行乘法运算。结果分定点结果和浮点结果，然后根据指令不同，结果写回寄存器或送往到下一站。

如图10所示，为具体应用实例中第三部件IEU的拓扑结构示意图。第三部件SIEU包括位处理单元BP和定点算术逻辑单元IALU，两者是具有相同数据通路的独立单元，同一周期只能有一个功能单元执行有效指令。执行完后，结果通过最后一级选择逻辑，输出至对应的目的地址。同时，根据指令执行时候的饱和和非饱和情况，还会产生置位信号，标示出该条指令执行情况。即：同一周期两者不能同时开始执行或写回，可由软件流水调度实现并行；其操作数来源主要为标量寄存器文件中的数据，还可以来自立即数Imm、标向量共享寄存器SVR、向量单元局部控制寄存器VULCR，两者都只有两操作数指令。

如图11所示，为具体应用实例中位处理单元BP的拓扑结构示意图。BP单元包括三个功能单元，分别是64位移位器单元shifter、位处理单元Bitp和打包解包单元PK。从译码站出来的译码信号以及来自于寄存器的源操作数被三个功能单元接收，并立即开始运算，最终的输出结果根据选择信号从移位和打包解包功能单元的运算结果中选择及位处理单元结果输出。若是打包解包指令，且需要判饱和，饱和标志会在结果输出的同时输出给状态寄存器。

如图12所示，为具体应用实例中定点算术逻辑单元IALU的拓扑结构示意图。定点算术逻辑单元IALU包含了8个子模块，由于加减法操作的延时最大，在IALU的结构设计上，不和比较类指令复用加法，采用分离的加法器结构。在逻辑选择顺序上将其放在最后一级，为了更进一步的减小延时，将饱和加减法操作分离，由加减法指令，饱和指令和相关的控制寄存器联合实现。

以上仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，应视为本发明的保护范围。

Claims

1.一种GPDSP中支持浮点除法的标量运算单元结构，其特征在于，包括作为标量运算部件的第一部件SMAC1、第二部件SMAC2和第三部件SIEU，用于支持标量基础运算；每个所述标量运算部件对应VLIW执行包中的一条标量指令。

2.根据权利要求1所述的GPDSP中支持浮点除法的标量运算单元结构，其特征在于，还包括标量寄存器文件，用于数据的读取及写回操作；当接收到派发部件派发的标量指令，译码后判断是属于哪个标量运算部件，同时将对应的源操作数地址及读请求送至标量寄存器文件，待指令有效信号送至对用的标量运算部件后，将得到从标量寄存器文件得到的数据，开始执行运算，最后将结果写回标量寄存器文件。

3.根据权利要求1所述的GPDSP中支持浮点除法的标量运算单元结构，其特征在于，所述第一部件SMAC1和第二部件SMAC2为同构MAC运算部件；所述MAC运算部件包括浮点乘加单元FMAC、定点乘加单元IMAC、浮点算术逻辑单元FALU、浮点除法单元FDIV；上述各功能单元是拥有相同数据通路的独立单元，同一周期只能有一个功能部件执行有效指令，执行完后，结果通过最后一级选择逻辑，输出至对应的目的地址。

4.根据权利要求3所述的GPDSP中支持浮点除法的标量运算单元结构，其特征在于，所述浮点乘加单元FMAC和定点乘加单元IMAC的乘法器采用逻辑模块复用设计，定点/浮点复用模块主体是四个32x32位乘法器；数据输入后经操作数处理开始执行乘法操作，根据不同的指令，根据派发过来的指令，先进行操作数选择和位扩展处理，将处理好的操作数分别输入到4个32x32乘法器中进行乘法运算；结果分定点结果和浮点结果，然后根据指令不同，结果写回寄存器或送往到下一站。

5.根据权利要求3所述的GPDSP中支持浮点除法的标量运算单元结构，其特征在于，所述浮点乘加单元FMAC用来处理多周期复杂浮点运算，采用动态流水线结构，每个周期可以流出一条指令，同一个时钟周期各流水站可以执行不同的操作。

6.根据权利要求5所述的GPDSP中支持浮点除法的标量运算单元结构，其特征在于，所述浮点乘加单元FMAC采用双精度对阶移位操作和单精度对阶移位操作分离FMAC结构，包括：操作数准备模块R、尾数乘法模块X、双精度乘加运算通路Y、单精度乘加运算通路Z、单双精度通路复用的规格化处理模块S；所述操作数准备模块R根据指令，按照IEEE-754标准完成浮点单精度、双精度操作数的符号、指数、尾数的分离和输入操作数的例外判断；所述尾数乘法模块X负责所有指令的单精度乘法结果尾数计算；所述双精度乘加运算通路Y用来完成双精度操作的指数阶差计算及双精度操作数C的161位对阶移位、双精度结果尾数计算的最后一级CSA4:2部分积压缩；所述单精度乘加运算通路Z用来完成SIMD乘加、SIMD乘减、SIMD乘法和点积、复数乘法操作的指数阶差计算、尾数交换和尾数交换后的对阶；所述单双精度通路复用的规格化处理模块S用来完成对阶移位后的结果尾数计算、规格化处理及指数修正操作。

7.根据权利要求3所述的GPDSP中支持浮点除法的标量运算单元结构，其特征在于，所述定点乘加单元IMAC用来执行定点乘累加；在实现定点和浮点乘加、乘减指令的时候，输入乘法器的两操作数为64位浮点数据，第三操作数为53位的的浮点操作数，结果为64位的浮点操作数；而执行定点乘加减指令时，乘法器的两个操作数为32位有符号/无符号的操作数，第三个操作数为一个64位的有符号/无符号操作数，结果为一个64位的有符号/无符号的目的操作数。

8.根据权利要求3所述的GPDSP中支持浮点除法的标量运算单元结构，其特征在于，所述浮点算术逻辑单元FALU包括浮点FALU短周期指令模块、浮点ALU转换指令模块和浮点ALU加减法指令模块；所述浮点FALU短周期指令模块包含所有单周期的浮点算术逻辑指令，包括单/双精度的大于、小于及相等比较指令，求单/双精度的指数、尾数和绝对值的指令，计算单/双精度倒数和平方根倒数的指令以及单精度浮点转换成双精度浮点数的指令。

9.根据权利要求1～8中任意一项所述的GPDSP中支持浮点除法的标量运算单元结构，其特征在于，所述第三部件SIEU包括位处理单元BP和定点算术逻辑单元IALU，两者是具有相同数据通路的独立单元，同一周期只能有一个功能单元执行有效指令；执行完后，结果通过最后一级选择逻辑，输出至对应的目的地址；同时，根据指令执行时候的饱和和非饱和情况，还会产生置位信号，标示出该条指令执行情况。

10.根据权利要求9所述的GPDSP中支持浮点除法的标量运算单元结构，其特征在于，所述BP单元包括三个功能单元，分别是64位移位器单元shifter、位处理单元Bitp和打包解包单元PK；从译码站出来的译码信号以及来自于寄存器的源操作数被三个功能单元接收，并立即开始运算，最终的输出结果根据选择信号从移位和打包解包功能单元的运算结果中选择及位处理单元结果输出；若是打包解包指令，且需要判饱和，饱和标志会在结果输出的同时输出给状态寄存器。