CN116679988A

CN116679988A - 硬件加速单元、硬件加速方法、芯片及存储介质

Info

Publication number: CN116679988A
Application number: CN202310963606.4A
Authority: CN
Inventors: 卜学龙; 方绍
Original assignee: Wuhan Xinbida Microelectronics Co ltd
Current assignee: Wuhan Xinbida Microelectronics Co ltd
Priority date: 2023-08-02
Filing date: 2023-08-02
Publication date: 2023-09-01
Anticipated expiration: 2043-08-02
Also published as: CN116679988B

Abstract

本发明公开一种硬件加速单元、硬件加速方法、芯片及存储介质，硬件加速单元包括多个并行运算的加速引擎，每一加速引擎实现一不同的数学运算，用于提供并行的除法运算、开根号运算、平方和开根号运算、正余弦运算或反正切运算；多个加速引擎分别通过总线与CPU进交互，且每一加速引擎对应一数据输入单元，用于按照运算顺序依次向各个数据输入单元进行数据写入，各个加速引擎根据运算顺序依次在总线空闲状态时读取对应数据输入单元的数据并执行对应的数学运算。本发明包含完整的电机控制支持所需的运算引擎，实现并行运算，能够支持复杂的矢量控制算法，解决现有三相无刷电机控制时存在的计算执行时间过长或不支持的问题。

Description

硬件加速单元、硬件加速方法、芯片及存储介质

技术领域

本发明属于半导体设计领域，尤其涉及一种采用硬件加速单元提高芯片运行效率的方法，具体为一种硬件加速单元、硬件加速方法、芯片及存储介质。

背景技术

汽车应用涉及较多的三相无刷电机控制应用场景，例如：水泵、风扇、压缩机等，需使用FOC算法进行无刷电机的控制，该控制涉及矢量控制，需使用大量的除法、开根号、开平方根、三角函数等数学运算。

此类汽车电机应用所使用的计算控制芯片主频一般不高于48M，不同处理器内核对矢量控制所需的大量计算支持能力不足，主要体现在除法、开根号运算、开平方根、三角函数执行时间不能满足应用需求，或内核本身无法进行此类运算。

此类汽车电机应用所使用的计算控制芯片不带浮点运算单元，实际的电机矢量控制算法实现方案中，一般采用定点格式实现。一般而言，使用C语言编程时采用定标法来确定小数，此时变量定义为整型变量（int16或int32），只是通过假定小数点位于二进制码的哪一位来确定小数的精度。当用低1位表示小数时称为Q1，用低15位表示小数时称为Q15。int16所能表示的Q格式范围为Q0~Q15，int32所能表示的Q格式范围为Q0~Q31，对数据的放大的倍数为2，2^2，2^3，2^4，…。

因此，对于汽车应用涉及的三相无刷电机控制场景，主要存在如下缺陷：

1.汽车计算控制芯片内核对电机矢量控制所需的运算类型支持不足：计算执行时间过长或不支持。

2.在低成本却需要高性能的应用场景下，例如：水泵、风扇、压缩机等电机应用，需要使用复杂的矢量控制算法，导致中断负载率过高，不能满足应用需求。

3.少数汽车计算控制芯片包含除法和平方和开根号运算，但不能同时执行。

4.现有方案中少数厂家除法加速引擎支持32 bits /32 bits 除法，而实际的低成本电机场景中由于计算控制芯片的算力有限，且不支持浮点运算，因此必须采用低定点格式方式实现，一般采用Q15或Q14格式，采用32 bits /32 bits除法必要性不高，且会增加单个除法的计算时长。

5.现有方案中少数厂家平方和开根号加速引擎中用于计算两个32 bits有符号输入的计算，必要性不高，且会增加单次计算的时长。

6.现有方案不支持完整的电机控制支持所需的运算引擎方案：除法、开根号、开平方根、正弦、余弦、反正切等运算。

发明内容

为克服上述现有技术的不足，本发明提供一种采用硬件加速单元提高芯片运行效率的方法及装置，用以解决上述至少一个技术问题。

根据本发明说明书的一方面，提供一种硬件加速单元，包括多个并行运算的加速引擎，每一加速引擎实现一不同的数学运算，用于提供并行的除法运算、开根号运算、平方和开根号运算、正余弦运算或反正切运算；多个所述加速引擎分别通过总线与CPU进交互，且每一加速引擎对应一数据输入单元，用于按照运算顺序依次向各个数据输入单元进行数据写入，各个加速引擎根据运算顺序依次在总线空闲状态时读取对应数据输入单元的数据并执行对应的数学运算。

上述技术方案包含完整的电机控制支持所需的运算引擎，可以提供硬件加速的除法、开根号、平方和开根号、正余弦、反正切等运算，且各加速引擎可以同时运行而不会相互干扰，实现并行运算，能够支持复杂的矢量控制算法，解决现有三相无刷电机控制时存在的计算执行时间过长或不支持的问题。

可选地，每个加速引擎配置有BUSY标志位。不同加速引擎计算过程中，通过BUSY标志位判定是否计算完成，BUSY标志位清零后即可从加速引擎中获取计算结果。

可选地，所述总线可为高级高性能总线(Advanced High-performance Bus,AHB)。_

作为进一步的技术方案，用于除法运算的加速引擎，执行如下指令：

判断当前总线是否处于空闲状态；

在当前总线处于空闲状态时，判断输入除数是否为零；

在输入除数不为零时，对输入的除数和被除数取绝对值并进行除数比特流处理；

基于比特流处理后的数据，进行移位除法运算；

在输入的移位值位于可配置范围内时，进行除法递归计算；

组合不同迭代过程中的值，输出除法计算的商和余数。

上述技术方案用于除法的硬件加速计算，可以实现支持32位/24位的有、无符号除法，支持商和余数的计算，且包含除零标志指示，在准确可靠的前提下兼顾除法执行效率。

可选地，用于除法运算的加速引擎主要包括以下功能：有符号或者无符号整数除法运算；支持商和余数的计算；支持移位除法运算，方便不同定点数格式计算；写被除数寄存器后开始执行除法运算；除数为零时会产生除零错误标志位；32位被除数输入，24位除数输入，32位结果输出。

进一步地，所述加速引擎支持的除法计算公式为：x / y，x % y，(x<<z) / y，(x<<z) % y；其中，“/”表示除法求商计算，“%”表示除法求余数计算，“<<”表示左移移位操作；x为32位被除数输入，有符号除法时被除数范围为-(2^31) ~ (2^31-1)，无符号除法时被除数范围为0 ~ (2^32-1)；y为24位除数输入，有符号除法时除数范围为-(2^23) ~ (2^23-1)，无符号除法时除数范围为0 ~ (2^24-1)；z为5位移位输入，范围为0 ~ 31。

作为进一步的技术方案，用于平方和开根号运算和反正切运算的加速引擎，均执行如下指令：

判断当前总线是否处于空闲状态；

在当前总线处于空闲状态时，获取输入数据并进行绝对值处理；

执行迭代计算，并在达到设定的迭代计算次数后，通过计算类型标注位区分是平方和开根号运算或反正切运算。

作为进一步的技术方案，在通过计算类型标注位判定为反正切运算时，用于反正切运算的加速引擎还执行如下指令：对迭代计算结果进行四象限及边界处理，并以反正切格式输出计算结果。

可选地，用于反正切运算的加速引擎，其主要功能是计算两个输入值之商的反正切角度，并根据两个输入值的正负号进行象限处理，输出定点数格式为Q16的角度信号。

进一步地，所述加速引擎支持的反正切计算公式为：，其中，x，y为16位有符号数，范围为-(2^15) ~ (2^15-1)，计算结果范围为(0~65535)，重映射对应(0~360°)。

作为进一步的技术方案，在通过计算类型标注位判定为平方和开根号运算时，用于平方和开根号运算的加速引擎还执行如下指令：将输入数据写入寄存器，执行平方和开根号输出。

可选地，用于平方和开根号运算的加速引擎，其主要功能是计算两个输入值平方之和开根号的大小，广泛应用在电机矢量控制等高性能场景中，用于计算两个矢量电流或电压的幅值。

进一步地，所述加速引擎支持的平方和开根号计算公式为：，其中：x，y为16位有符号整数，范围为-(2^15) ~ (2^15-1)。

作为进一步的技术方案，用于正余弦运算的加速引擎，执行如下指令：

判断当前总线是否处于空闲状态；

执行迭代角度查表，并在达到设定的迭代次数后，进行定点数格式处理，输出处理结果。

可选地，用于正余弦运算的加速引擎，其主要功能是计算角度的正余弦值大小，其中正余弦输入定点数格式为Q16，输出定点数格式为Q14。

进一步地，所述加速引擎支持的正余弦计算公式为：，/>，其中，x为16位无符号数，范围 (0~65535)，重映射对应 (0~360°)，正余弦运算输出为16位有符号数，范围(-16384 ~ 16383)重映射对应(-1 ~ 1)。

可选地，用于开根号运算的加速引擎，其主要功能是计算x的平方根值。

进一步地，所述加速引擎支持的开根号计算公式为，其中，x为32位无符号整数，范围为0 ~ (2^32-1)。

作为进一步的技术方案，所述数据输入单元为寄存器。

根据本发明说明书的一方面，提供一种硬件加速方法，采用所述的硬件加速单元实现，所述方法包括：

获取总线状态；

在总线处于空闲状态时，读取待运算数据；

执行与待运算数据对应的加速引擎，所述加速引擎包括用于除法运算的加速引擎、用于开根号运算的加速引擎、用于平方和开根号运算的加速引擎、用于正余弦运算的加速引擎和用于反正切运算的加速引擎；

读取加速引擎的计算结果。

根据本发明说明书的一方面，提供一种芯片，包括所述的硬件加速单元。

上述技术方案所设计的计算控制类芯片，适合支持复杂的矢量控制算法，能够降低***中断负载率过高的现象，满足三相无刷电机矢量控制的应用场景需求。

根据本发明说明书的一方面，提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行所述的硬件加速单元，或者，执行所述的硬件加速方法的步骤。

与现有技术相比，本发明的有益效果在于：

1.本发明构建了包括多个可并行运算的加速引擎的硬件加速单元，多个加速引擎通过AHB总线与CPU进行交互，可以提供硬件加速的除法、开根号、开平方根、三角函数等运算，能够支持复杂的矢量控制算法，降低***中断负载率，满足三相无刷电机的矢量控制需求。

2.本发明的各加速引擎可以同时运行而不会相互干扰，实现并行运算。

3.本发明的除法加速引擎可实现支持32位/24位的有、无符号除法，支持商和余数的计算，且包含除零标志指示，在准确可靠的前提下兼顾除法执行效率。

4.本发明的平方和开根号加速引擎用于计算两个矢量电流或电压的幅值，支持Q0~Q15格式，输入范围为-32768~32767，仅需一个32bit寄存器进行数据输入，通过减少配置寄存器个数相应的减少了整个计算所需的时钟周期。

5.本发明的正余弦计算在Sin/Cos加速引擎中实现，计算角度的正余弦值大小，其中正余弦输入定点数格式为Q16，即输入范围为0~65536，输出定点数格式为Q14，即输出范围为-16384~16383，正余弦计算输出可同时得到。

6.本发明的反正切加速引擎计算两个输入值之商的反正切角度，并根据两个输入值的正负号进行象限处理，输出定点数格式为Q16的角度信号，即输出范围为0~65536。

附图说明

图1为根据本发明实施例的硬件加速单元结构示意图。

图2为根据本发明实施例的除法加速引擎的实现流程。

图3为根据本发明实施例的平方和开根号和反正切引擎的实现流程图。

图4为根据本发明实施例的正余弦引擎的实现流程图。

图5为根据本发明实施例的芯片结构示意图。

具体实施方式

以下将结合附图对本发明各实施例的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施例，都属于本发明所保护的范围。

本发明提供一种硬件加速单元，包括多个并行运算的加速引擎，每一加速引擎实现一不同的数学运算，用于提供并行的除法运算、开根号运算、平方和开根号运算、正余弦运算或反正切运算；多个所述加速引擎分别通过总线与CPU进交互，且每一加速引擎对应一数据输入单元，用于按照运算顺序依次向各个数据输入单元进行数据写入，各个加速引擎根据运算顺序依次在总线空闲状态时读取对应数据输入单元的数据并执行对应的数学运算。

图1为HAU结构框图，HAU (Hardware Acceleration Unit)硬件加速单元通过AHB总线与CPU进行交互，可以提供硬件加速的除法、开根号、开平方根、三角函数等运算，共包含5个加速引擎，分别为除法加速引擎、开根号加速引擎、平方和开根号加速引擎、正余弦加速引擎、反正切加速引擎。

不同加速引擎计算过程中，通过BUSY标志判定是否计算完成，BUSY标志位清零后即可从加速引擎中获取计算结果。

作为一种实施方式，除法加速引擎的实现方式具体包括：

定义除法计算的表达式为：

with |REM|<|D|ulp and Sign(REM) = Sign(X)

其中，X是被除数，D是除数，Q是商，REM是余数。

商的精度由ulp（unit of last position）来决定；如果ulp=1，商q则是整数；如果ulp=r^(-n)，n是商数个数，r是所有输入操作数的基，此时商为小数。

通过数字递归算法进行除法操作时迭代n次，每次迭代中产生基r的商，其中商的最高位先产生。经过n次迭代后除法完成，产生了n个商数，商Q表示为：

除法递归过程的表达式可以表示为：

Q的选择有三种情况：

当，则Q值为1, 即最高两比特为0.1；

当，则Q值为-1，即最高两比特为1.0；

其他情况，Q值为0；

如图2所示，除法加速引擎在开启HAU时钟后连接AHB时钟，判断输入除数是否为零，当出现除零情况时结束计算，除零指示标志置位。

需要说明的是，在判断输入除数是否为零之前，还要判断HAU模块的BUSY标志位确定当前总线是否处于空闲状态，并在总线处于空闲状态时，进行除数是否为零的判断。

若输入除数不为零，则对输入数据取绝对值并进行除数比特流处理。为方便不同定点数格式计算，加入移位除法运算处理进程，并判断除法输入的移位值是否在可配置范围内。当在正常范围内时进行除法递归过程计算，并通过不同迭代计算过程中的值，组合输出得到除法计算的商和余数的大小。

当计算类型为除法运算时，被除数在除法控制寄存器中输入，最大为24位。

除输入被除数外，除法寄存器还包含：被除数左移位数、结果值（商或余数）选择、除法符号类型（有符号/无符号）选择。

当设置为有符号除法时被除数范围为-(2^31) ~ (2^31-1)，无符号除法时被除数范围为0 ~ (2^32-1)，此时除法的所有配置及被除数只需写入一个32bit寄存器中即可存放和生效（正常需2个32bit寄存器），而每个寄存器写入需5~6个***总线周期，通过减少配置寄存器个数，相应的减少了计算所需的时钟周期。

如图3所示，平方和开根号引擎和反正切引擎采用相同迭代算法实现，当开启HAU时钟后连接AHB时钟，判断HAU模块的BUSY标志位确定当前总线是否处于空闲状态，如是则获取输入参数的正负值极性，并进行绝对值处理开始迭代计算，当达到设定的迭代计算次数后，通过计算类型标注位区分是平方和开根号计算还是反正切计算。

当计算类型为反正切运算时，在Q16格式输出处理之前，对反正切结果进行象限及边界处理功能。

象限处理：

一象限Q16格式处理前计算输出：PI – z；

二象限Q16格式处理前计算输出：PI – z；

三象限Q16格式处理前计算输出：PI + z；

四象限Q16格式处理前计算输出：2*PI – z；

边界处理：

x0=0&y0<0时，计算输出：PI + z；

x0>0&y0=0时，计算输出：z；

结果特殊的Q16格式调整后，硬件反正切支持的计算公式如下：

其中：

x，y为16位有符号数，范围为-(2^15) ~ (2^15-1)。计算结果范围为 (0~65535)，重映射对应 (0~360°)。

当计算类型为平方和开根号运算时，输入寄存器中输入x，y均为16位有符号整数，范围为-(2^15) ~ (2^15-1)，此时只需写入一个32bit寄存器中即可存放和生效（正常需2个32bit寄存器），而每个寄存器写入需5~6个***总线周期，通过减少配置寄存器个数，相应的减少了计算所需的时钟周期。

如图4所示，正余弦加速引擎在开启HAU时钟后连接AHB时钟，判断HAU模块的BUSY标志位确定当前总线是否处于空闲状态，如是则开始进行迭代角度查表，当达到设定的迭代计算次数后，再进行定点数格式处理并输出计算结果。

此过程中，正余弦计算输出可同时得到，其中正余弦输入定点数格式为Q16，输出定点数格式为Q14，即16位输入为无符号数，范围 (0~65535)，重映射对应 (0~360°)，16位输出为有符号数，范围 (-16384 ~ 16383)重映射对应(-1 ~ 1)。

本发明还提供一种硬件加速方法，可采用前面所述的硬件加速单元实现，所述方法包括：

步骤1，当加速引擎在开启硬件加速单元时钟后，连接AHB总线时钟，并判断硬件加速单元的BUSY标志位，以确定当前总线是否处于空前状态。

步骤2，在总线处于空闲状态时，读取待运算数据；待运算数据可通过寄存器读入。

步骤3，执行与待运算数据对应的加速引擎，所述加速引擎包括用于除法运算的加速引擎、用于开根号运算的加速引擎、用于平方和开根号运算的加速引擎、用于正余弦运算的加速引擎和用于反正切运算的加速引擎。

多个加速引擎可并行运算，相互之间不会干扰。

可选地，除法加速引擎执行指令如下：

判断输入除数是否为零；

基于比特流处理后的数据，进行移位除法运算；

在输入的移位值位于可配置范围内时，进行除法递归计算；

组合不同迭代过程中的值，输出除法计算的商和余数。

可选地，平方和开根号加速引擎执行指令如下：

判断当前总线AHB是否处于空闲状态；

在当前总线AHB处于空闲状态时，获取输入数据并进行绝对值处理；

执行迭代计算，并在达到设定的迭代计算次数后，通过计算类型标注位区分是否为平方和开根号运算；

在通过计算类型标注位判定为平方和开根号运算时，将输入数据写入寄存器，执行平方和开根号输出。

可选地，反正切加速引擎执行指令如下：

判断当前总线AHB是否处于空闲状态；

执行迭代计算，并在达到设定的迭代计算次数后，通过计算类型标注位区分是否为反正切运算；

在通过计算类型标注位判定为反正切运算时，对迭代计算结果进行四象限及边界处理，并以反正切格式输出计算结果。

可选地，正余弦加速引擎执行指令如下：

判断当前总线AHB是否处于空闲状态；

步骤4，读取加速引擎的计算结果。不同加速引擎计算过程中，通过BUSY标志判定是否计算完成，BUSY标志位置位清零后即可从加速引擎中获取计算结果。

关于方法中各步骤的处理流程，以及各步骤之间的交互流程的描述可以参照上述硬件加速单元实施方式中的相关说明，在此不做赘述。

本发明还提供一种芯片，如图5所示，包括硬件加速单元、寄存器和总线，寄存器用于读入待运算数据；所述硬件加速单元与所述寄存器之间通过总线通信，使得所述硬件加速单元执行以下指令：

获取总线状态；

在总线处于空闲状态时，读取待运算数据；

读取加速引擎的计算结果。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述所述的硬件加速单元，或者执行上述方法实施例中所述的硬件加速方法的步骤。其中，该存储介质可以是易失性或非易失的计算机可读取存储介质。

本发明还提供一种计算机程序产品，该计算机程序产品承载有程序代码，所述程序代码包括的指令可用于执行上述方法实施例中所述的硬件加速方法的步骤，具体可参见上述方法实施例，在此不再赘述。

其中，上述计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中，所述计算机程序产品具体体现为计算机存储介质，在另一个可选实施例中，计算机程序产品具体体现为软件产品，例如软件开发包(Software Development Kit，SDK)等等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的产品的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。在本发明所提供的几个实施例中，应该理解到，所揭露的产品和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台电子设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

在本说明书的描述中，参考术语“一个实施方式”、“某些实施方式”、“示意性实施方式”、“示例”、“具体示例”、或“一些示例”等的描述意指结合所述实施方式或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施方式或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案。

Claims

1.一种硬件加速单元，其特征在于，包括多个并行运算的加速引擎，每一加速引擎实现一不同的数学运算，用于提供并行的除法运算、开根号运算、平方和开根号运算、正余弦运算或反正切运算；多个所述加速引擎分别通过总线与CPU进交互，且每一加速引擎对应一数据输入单元，用于按照运算顺序依次向各个数据输入单元进行数据写入，各个加速引擎根据运算顺序依次在总线空闲状态时读取对应数据输入单元的数据并执行对应的数学运算。

2.根据权利要求1所述的一种硬件加速单元，其特征在于，用于除法运算的加速引擎，执行如下指令：

判断当前总线是否处于空闲状态；

在当前总线处于空闲状态时，判断输入除数是否为零；

基于比特流处理后的数据，进行移位除法运算；

在输入的移位值位于可配置范围内时，进行除法递归计算；

组合不同迭代过程中的值，输出除法计算的商和余数。

3.根据权利要求1所述的一种硬件加速单元，其特征在于，用于平方和开根号运算和反正切运算的加速引擎，均执行如下指令：

判断当前总线是否处于空闲状态；

4.根据权利要求3所述的一种硬件加速单元，其特征在于，在通过计算类型标注位判定为反正切运算时，用于反正切运算的加速引擎还执行如下指令：对迭代计算结果进行四象限及边界处理，并以反正切格式输出计算结果。

5.根据权利要求3所述的一种硬件加速单元，其特征在于，在通过计算类型标注位判定为平方和开根号运算时，用于平方和开根号运算的加速引擎还执行如下指令：将输入数据写入寄存器，执行平方和开根号输出。

6.根据权利要求1所述的一种硬件加速单元，其特征在于，用于正余弦运算的加速引擎，执行如下指令：

判断当前总线是否处于空闲状态；

7.根据权利要求1所述的一种硬件加速单元，其特征在于，所述数据输入单元为寄存器。

8.一种硬件加速方法，采用权利要求1-7中任一项所述的硬件加速单元实现，其特征在于，所述方法包括：

获取总线状态；

在总线处于空闲状态时，读取待运算数据；

读取加速引擎的计算结果。

9.一种芯片，其特征在于，包括如权利要求1-7中任一项所述的硬件加速单元。

10.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至7中任一项所述的硬件加速单元，或者，执行如权利要求8所述的硬件加速方法的步骤。