CN117372495A

CN117372495A - 一种加速数字图像处理中不同位宽点积的计算方法

Info

Publication number: CN117372495A
Application number: CN202311195824.4A
Authority: CN
Inventors: 俞林杰; 罗嘉蕙; 张丹枫
Original assignee: Jindi Space Time Hangzhou Technology Co ltd
Current assignee: Jindi Space Time Hangzhou Technology Co ltd
Priority date: 2023-09-15
Filing date: 2023-09-15
Publication date: 2024-01-09

Abstract

本发明属于图像处理领域，公开了一种加速数字图像处理中不同位宽点积的计算方法。将不同位宽的输入数据和系数数据分别按特定的排布放入第一寄存器和第二寄存器。保证了第一寄存器和第二寄存器在元素位宽不同的情况下，有相同的数据总长度，方便硬件读入数据。同时，该排布在对输入数据和系数数据进行点积运算时，利用不同通道间系数一样的特点，将系数数据进行了复用，有效减少了数据重复被读入执行单元的次数。

Description

一种加速数字图像处理中不同位宽点积的计算方法

技术领域

本发明属于图像处理领域，具体涉及一种加速数字图像处理中不同位宽点积的计算方法。

背景技术

随着数字图像处理算法在日常生活中的普遍使用，及视觉AI算法的大规模落地，相关算法的性能变得越来越重要。在AI应用中，的网络需要分辨率的图像作为输入。但是各视频设备的输出分辨率都不一样，且基本都大于网络需求的分辨率。因此，需要通过缩放图像，以满足网络的输入需求。在人脸识别等场景中，需要调整图像中，某些物体的角度，使得更好的被算法识别。这些场景，都离不开数字图像处理领域的调整图像尺寸算法(resize算法)，数值重映射算法(remap算法)和仿射算法(affine算法)。这些算法中比较关键的计算是插值计算，而插值方式有线性插值，最临近插值等，其中使用最频繁的就是双线性插值计算。另外，神经网络对于图像的输入格式也有一定要求，一般为RGB，而摄像头输出原始数据一般为YUV格式，因此需要用到图像格式转换的算法。

不管是双线性插值计算，还是图像格式转换，其核心计算都是点积计算。下面以双线性插值计算为例，进行描述。

双线性插值法也叫双线性内插，其核心思想是在XY两个方向分别进行一次线性插值。双线性插值作为数值分析中的一种插值算法，广泛应用在信号处理，数字图像和视频处理等方面。

双线性插值是两个变量的插值函数的线性插值扩展，双线性插值的核心思想是在两个方向上分别进行一次线性插值。如图1所示，假设(x,y)为待求点，而(x1,y1)，(x1,y2)，(x2,y1)，(x2,y2)为最邻近的四个点。这四个点的值分别为Q11，Q12，Q21，和Q22。想要得到P点的值，可以先在X方向上，进行两次插值，然后在Y方向上进行一次插值。

P的计算可以简单表示为：

P＝W1×Q11+W2×Q12+W3×Q21+W4×Q22；

其中，W1＝(x2-x)/(x2-x1)×((y2-y)/(y2-y1))，

W2＝(x2-x)/(x2-x1)×((y-y1)/(y2-y1))，

W3＝(x-x1)/(x2-x1)×((y2-y)/(y2-y1))，

W4＝(x-x1)/(x2-x1)×((y-y1)/(y2-y1))。

而在图像处理中，对于一个目的像素，其对应的源像素点的坐标，基本是浮点数(需要乘除缩放倍数，缩放倍数大概率是浮点数)。假定此坐标为(i+u,j+v)，其中i、j均为浮点坐标的整数部分，u、v为浮点坐标的小数部分，是取值[0,1)区间的浮点数，则这个像素得值f(i+u,j+v)可由原图像中坐标为(i,j)、(i+1,j)、(i,j+1)、(i+1,j+1)所对应的周围四个像素的值决定。计算P的公式中的W1，W2，W3，W4中分母项，(x2-x1)和(y2-y1)都等于1。其计算公式就可以转化为：

f(i+u,j+v)＝(1-u)×(1-v)×f(i,j)+(1-u)×v×f(i,j+1)+u×(1-v)×f(i+1,j)+u×v×f(i+1,j+1)。

可以看到，其关键计算为四个输入和四个系数的点积计算。

而在图像处理领域中，会经常遇到需要进行点积的两个操作数的位宽是不一样的。因为像素点灰度值固定为8位无符号整数(uint8)，而系数会被量化到2^N的定点数值。为了保证精度系数会被量化到16位有符号整数(int16)，或者32位有符号整数(int32)。还是以双线性插值计算为例，系数量化到int16就可以满足精度要求，其计算过程可以转化为result＝a₀×b₀+a₁×b₁+a₂×b₂+a₃×b₃，a₀，a₁，a₂，a₃分别对应上图中的Q12，Q22，Q11，Q21。加速这个计算过程就可以加速双线新插值计算。

对于当前通用的CPU来说，可以使用单指令多数据(SIMD)技术来加速相关计算。但是面对不同位宽的乘累加计算，需要先进行扩位操作，保证两个输入位宽对齐，才能进行乘累加计算。基于SIMD指令和现有硬件，其计算流程主要有两种方式，以128位寄存器描述如下：

方式一，排布如图2所示，把四个输入数据和四个系数，分别放入五个寄存器中。其计算过程主要有扩位和扩位乘累加两个步骤。该方式需要先将uint8的输入数据，扩位到int16的数据，再进行一次扩位乘法，三次扩位乘累加。

C₀＝a₀₀×b₀₀+a₀₁×b₀₁+a₀₂×b₀₂+a₀₃×b₀₃，

C₁＝a₁₀×b₀₀+a₁₁×b₀₁+a₁₂×b₀₂+a₁₃×b₀₃，

C₂＝a₂₀×b₀₀+a₂₁×b₀₁+a₂₂×b₀₂+a₂₂×b₀₃，

C₃＝a₃₀×b₀₀+a₃₁×b₀₁+a₃₂×b₀₂+a₃₃×b₀₃，

C₀为通道0的输出图像计算结果，C₁为通道1的输出图像计算结果，C₂为通道2的输出图像计算结果，C₃为通道3的输出图像计算结果。

不管是单纯的扩位，还是扩位乘累加计算，总共涉及到八次扩位操作。

方式二，排布如图3所示，把四个输入数据和四个系数，分别放入四个寄存器中。其计算过程主要有扩位和16位点积(dot)计算两个步骤。该方式需要先将uint8的输入数据，扩位到int16的数据，再进行两次16位dot计算。

C₀＝a₀₀×b₀₀+a₀₁×b₀₁+a₀₂×b₀₂+a₀₃×b₀₃，

C₁＝a₁₀×b₀₀+a₁₁×b₀₁+a₁₂×b₀₂+a₁₃×b₀₃，

C₂＝a₂₀×b₀₀+a₂₁×b₀₁+a₂₂×b₀₂+a₂₂×b₀₃，

C₃＝a₃₀×b₀₀+a₃₁×b₀₁+a₃₂×b₀₂+a₃₃×b₀₃，

相比于方式一，方式二使用16位点积计算替代了扩位乘累加计算，减少了四次扩位操作，还需要四次扩位计算。

这些扩位操作，从整个双线性插值计算来看，都只是中间值，不是必须的。而且对于硬件来说，扩位操作回写成本较高，开销较大。一次扩位操作至少需要两个执行周期，或拆分成两条指令执行。而且这两个方式的计算过程中，使用的都是16x16的乘法器，占用较多资源。

发明内容

本发明的目的在于提供一种加速数字图像处理中不同位宽点积的计算方法，通过的元素排布，在复用系数数据的同时，保证了点积的两个输入，有相同的数据总位宽，以便于硬件处理。

为了达到上述目的，本发明采用如下技术方案：

一种加速数字图像处理中不同位宽点积的计算方法，包括如下步骤：

(1)将输入数据按排布放入寄存器，将系数数据按排布放入寄存器，使寄存器和寄存器的总数据长度一致；

(2)取出寄存器中的输入数据和寄存器中的系数数据，将不同位宽的输入数据和系数数据进行点积运算，得到输出图像计算结果。

将输入图像通过缩放生成输出图像，将输入图像像素值作为输入数据放入第一寄存器，即寄存器V_n，将系数数据放入第二寄存器，即寄存器V_p。一般来说图像数据为8bit，系数数据为16bit或者32bit。假设寄存器V_n存有x组输出图像像素值，为了使寄存器V_n和寄存器V_p总数据长度一致，对于16bit的系数数据来说，寄存器V_p存有x/2组系数数据，对于32bit的系数数据来说，寄存器V_p存有x/4组系数数据。

以16bit的系数数据为例，从寄存器V_n中取出第一组输出图像像素值，从寄存器V_p中取出第一组系数数据，通过8×16乘法器进行点积运算，得到结果，重复上述步骤。两组输入图像像素值对应一组系数数据，比如寄存器V_n中第一组和第二组输入图像像素值与寄存器V_p中第一组系数数据进行点积计算，寄存器V_n+1中第三组和第四组输入图像像素值与寄存器V_p中第二组系数数据进行点积计算，依次类推，最后得到输出图像像素值。在16位场景中，16bit的系数，被复用了两次。

对于32bit的系数数据，则是四组组输入图像像素值对应一组系数数据。在32位场景中，32bit的系数，可以被复用四次。

一种使用加速数字图像处理中不同位宽点积的计算方法的双线性差值算法，包括如下步骤：

(1)根据输入图像和输出图像得到缩放系数，并计算输出图像对应到输入图像的像素点坐标；

(2)输出图像像素点的坐标乘以缩放系数，得到对应的输入图像像素点坐标的整数部分和小数部分，整数部分为输入图像坐标值放入内存，小数部分进行量化后计算得到系数值，小数部分量化的方法为：横坐标的小数部分乘以128得到系数u，用128减去u得到(1-u)，纵坐标的小数部分乘以128得到系数v，用128减去v得到(1-v)，将u和(1-u)记为系数组1，v和(1-v)记为系数组2，系数组1和系数组2进行扩位乘法，得到(1-u)×(1-v)，u×(1-v)和u×(1-v)，u×v两组系数数据，进行元素交织后重新排序为(1-u)×(1-v)，(1-u)×v，u×(1-v)，u×v放入第二寄存器，将输入图像像素值作为输入数据按顺序放入第一寄存器，使第一寄存器和第二寄存器总数据长度一致；

(3)从第一寄存器取出输入图像像素值，从第二寄存器取出系数数据，通过乘法器进行点积运算，重复上述步骤直至第一寄存器中所有输出图像像素数据都进行点积运算，得到所有的输出图像像素值。

由于采用上述技术方案，本发明具有以下有益效果：

1、有效解决了不同位宽元素排布问题，保证了元素位宽不同，输入寄存器总长度依然保持对齐。硬件不需要额外增加读口资源，就能高效执行。

2、由于数字图像中，不同通道间系数数据一样，本发明通过该特点实现了通道间系数的复用，有效减少了数据的重复读入执行单元的次数，偶数通道的场景，加速效果尤其明显。

3、省去了计算中需要进行的扩位操作，光从指令数上看，就有非常大的提升。

4、有效的减少了乘法器资源。

附图说明

下面根据附图对本发明作进一步说明。

图1为双线性插值法的原理图。

图2为背景技术中方式一的排布图。

图3为背景技术中方式二的排布图。

图4为实施例1中的排布图。

图5为实施例2中的排布图。

图6为实施例3中的排布图。

图7为实施例4中的排布计算图。

图8为实施例4中的四通道双线性插值法的原理图。

图9为实施例4中的流程图。

具体实施方式

实施例1

(1)在输入图像有2个通道且系数数据是16bit的情况下，假设每个通道的输入值为a_ck，其中c为通道值，k为每组内像素点索引，系数数据记为b₀，b₁，b₂，b₃，通过交织指令，使第一寄存器中的输入数据排布为a₀₀、a₀₁、a₀₂、a₀₃、a₁₀、a₁₁、a₁₂、a₁₃，第二寄存器中系数数据排布为b₀、b₁、b₂、b₃，输入数据被放入一个第一寄存器内，排布图如图4所示；

(2)将排布后的两组输入数据a₀₀、a₀₁、a₀₂、a₀₃和a₁₀、a₁₁、a₁₂、a₁₃，分别和系数数据b₀、b₁、b₂、b₃通过8×16的乘法器进行一次点积计算，即

C₀₀＝a₀₀×b₀+a₀₁×b₁+a₀₂×b₂+a₀₃×b₃，

C₁₀＝a₁₀×b₀+a₁₁×b₁+a₁₂×b₂+a₁₃×b₃，

C₀₀为通道0的输出图像计算结果，C₁₀为通道1的输出图像计算结果。

实施例2

(1)在输入图像有4个通道且系数数据是16bit的情况下，假设每个通道的输入值为a_ck，其中c为通道值，k为每组内像素点索引，系数数据记为b₀，b₁，b₂，b₃，通过交织指令，使其中一个第一寄存器中的输入数据排布为a₀₀、a₀₁、a₀₂、a₀₃、a₁₀、a₁₁、a₁₂、a₁₃，另一个第一寄存器中的输入数据排布为a₂₀、a₂₁、a₂₂、a₂₃、a₃₀、a₃₁、a₃₂、a₃₃，第二寄存器中系数数据排布为b₀、b₁、b₂、b₃，输入数据被放入两个第一寄存器内，排布图如图5所示；

(2)在输入图像有4个通道且系数数据是16bit的情况下，基于步骤(1)的排布，通过8×16的乘法器，需要进行两次点积计算，

第一次，两组输入数据a₀₀、a₀₁、a₀₂、a₀₃和a₁₀、a₁₁、a₁₂、a₁₃，分别和系数数据b₀、b₁、b₂、b₃通过8×16的乘法器进行点积计算，即

C₀₀＝a₀₀×b₀+a₀₁×b₁+a₀₂×b₂+a₀₃×b₃，

C₁₀＝a₁₀×b₀+a₁₁×b₁+a₁₂×b₂+a₁₃×b₃，

第二次，两组输入数据a₂₀、a₂₁、a₂₂、a₂₂和a₃₀、a₃₁、a₃₂、a₃₃，分别和系数数据b₀、b₁、b₂、b₃通过8×16的乘法器进行点击计算，即

C₂₀＝a₂₀×b₀+a₂₁×b₁+a₂₂×b₂+a₂₂×b₃，

C₃₀＝a₃₀×b₀+a₃₁×b₁+a₃₂×b₂+a₃₃×b₃，

C₀₀为通道0的输出图像计算结果，C₁₀为通道1的输出图像计算结果，C₂₀为通道2的输出图像计算结果，C₃₀为通道3的输出图像计算结果。

实施例3

(1)在输入图像有4个通道且系数数据是32bit的情况下，假设每个通道的输入值为a_ck，其中c为通道值，k为每组内像素点索引，系数数据记为b₀，b₁，b₂，b₃，通过交织指令，使第一寄存器中的输入数据排布为a₀₀、a₀₁、a₀₂、a₀₃、a₁₀、a₁₁、a₁₂、a₁₃、a₂₀、a₂₁、a₂₂、a₂₃、a₃₀、a₃₁、a₃₂、a₃₃，第二寄存器中系数数据排布为b₀、b₁、b₂、b₃，输入数据被放入一个第一寄存器内，排布图如图6所示；

(2)在输入图像有4个通道且系数数据是32bit的情况下，基于步骤(1)的排布，通过8×32的乘法器，需要进行一次点积计算，即

C₀₀＝a₀₀×b₀+a₀₁×b₁+a₀₂×b₂+a₀₃×b₃，

C₁₀＝a₁₀×b₀+a₁₁×b₁+a₁₂×b₂+a₁₃×b₃，

C₂₀＝a₂₀×b₀+a₂₁×b₁+a₂₂×b₂+a₂₂×b₃，

C₃₀＝a₃₀×b₀+a₃₁×b₁+a₃₂×b₂+a₃₃×b₃，

实施例4

一种加速数字图像处理中不同位宽点积的计算方法，其中排布如图7所示。以双线性插值法为例，对于四通道的图像，以f(i,j)表示该图像(i,j)点的像素值。四通道的双线性插值原理如图8所示，每个通道的像素点用一个形状(菱形、圆形、三角形和六边形)表示，相同形状的像素点分别表示同一个通道的数据，需要对四个通道分别进行一次插值计算。其中Q11，Q12，Q21和Q22四个点的位置选取，原理与背景技术表述中一致。不一样的是，得到每个Q点位置后，需要连续读取四个点(分别来自四个通道)，用以四个通道的插值计算。如图9所示，具体实施步骤如下。

1、根据输入图像和输出图像计算横向缩放系数P_W＝W_输入/W_输出，纵向缩放系数P_H＝H_输入/H_输出。其中H_输入为输入图像尺寸的长，W_输入为输入图像尺寸的宽，H_输出为输出图像尺寸的长，W_输出为输出图像尺寸的宽。

2、将输出图像每个像素点P横坐标的值[0,W_输出)，分别乘以横向缩放系数P_W得到对应输入图像横坐标值[0,W_float)，将每一项表示为整数部分加小数部分的形式，m表示横坐标整数部分。通过对[0,W_float)向下取整，得到其整数部分[0,W_m)，然后计算每一项横坐标和对应整数部分的差值，得到相对应的横坐标小数部分。同理，可以得到纵坐标的值[0,H_输出)，对应的输入坐标的整数部分[0,H_n)和纵坐标小数部分，n表示纵坐标整数部分。

如图8所示，每个输出像素点P对应的四个输入像素点Q11、Q12、Q21、Q22，Q11为f(i,j)，Q12为f(i,j+1)，Q21为f(i+1,j)，Q22为f(i+1,j+1)，其中i属于[0,W_m)，j属于[0,H_n)。将横坐标整数部分和纵坐标整数部分记为表格T，放入内存备用。将横坐标小数部分和纵坐标小数部分分别乘以128量化到uint8，得到u和v，u为量化后横坐标小数部分，v为量化后纵坐标小数部分，然后用128减去u得到(1-u)，用128减去v得到(1-v)。将u，(1-u)记为系数组1，v，(1-v)记为系数组2。将系数组1按照(1-u)，u的顺序放入内存，将系数组2按照(1-v)，v的顺序放入内存。

3、以寄存器宽度位128位为例，从内存中加载表格T，通过表格T，从输入图像中获取输出图像对应的32个像素点，总共8组，每个通道有2组，每组4个。每组通道的四个点的位置为Q11(i,j)，Q12(i,j+1)，Q21(i+1,j)，Q22(i+1,j+1)。

如图7所示，将每个像素点的灰度值记为a_ck，其中c为通道值，k为每组内像素点索引。通过交织指令(可见ARM指令集描述手册)，将通道1的两组像素点，即a₀₀-a₀₃和a₀₄-a₀₇，按顺序排列放入其中一个第一寄存器，即寄存器V_n，的[0,31]位和[64,95]位，将通道2的两组像素点，即a₁₀-a₁₃和a₁₄-a₁₇，按顺序排列放入寄存器V_n的[32,63]位和[95,127]位。寄存器V_n中存放像素点值，其数据类型为uint8。

此时，通道3和通道4的四组数据，也以相同的排布，放到了另一个第一寄存器，即寄存器V_n+1里面。

4、加载两组系数组1放入寄存器V_m，加载两组系数组2，将每组系数组2各放入寄存器X_k和寄存器X_q。然后使用扩位乘法。此时V_m中为2组(1-u)，u数据对，X_k中为得到1组(1-v)，v的数据对。分别用V_m和X_k、X_q进行扩位乘法，可以得到(1-u)×(1-v)，u×(1-v)和u×(1-v)，u×v两组系数。通过交织指令，重新排序为(1-u)×(1-v)即b₀，(1-u)×v即b₁，u×(1-v)即b₂，u×v即b₃，放入第二寄存器，即寄存器V_p。如图9所示，寄存器V_p中存放系数，数据类型为int16，排布方式按组连续排布。

5、通过步骤3和步骤4，像素点和对应的系数已经按照图7排布完成。如图4所示，将寄存器V_n中的像素点数据和寄存器V_p中的系数数据进行点积运算，此时用到了8x16的乘法器。具体计算方式如下：

C₀₀＝a₀₀×b₀+a₀₁×b₁+a₀₂×b₂+a₀₃×b₃

C₁₀＝a₁₀×b₀+a₁₁×b₁+a₁₂×b₂+a₁₃×b₃

C₀₁＝a₀₄×b₄+a₀₅×b₅+a₀₆×b₆+a₀₇×b₇

C₁₁＝a₁₄×b₄+a₁₅×b₅+a₁₆×b₆+a₁₇×b₇

将结果C₀₀、C₁₀、C₀₁、C₁₁存入寄存器C，其中C₀₀、C₁₀、C₀₁、C₁₁数据类型为int32。同理可以得到剩余两个通道的计算结果。

该计算过程，在寄存器V_n和寄存器V_p中数据位宽不一样的情况下，即保证寄存器总数据长度的对齐，又对寄存器V_p中的元素进行了复用。

6、通过两次带饱和截断的操作，把结果从int32缩位到uint8。然后将结果进行一次交织，就可以使用连续存储指令，放入内存。

缩位方法可以如CN202211664911.5所示。

对比例1

同样也是双线性插值法，其中点积的计算如背景技术中的方式一，背景技术中提到的方式一，在整个计算过程中，不同点主要有：

1.步骤3中，方式一每组的四个像素点，分别放在四个寄存器中，如图2所示。

2.步骤4中，方式一不需要进行扩位乘法和排序操作，只需要进行扩位操作。

3.步骤5中，方式一需要先对像素点进行扩位操作，然后使用扩位乘累加操作，分别乘以系数数据进行乘累加。需要用到一次扩位乘法，三次扩位乘累加。这四次乘法计算，对应的是本方案的点积计算。相比于实施例，总共多出8次扩位操作。并且，使用的是16×16的乘法器资源，系数也没有在通道间复用。

4.步骤6中，在存储的时候，由于各个通道分开计算，相比于本方案，需要额外两次的交织操作。

下面，以开源计算机视觉算法库(opencv)为实现平台，分别将基于第五代开源精简指令集(riscv)标准向量1.0的版本和基于riscv标准向量1.0增加本方案实现的版本的resize算法进行了对比，结果如表1所示。

表1

表1中，分别使用实施例4和对比例1进行了图像尺寸缩小1280x720到640x480和图像尺寸放大640x480到1280x720两种计算。其中总指令数表示执行整个resize算法需要的所有指令数总和，包括总通用指令数和总向量指令数；而总向量指令数，仅表示所有的向量指令数的总和。可以看到，不管是图像尺寸缩小，还是图像尺寸放大，实施例1相比于对比例1，都有大于一半的指令数减少。本方案极大的减少了指令数。对应到硬件性能，可以有1倍以上的提升。

以上仅为本发明的具体实施例，但本发明的技术特征并不局限于此。任何以本发明为基础，为解决基本相同的技术问题，实现基本相同的技术效果，所作出地简单变化、等同替换或者修饰等，皆涵盖于本发明的保护范围之中。

Claims

1.一种加速数字图像处理中不同位宽点积的计算方法，其特征在于，包括如下步骤：

(1)将输入数据按排布放入第一寄存器，将系数数据按排布放入第二寄存器，使第一寄存器和第二寄存器的总数据长度一致；

(2)取出第一寄存器中的输入数据和第二寄存器中的系数数据，将不同位宽的输入数据和系数数据进行点积运算，得到输出图像计算结果。

2.根据权利要求1所述一种加速数字图像处理中不同位宽点积的计算方法，其特征在于：步骤(1)中，每一个输出数据都会对应n个输入数据和t个系数数据，将相应的n个输入数据和t个系数数据连续排布，满足点积计算的排布需求，其中n和t分别为大于零的整数。

3.根据权利要求1所述一种加速数字图像处理中不同位宽点积的计算方法，其特征在于：步骤(2)中，点积运算时对第二寄存器中的系数进行复用，对于同一个第一寄存器内的不同组输入数据，其乘以的系数值相同，复用次数为系数位宽/输入数据位宽。

4.根据权利要求2所述一种加速数字图像处理中不同位宽点积的计算方法，其特征在于，步骤(1)中，使第一寄存器和第二寄存器的总数据长度一致的方法如下：在输入图像有2个通道且系数数据是16bit的情况下，假设每个通道的输入值为a_ck，其中c为通道值，k为每组内像素点索引，系数数据记为b₀，b₁，b₂，b₃，通过交织指令，使第一寄存器中的输入数据排布为a₀₀、a₀₁、a₀₂、a₀₃、a₁₀、a₁₁、a₁₂、a₁₃，第二寄存器中系数数据排布为b₀、b₁、b₂、b₃，输入数据被放入一个第一寄存器内。

5.根据权利要求4所述一种加速数字图像处理中不同位宽点积的计算方法，其特征在于：步骤(2)中，基于步骤(1)的排布，将排布后的两组输入数据a₀₀、a₀₁、a₀₂、a₀₃和a₁₀、a₁₁、a₁₂、a₁₃，分别和系数数据b₀b₁b₂b₃通过8×

16的乘法器进行一次点积计算，即

C₀₀＝a₀₀×b₀+a₀₁×b₁+a₀₂×b₂+a₀₃×b₃，

C₁₀＝a₁₀×b₀+a₁₁×b₁+a₁₂×b₂+a₁₃×b₃，

6.根据权利要求2所述一种加速数字图像处理中不同位宽点积的计算方法，其特征在于，步骤(1)中，使第一寄存器和第二寄存器的总数据长度一致的方法如下：在输入图像有4个通道且系数数据是16bit的情况下，假设每个通道的输入值为a_ck，其中c为通道值，k为每组内像素点索引，系数数据记为b₀，b₁，b₂，b₃，通过交织指令，使其中一个第一寄存器中的输入数据排布为a₀₀、a₀₁、a₀₂、a₀₃、a₁₀、a₁₁、a₁₂、a₁₃，另一个第一寄存器中的输入数据排布为a₂₀、a₂₁、a₂₂、a₂₃、a₃₀、a₃₁、a₃₂、a₃₃，第二寄存器中系数数据排布为b₀、b₁、b₂、b₃，输入数据被放入两个第一寄存器内。

7.根据权利要求6所述一种加速数字图像处理中不同位宽点积的计算方法，其特征在于：步骤(2)中，在输入图像有4个通道且系数数据是16bit的情况下，基于步骤(1)的排布，通过8×16的乘法器，需要进行两次点积计算，

C₀₀＝a₀₀×b₀+a₀₁×b₁+a₀₂×b₂+a₀₃×b₃，

C₁₀＝a₁₀×b₀+a₁₁×b₁+a₁₂×b₂+a₁₃×b₃，

C₂₀＝a₂₀×b₀+a₂₁×b₁+a₂₂×b₂+a₂₂×b₃，

C₃₀＝a₃₀×b₀+a₃₁×b₁+a₃₂×b₂+a₃₃×b₃，

8.根据权利要求2所述一种加速数字图像处理中不同位宽点积的计算方法，其特征在于，步骤(1)中，使第一寄存器和第二寄存器的总数据长度一致的方法如下：在输入图像有4个通道且系数数据是32bit的情况下，假设每个通道的输入值为a_ck，其中c为通道值，k为每组内像素点索引，系数数据记为b₀，b₁，b₂，b₃，通过交织指令，使第一寄存器中的输入数据排布为a₀₀、a₀₁、a₀₂、a₀₃、a₁₀、a₁₁、a₁₂、a₁₃、a₂₀、a₂₁、a₂₂、a₂₃、a₃₀、a₃₁、a₃₂、a₃₃，第二寄存器中系数数据排布为b₀、b₁、b₂、b₃，输入数据被放入一个第一寄存器内。

9.根据权利要求8所述一种加速数字图像处理中不同位宽点积的计算方法，其特征在于：步骤(2)中，在输入图像有4个通道且系数数据是32bit的情况下，基于步骤(1)的排布，通过8×32的乘法器，需要进行一次点积计算，即

C₀₀＝a₀₀×b₀+a₀₁×b₁+a₀₂×b₂+a₀₃×b₃，

C₁₀＝a₁₀×b₀+a₁₁×b₁+a₁₂×b₂+a₁₃×b₃，

C₂₀＝a₂₀×b₀+a₂₁×b₁+a₂₂×b₂+a₂₂×b₃，

C₃₀＝a₃₀×b₀+a₃₁×b₁+a₃₂×b₂+a₃₃×b₃，

10.一种使用如权利要求1-9任意一项所述加速数字图像处理中不同位宽点积的计算方法的双线性差值算法，其特征在于，包括如下步骤：