CN114359683A

CN114359683A - 一种面向文本定位的单内核hog高效异构加速方法

Info

Publication number: CN114359683A
Application number: CN202111671159.2A
Authority: CN
Inventors: 阎波; 张国宁; 孙王超; 陈俊希; 覃昊洁
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2021-12-31
Filing date: 2021-12-31
Publication date: 2022-04-15
Anticipated expiration: 2041-12-31
Also published as: CN114359683B

Abstract

本发明公开了一种面向文本定位的单内核HOG高效异构加速方法，其包括为每个像素分配一个工作项，并对每个像素周围的像素进行卷积，对卷积后的像素进行幅度和相位计算，通过双线性插值算法计算得到像素的离散梯度方向，并保存在硬件的局部内存中，释放为像素分配的工作项；为每个cell单元分配一个工作项，并进行硬件的全局索引；计算离散梯度方向的投票结果，完成每行像素的统计；对统计的像素进行归一化以及求和，组合成一个HOG特征向量，得到图像的特征向量；在异构平台对该方法加以实现，完成异构加速。本发明满足了文本定位实时性以及低能耗的需求，能够进一步提高场景字符识别技术的可靠性。

Description

一种面向文本定位的单内核HOG高效异构加速方法

技术领域

本发明涉及场景字符识别领域，具体涉及一种面向文本定位的单内核HOG高效异构加速方法。

背景技术

随着智能手持设备的广泛普及与人工智能高速发展，图像和视频成为主要的媒体信息传递方式。媒体信息中包含了大量的自然场景，其中的文字信息具有重要的应用价值。从自然场景中精确且快速的提取出文字信息有着重要的意义，在这其中，文本定位技术成为一大重点。

由于文本定位面临着高复杂度的实现算法和持续增长的数据等问题，文本定位算法的实时性受到了挑战。HOG(Histogram of Oriented Gradient，方向梯度直方图)算法是文本定位计算中最常用的算法。现有的多内核HOG加速方案是在设备端通过多个内核进行全局同步，实现HOG特征的像素梯度计算、cell梯度统计和block归一化。但是会产生高代价的循环运算，带来的全局同步和全局内存的访存开销也很大。在异构***的实现中，多内核加速方案会带来较严重的能耗问题。

发明内容

针对现有技术中的上述不足，本发明提供的一种面向文本定位的单内核HOG高效异构加速方法解决了现有技术访存开销大和运算量大的问题。

为了达到上述发明目的，本发明采用的技术方案为：

提供一种面向文本定位的单内核HOG高效异构加速方法，其包括以下步骤：

S1、获取灰度图像的像素，并为每个像素分配一个工作项；其中Cx×Cy个大小统一的连通像素区域组成一个cell单元；

S2、在各个工作项中，利用差分模板及其转置对每个像素周围的像素进行行卷积与列卷积；

S3、对卷积后的像素进行幅度和相位计算；

S4、利用得到的幅度和相位，通过双线性插值算法计算得到像素的离散梯度方向，并保存在硬件的局部内存中，释放为像素分配的工作项；

S5、为每个cell单元分配一个工作项，并进行硬件的全局索引；

S6、创建用于统计像素离散梯度方向的统计变量，将每个像素所处的离散梯度方向直接并行加到统计变量中，并用一组变量对应计算一个cell单元中每行像素的离散梯度方向的投票结果，完成每行像素的统计，得到每个cell单元中不同离散梯度方向的个数；

S7、进行硬件的局部内存同步，基于投票结果，利用每个工作项统计cell中一行的像素，并进行并行规约得到所有cell单元的梯度统计，将梯度统计的离散梯度结果保存在硬件的局部内存中，释放为cell单元分配的工作项；

S8、利用一个工作项计算一个cell单元梯度统计后的离散梯度的归一化，将每个cell单元归一化后的结果求和，得到与每个cell单元对应的和值，将属于同一个block中的每个cell单元对应的和值缓存至硬件的局部内存中，并进行硬件的局部同步，得到每个block的局部方向梯度；其中一个图像包含若干个block；

S9、将每个block的局部方向梯度组合成一个HOG特征向量，得到图像的特征向量；

S10、将上述步骤加载到异构平台上，实现异构加速。

进一步地，步骤S1中工作项为OpenCL中最小的工作单元；cell单元为图像最小划分单元；其中每个cell包括Cx×Cy个大小统一的连通像素区域，窗口图像总像素大小为Wx×Wy，生成的二维索引为(Wx,Wy)。

进一步地，步骤S2中的差分模板为[-1,0,1]。

进一步地，步骤S5中全局索引的大小为(Wx/Cx,Wy/Cy)。

进一步地，步骤S7中并行规约时全局索引的大小为(Wx/Cx,Wy)，总共使用Wx×Wy/Cx个工作项。

进一步地，步骤S7中第一次并行规约总共使用Cy/2个工作项统计两列梯度；第二次并行规约总共使用Cy/4个工作项统计两列梯度，后续依次使用前一次的1/2个工作项进行梯度统计，直到完成梯度统计。

本发明的有益效果为：

1、在梯度统计过程中为每个cell分配一个工作项，而不是给每个像素创建一个工作项，解决了访问冲突的问题；

2、对应步骤S7中每个工作项统计一行的像素，保证了工作项的连续性访问，并且提高了Cy倍的并行度，提高了GPU资源利用率，充分发挥GPU并行处理数据的能力，降低开销；

3、在梯度统计过程，GPU通过高代价的原子函数来避免局部内存的访存冲突；FPGA通过多片物理内存的交替访存来避免局部内存的访问冲突；

4、步骤S8中将求和结果缓存至硬件的局部内存中，减少全局内存的访问，减少规约时间，节约计算时间；

5、通过局部内存同步，用一个设备内核完成相应的计算任务，资源消耗减少50％以上，与CPU相比，该方案在GPU和FPGA平台上的能效比分别为22.8和42.5，能够有效降低设备能耗；

6、采用投票的方式，避免了传统的统计方法中复杂的规约运算，算法计算时间减少50％以上，与CPU相比，该方案在GPU和FPGA平台上的加速比分别为28和6.9，能够有效减少计算时间；

7、HOG算法在GPU和FPGA平台上的计算时间分别为25ms和102ms，能耗分别为4J和2.14J，满足了文本定位实时性以及低能耗的需求，能够进一步提高场景(包括图像和视频)字符识别的可靠性。

附图说明

图1为本发明的流程图；

图2为本发明的设计框图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

如图1和图2所示，该面向文本定位的单内核HOG高效异构加速方法，包括以下步骤：

S3、对卷积后的像素进行幅度和相位计算；

S10、将上述步骤加载到异构平台上，实现异构加速。

步骤S1中工作项为OpenCL中最小的工作单元；cell单元为图像最小划分单元；其中每个cell包括Cx×Cy个大小统一的连通像素区域，窗口图像总像素大小为Wx×Wy，生成的二维索引为(Wx,Wy)。

步骤S2中的差分模板为[-1,0,1]。

步骤S5中全局索引的大小为(Wx/Cx,Wy/Cy)。

步骤S7中并行规约时全局索引的大小为(Wx/Cx,Wy)，总共使用Wx×Wy/Cx个工作项。

步骤S7中第一次并行规约总共使用Cy/2个工作项统计两列梯度；第二次并行规约总共使用Cy/4个工作项统计两列梯度，后续依次使用前一次的1/2个工作项进行梯度统计，直到完成梯度统计。

步骤S3中的各个工作项之间无数据交互，即无全局同步或局部同步。

通过AOCL将步骤S1到步骤S9的OpenCL的高层描述转换为硬件语言，并生成具体的硬件电路。

将本方案在CPU+GPU和CPU+FPGA异构平台上分别加以实现。将CPU作为主机，执行***调度，GPU和FPGA分别作为设备。首先对平台和设备进行初始化和一系列的配置。然后控制启动设备，进行其他操作。当得到结果后，在主机端完成最后的分类计算。通过相关实验，该方案满足了文本定位实时性以及低能耗的需求，能够进一步提高场景字符识别技术的可靠性。

本发明在梯度统计过程中为每个cell分配一个工作项，而不是给每个像素创建一个工作项，解决了访问冲突的问题；

对应步骤S7中每个工作项统计一行的像素，保证了工作项的连续性访问，并且提高了Cy倍的并行度，提高了GPU资源利用率，充分发挥GPU并行处理数据的能力，降低开销；

在梯度统计过程，GPU通过高代价的原子函数来避免局部内存的访存冲突；OpenCL原子函数可以对全局获局部内存的32位有符号和无符号整数进行原子操作；通过原子函数可以保证在一个工作项访问内存时，其他工作项不能访问该内存，在步骤S6中，当cell中多个像素离散梯度一致时，可能导致并行写到同一内存，将导致竞态条件，数据会丢失，原子函数便可以解决该问题；

在梯度统计过程，FPGA通过多片物理内存的交替访存来避免局部内存的访问冲突；FPGA多个片上M9K作为局部内存，支持同一工作组的各个工作项交替访问，避免局部内存的访存冲突；步骤在S6中，通过合理划分工作组，将像素投票计算结果保存至局部内存，FPGA就可以避免高代价的浮点数相加的原子操作；

步骤S8中将求和结果缓存至硬件的局部内存中，减少全局内存的访问，减少规约时间，节约计算时间；

通过局部内存同步，用一个设备内核完成相应的计算任务，资源消耗减少50％以上，与CPU相比，该方案在GPU和FPGA平台上的能效比分别为22.8和42.5，能够有效降低设备能耗；

采用投票的方式，避免了传统的统计方法中复杂的规约运算，算法计算时间减少50％以上，与CPU相比，该方案在GPU和FPGA平台上的加速比分别为28和6.9，能够有效减少计算时间；

HOG算法在GPU和FPGA平台上的计算时间分别为25ms和102ms，能耗分别为4J和2.14J，满足了文本定位实时性以及低能耗的需求，能够进一步提高场景(包括图像和视频)字符识别的可靠性。

Claims

1.一种面向文本定位的单内核HOG高效异构加速方法，其特征在于，包括以下步骤：

S3、对卷积后的像素进行幅度和相位计算；

S10、将上述步骤加载到异构平台上，实现异构加速。

2.根据权利要求1所述的面向文本定位的单内核HOG高效异构加速方法，其特征在于，步骤S1中工作项为OpenCL中最小的工作单元；cell单元为图像最小划分单元；其中每个cell包括Cx×Cy个大小统一的连通像素区域，窗口图像总像素大小为Wx×Wy，生成的二维索引为(Wx,Wy)。

3.根据权利要求1所述的面向文本定位的单内核HOG高效异构加速方法，其特征在于，步骤S2中的差分模板为[-1,0,1]。

4.根据权利要求2所述的面向文本定位的单内核HOG高效异构加速方法，其特征在于，步骤S5中全局索引的大小为(Wx/Cx,Wy/Cy)。

5.根据权利要求4所述的面向文本定位的单内核HOG高效异构加速方法，其特征在于，步骤S7中并行规约时全局索引的大小为(Wx/Cx,Wy)，总共使用Wx×Wy/Cx个工作项。

6.根据权利要求5所述的面向文本定位的单内核HOG高效异构加速方法，其特征在于，步骤S7中第一次并行规约总共使用Cy/2个工作项统计两列梯度；第二次并行规约总共使用Cy/4个工作项统计两列梯度，后续依次使用前一次的1/2个工作项进行梯度统计，直到完成梯度统计。