CN106529517A

CN106529517A - 图像处理方法和图像处理设备

Info

Publication number: CN106529517A
Application number: CN201611255019.6A
Authority: CN
Inventors: 曹宇辉; 梁喆; 张宇翔; 温和; 周舒畅; 周昕宇
Original assignee: Beijing Megvii Technology Co Ltd; Beijing Aperture Science and Technology Ltd
Current assignee: Beijing Kuangshi Technology Co Ltd; Beijing Megvii Technology Co Ltd; Beijing Aperture Science and Technology Ltd
Priority date: 2016-12-30
Filing date: 2016-12-30
Publication date: 2017-03-22
Anticipated expiration: 2036-12-30
Also published as: CN106529517B

Abstract

本公开提供了一种利用现场可编程门阵列(FPGA)实现用于图像处理的神经网络算法的图像处理方法和图像处理设备。所述图像处理方法包括：由第一卷积计算单元对输入图像数据执行第一层卷积计算，生成第一层特征数据；将所述第一层特征数据存储到存储单元；以及由第二卷积计算单元从所述存储单元读取所述第一层特征数据，执行预定层数的卷积计算，生成对于所述输入图像数据的卷积计算结果，其中在每层卷积计算结束后将相应的计算结果存储到所述存储单元；其中，所述第一卷积计算单元和所述第二卷积计算单元由现场可编程门阵列配置。

Description

图像处理方法和图像处理设备

技术领域

本公开涉及图像处理领域，更具体地，本公开涉及利用现场可编程门阵列(FPGA)实现用于图像处理的神经网络算法的图像处理方法和图像处理设备。

背景技术

目标检测是计算机图像处理领域中一个基础性的研究课题，其在人脸识别、安全监控以及动态追踪等很多方面都有广泛的应用前景。目标检测是指对于任意一帧或连续帧图像，检测和识别其中特定的目标(例如人脸)，并返回目标的位置、大小信息，例如输出包围目标的边界框。神经网络是一种大规模、多参数优化的工具。依靠大量的训练数据，神经网络能够学习出数据中难以总结的隐藏特征，从而完成多项复杂的任务，如人脸检测，图片分类，物体检测，动作追踪，自然语言翻译等。神经网络已被人工智能界广泛应用。当前，诸如行人检测的目标检测中最广泛应用的是卷积神经网络(CNN)。现有的图像处理方法通常使用单一的芯片实现具体目标检测功能，由于这些芯片往往并行计算能力有限，无法适应现有的使用神经网络实现的人脸检测算法，导致可抓拍的人脸数目有限且算法效率低。

现场可编程门阵列作为一种通用芯片，其通过将算法映射到硬件的方式实现并行计算，从而具有数据吞吐率高、同等计算量下功耗低、价格便宜的特点。目前，使用现场可编程门阵列来实现CNN算法的方案主要存在两个缺点：第一是大量使用数字信号处理器(DSP)资源进行并行计算，由于现场可编程门阵列内部的DSP数量极其有限(一般在数百个)，所以DSP资源的不足限制了单位周期内的并行计算量；第二是大多采用C语言等在高级综合工具上编写，再用低级硬件语言进行优化，并采用8比特定点或浮点数表示参数，最终实现一般CNN算法。这种架构方式虽然能够重构CNN网络，但是浪费现场可编程门阵列资源，无法完全发挥现场可编程门阵列的计算能力。

因此，希望提供一种充分利用现场可编程门阵列的资源实现用于目标检测的神经网络算法的图像处理方法和图像处理设备。

发明内容

鉴于上述问题而提出了本发明。本发明提供了一种利用现场可编程门阵列实现用于图像处理的神经网络算法的图像处理方法和图像处理设备。

根据本公开的一个实施例，提供了一种图像处理方法，包括：由第一卷积计算单元对输入图像数据执行第一层卷积计算，生成第一层特征数据；将所述第一层特征数据存储到存储单元；以及由第二卷积计算单元从所述存储单元读取所述第一层特征数据，执行预定层数的卷积计算，生成对于所述输入图像数据的卷积计算结果，其中在每层卷积计算结束后将相应的计算结果存储到所述存储单元；其中，所述第一卷积计算单元和所述第二卷积计算单元由现场可编程门阵列配置。

此外，根据本公开的一个实施例的图像处理方法，其中所述执行预定层数的卷积计算包括：由所述第二卷积计算单元从所述存储单元读取下一层待计算的特征数据以及预定卷积计算参数，执行中间层卷积计算，以生成中间层特征数据；递增所述中间层的计数值，并且判断所述计数值是否到达预定值，其中在所述计数值未到达所述预定值的情况下，将所述中间层特征数据存储到所述存储单元，并且返回由所述第二卷积计算单元执行中间层卷积计算；在所述计数值到达所述预定值的情况下，输出所述中间层特征数据作为所述卷积计算结果。

此外，根据本公开的一个实施例的图像处理方法，其中所述输入图像数据具有第一数据宽度，所述第一层特征数据具有第二数据宽度，其中所述第二数据宽度小于所述第一数据宽度。

此外，根据本公开的一个实施例的图像处理方法，所述执行中间层卷积计算还包括：根据由所述现场可编程门阵列实现的神经网络的结构设置所述第二卷积计算单元的输入通道数和输出通道数；以及在需处理的输入通道数大于所述第二卷积计算单元的输入通道数和/或需处理的输出通道数大于所述第二卷积计算单元的输出通道数时，根据所述需处理的输入通道数、所述第二卷积计算单元的输入通道数、所述需处理的输出通道数以及所述第二卷积计算单元的输出通道数，控制每一所述中间层卷积计算的执行周期以及所述中间层特征数据到所述存储单元的存储周期。

此外，根据本公开的一个实施例的图像处理方法，其中所述中间层卷积计算包括反池化处理、卷积计算处理和池化处理，所述执行中间层卷积计算还包括：对于每一所述中间层卷积计算，在所述卷积计算处理之前，选择性地执行所述反池化处理；以及对于每一所述中间层卷积计算，在所述卷积计算处理之后，选择性地执行所述池化处理。

此外，根据本公开的一个实施例的所述图像处理方法，其中所述中间层卷积计算还包括联合处理和选择处理，所述执行中间层卷积计算还包括：对于每一所述中间层卷积计算，在所述卷积计算处理之前，执行所述联合处理，以组合读取的下一层待计算的特征数据；对于每一所述中间层卷积计算，在所述卷积计算处理之后，执行所述选择处理，以选择用于存储到所述存储单元的所述中间层特征数据的数据通道。

此外，根据本公开的一个实施例的图像处理方法，其中，在所述存储单元的带宽不足时，自动暂停由所述第二卷积计算单元执行的所述卷积计算并保留现场。

示例性地，上述的图像处理方法由摄像头实现，所述摄像头包括所述第一卷积计算单元、所述第二卷积计算单元和所述存储单元。

根据本公开的另一个实施例，提供了一种图像处理设备，包括：第一卷积计算单元，用于对输入图像数据执行第一层卷积计算，生成第一层特征数据；存储单元，用于存储所述第一层特征数据；第二卷积计算单元，用于从所述存储单元读取所述第一层特征数据，执行预定层数的卷积计算，生成对于所述输入图像数据的卷积计算结果；以及控制单元，用于控制所述第一卷积计算单元、所述存储单元和所述第二卷积计算单元；其中，所述存储单元还用于存储所述第二卷积计算单元执行的每层卷积计算的计算结果，所述第一卷积计算单元和所述第二卷积计算单元由现场可编程门阵列配置。

此外，根据本公开的另一个实施例的图像处理设备，其中所述控制单元控制所述第二卷积计算单元从所述存储单元读取下一层待计算的特征数据以及预定卷积计算参数，执行中间层卷积计算，以生成中间层特征数据；并且所述控制单元递增所述中间层的计数值，并且判断所述计数值是否到达预定值，其中在所述计数值未到达所述预定值的情况下，将所述中间层特征数据存储到所述存储单元，并且返回控制所述第二卷积计算单元执行中间层卷积计算；在所述计数值到达所述预定值的情况下，输出所述中间层特征数据作为所述卷积计算结果。

此外，根据本公开的另一个实施例的图像处理设备，其中所述输入图像数据具有第一数据宽度，所述第一层特征数据具有第二数据宽度，其中所述第二数据宽度小于所述第一数据宽度。

此外，根据本公开的另一个实施例的图像处理设备，其中所述控制单元根据由所述现场可编程门阵列实现的神经网络的结构，设置所述第二卷积计算单元的输入通道数和输出通道数；以及在需处理的输入通道数大于所述第二卷积计算单元的输入通道数和/或需处理的输出通道数大于所述第二卷积计算单元的输出通道数时，根据所述需处理的输入通道数、所述第二卷积计算单元的输入通道数、所述需处理的输出通道数以及所述第二卷积计算单元的输出通道数，控制每一所述中间层卷积计算的执行周期以及所述中间层特征数据到所述存储单元的存储周期。

此外，根据本公开的另一个实施例的图像处理设备，其中所述第二卷积计算单元包括反池化处理子单元、卷积计算处理子单元和池化处理子单元，对于每一所述中间层卷积计算，在所述卷积计算处理之前，所述控制单元控制所述反池化处理子单元选择性地执行所述反池化处理；以及对于每一所述中间层卷积计算，在所述卷积计算处理之后，所述控制单元控制所述池化处理子单元选择性地执行所述池化处理。

此外，根据本公开的另一个实施例的图像处理设备，其中所述第二卷积计算单元还包括联合处理子单元和选择处理子单元，对于每一所述中间层卷积计算，在所述卷积计算处理之前，所述控制单元控制所述联合处理子单元执行所述联合处理，以组合读取的下一层待计算的特征数据；对于每一所述中间层卷积计算，在所述卷积计算处理之后，所述控制单元控制所述选择处理子单元执行所述选择处理，以选择用于存储到所述存储单元的所述中间层特征数据的数据通道。

此外，根据本公开的另一个实施例的图像处理设备，其中，所述控制单元还用于在所述存储单元的带宽不足时，自动暂停由所述第二卷积计算单元执行的所述卷积计算并保留现场。

此外，根据本公开的另一个实施例的图像处理设备，其中，所述控制单元为所述现场可编程门阵列内部的ARM处理器，和/或所述第一卷积计算单元包括所述现场可编程门阵列中的至少一部分查找表，和/或所述第二卷积计算单元包括所述现场可编程门阵列中的至少一部分查找表，和/或所述存储单元为外置于所述现场可编程门阵列的存储器。

在一个具体示例中，该图像处理设备为摄像头。

根据本公开的实施例图像处理方法和图像处理设备，利用现场可编程门阵列实现低比特CNN算法，实现充分利用现场可编程门阵列的资源提高计算力；其中实现的卷积单元增加了可静态配置的通道数、数据位宽数，可动态配置的循环次数和方式，配合可调整参数的控制单元，可以快速实现不同架构的CNN模型。

要理解的是，前面的一般描述和下面的详细描述两者都是示例性的，并且意图在于提供要求保护的技术的进一步说明。

附图说明

通过结合附图对本公开实施例进行更详细的描述，本公开的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解，并且构成说明书的一部分，与本公开实施例一起用于解释本公开，并不构成对本公开的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1是图示根据本公开实施例的图像处理设备的框图。

图2是图示根据本公开实施例的图像处理方法的流程图。

图3是进一步图示根据本公开实施例的图像处理方法的流程图。

图4是进一步图示根据本公开实施例的图像处理设备的框图。

图5是进一步图示根据本公开实施例的图像处理方法中的中间层卷积计算处理的流程图。

图6是图示根据本公开实施例的图像处理***的示意图。

具体实施方式

为了使得本公开的目的、技术方案和优点更为明显，下面将参照附图详细描述根据本公开的示例实施例。显然，所描述的实施例仅仅是本公开的一部分实施例，而不是本公开的全部实施例，应理解，本公开不受这里描述的示例实施例的限制。基于本公开中描述的本公开实施例，本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本公开的保护范围之内。以下，将参考附图详细描述本公开的各个实施例。

首先，参照图1和图2概述根据本公开实施例的图像处理设备及其图像处理方法。

图1是图示根据本公开实施例的图像处理设备的框图。如图1所示的图像处理设备10可以配置在用于执行特定场景的视频监控的摄像头中。或者，图像处理设备10为摄像头，图像处理设备10除图1公开的组件外还可以包括其他内部组件，例如镜头、图像传感器等。或者，如图1所示的图像处理设备10可以配置在用于对从执行特定场景的视频监控的摄像头提供的视频数据执行目标识别和图像处理的服务器中。可替代地，如图1所示的图像处理设备10可以是摄像头和服务器之间配置的用于执行目标识别的专用图像处理设备。在本公开各实施例中，由图像处理设备10检测的目标可以包括但不限于人脸、行人、车辆等，在此并不进行限定。在某些实施例中，以检测的目标是人脸为例进行说明。

具体地，根据本公开实施例的图像处理设备10包括第一卷积计算单元101、存储单元102、第二卷积计算单元103和控制单元104。第一卷积计算单元101和第二卷积计算单元103可以由现场可编程门阵列中的至少一部分查找表(LUT)配置。存储单元102可以为外置于现场可编程门阵列的存储器配置。控制单元104可以由现场可编程门阵列内部的ARM处理器配置。容易理解的是，上述配置并非限制性的，而是包括利用现场可编程门阵列的其他资源的配置方式。

第一卷积计算单元101用于对输入图像数据执行第一层卷积计算，生成第一层特征数据。如上所述，在本公开的一个实施例中，第一卷积计算单元101由现场可编程门阵列中的至少一部分LUT配置。输入图像数据为由诸如电荷耦合器件(CCD)或互补金属氧化物半导体器件(CMOS)的图像传感器采集的视频数据。例如，输入图像数据为1080P、30fps或者720P、60fps格式的视频数据。此外，在本公开的一个实施例中，利用现场可编程门阵列实现低比特卷积神经网络(BCNN)算法，其中进行卷积的特征图、权重的比特数为2比特。由于输入图像数据通常为8比特的RGB三色数据，同时视频输入是匀速的图像流，所以第一卷积计算单元101通过对输入图像数据执行第一层卷积计算，获得中间卷积层需要的2比特数据作为第一层特征数据。在本公开的一个实施例中，输入图像数据具有第一数据宽度，第一层特征数据具有第二数据宽度，其中第二数据宽度小于第一数据宽度。通过保证第二数据宽度小于第一数据宽度，可以保证第一层卷积计算执行的是基于低比特卷积神经网络的卷积运算，从而提高。

存储单元102用于存储第一层特征数据。如上所述，在本公开的一个实施例中，存储单元102可以为由外置于现场可编程门阵列的存储器配置，例如存储单元102可以为外置于现场可编程门阵列的DDR3存储器。

第二卷积计算单元103用于从存储单元102读取第一层特征数据，执行预定层数的卷积计算，生成对于输入图像数据的卷积计算结果。如上所述，在本公开的一个实施例中，第二卷积计算单元103由现场可编程门阵列中的至少一部分LUT配置。在利用现场可编程门阵列实现低比特卷积神经网络算法的情况下，总共存在18层卷积计算，其中除了由所以第一卷积计算单元101执行的第一层卷积计算外的其他17层卷积计算都由第二卷积计算单元103执行。第二卷积计算单元103每执行一层卷积计算后，就将计算结果作为中间层特征数据存储到存储单元102中。第二卷积计算单元103执行下一层卷积计算时，就从存储单元102读取下一层待计算的特征数据以及预定卷积计算参数，预定卷积计算参数包括但不限于卷积权重值等参数。在本公开的一个实施例中，预定卷积计算参数是经由训练过程之后预先存储在存储单元102中。第二卷积计算单元103执行完预定层数的卷积计算之后，获得输入图像数据的目标热力图，即显示在输入图像的各个像素中存在目标的概率。由第二卷积计算单元103获得的最终层卷积计算结果(例如，目标热力图)可以经由输出单元(未示出)输出给服务器进一步处理或者在显示器上显示。

控制单元104用于控制第一卷积计算单元101、存储单元102和第二卷积计算单元103。如上所述，在本公开的一个实施例中，控制单元104可以由现场可编程门阵列内部的ARM处理器配置。

具体地，在本公开的一个实施例中，控制单元104可以控制第一卷积计算单元101对输入图像数据执行第一层卷积计算的开始时间，并获得其停止时间。控制单元104同时可以控制的第二卷积计算单元103执行预定层数的卷积计算的重复次数、起止时间、卷积的通道数量。控制单元104还可以控制最终层卷积计算结果的输出格式和起止时间。控制单元104还用于在存储单元102的带宽不足时，自动暂停由第二卷积计算单元103执行的所述卷积计算并保留现场。通过自动暂停并保留现场操作，可以避免存储单元数据溢出，保证卷积操作的有序进行。

此外，控制单元104进一步地可以从存储单元102中读取最终层的卷积计算结果，进行下一步的计算。由于卷积后的数据量已经很小，完全可以通过控制单元104进行串行计算。并且控制单元104的计算过程与第一卷积计算单元101和第二卷积计算单元103的卷积计算、以及图像数据输入、卷积计算结果的输出可以并行进行，以节省时间开支。

更具体地，对于卷积的通道数量的控制来说，控制单元104可以根据由现场可编程门阵列实现的神经网络的结构，设置第二卷积计算单元103的输入通道数和输出通道数；并且在需处理的输入通道数大于所述第二卷积计算单元103的输入通道数和/或需处理的输出通道数大于所述第二卷积计算单元的输出通道数103时，根据所述需处理的输入通道数、所述第二卷积计算单元103的输入通道数、所述需处理的输出通道数以及所述第二卷积计算单元103的输出通道数，控制每一所述中间层卷积计算的执行周期以及所述中间层特征数据到所述存储单元102的存储周期。例如，在本公开的一个实施例中，采用的BCNN算法通道数包括32、64、128、256等多种数值。为了节省现场可编程门阵列资源，卷积计算模块的通道数静态设置为32路输入、16路输出。即每个时钟周期内计算32路输入通道的数据，并转换为16个通道输出。对于其他数量的通道，控制单元104通过动态配置每个通道的执行步数来实现。例如，当是32路通道输入、32路输出，则用两个时钟周期，控制单元104动态调整输入保持时间为两拍，使第一个时钟周期和第二个时钟周期的输入数据相同，但第一个时钟周期的输入与低16路输出通道的系数做运算，第二个时钟周期的输入与高16路输出通道的系数做运算；如果为64路通道输入、32路输出，则将64路输入分为两个32路输入，用四个时钟周期完成计算，前两个时钟周期如上所述，计算低32路输入通道的32路输出结果，后二个时钟周期计算高32路输入通道的32路输出结果。控制单元104还根据网络结构，在不同的卷积层设置不同的执行步数，并根据每层的执行时间确定读写存储单元102的时间。第二卷积计算单元103执行完一个数据的计算后，便将此计算结果写入到存储单元102，同时读出下一个待计算的数据。而不必等待所有的计算结果都完成后才进行读写操作。本实施例的对卷积的通道数量的控制方式，可以实现在神经网络模型结构固定的情况下处理多种输入输出通道数的卷积计算，相对于采用多种神经网络模型分别对应处理多种输入输出通道数卷积计算的方式，可以节省训练不同神经网络模型的时间和成本，基于显著的优势。

图2是图示根据本公开实施例的图像处理方法的流程图。图2所示的根据本公开实施例的图像处理方法20由如图1所示的图像处理设备10执行。如图2所示的根据本公开实施例的图像处理方法20包括以下步骤。

在步骤S201中，由第一卷积计算单元对输入图像数据执行第一层卷积计算，生成第一层特征数据。在本公开的一个实施例中，由现场可编程门阵列中的至少一部分LUT配置的第一卷积计算单元101对作为输入图像数据由诸如电荷耦合器件(CCD)或互补金属氧化物半导体器件(CMOS)的图像传感器采集的视频数据执行第一层卷积计算，获得中间卷积层需要的2比特数据作为第一层特征数。此后，处理进到步骤S202。

在步骤S202中，将第一层特征数据存储到存储单元102。在本公开的一个实施例中，由外置于现场可编程门阵列的存储器配置的存储单元102存储第一层特征数据。此后，处理进到步骤S203。

在步骤S203中，由第二卷积计算单元从存储单元读取第一层特征数据，执行预定层数的卷积计算，生成对于输入图像数据的卷积计算结果。在本公开的一个实施例中，由现场可编程门阵列中的至少一部分LUT配置的第二卷积计算单元103执行17层卷积计算，获得输入图像数据的目标热力图。

以上步骤S201到S203在由现场可编程门阵列内部的ARM处理器配置控制单元104的控制下执行。

通过参照图1和图2描述的根据本公开实施例的图像处理设备及其图像处理方法，利用现场可编程门阵列实现低比特CNN算法，实现充分利用现场可编程门阵列的资源提高计算力；其中实现的卷积单元增加了可静态配置的通道数、数据位宽数，可动态配置的循环次数和方式，配合可调整参数的控制单元，可以快速实现不同架构的CNN模型。

在一个具体示例中，根据本公开的图像处理设备为摄像头，该图像处理设备除第一卷积计算单元、存储单元、第二卷积计算单元、控制单元等组件外，还可以包括例如镜头、图像传感器等其他组件，图像传感器可以用于形成所述输入数据。通过在摄像头内利用现场可编程门阵列实现低比特CNN算法，可以提高摄像头自身的图像处理能力，实现某些图像处理操作(例如人脸检测、人脸图像截取等)在摄像头本地完成，相对于现有技术中依赖服务器实现相关图像处理的方式，可以减轻服务器的运算压力。

以下，将进一步参照图3到图5详细描述根据本公开实施例的图像处理设备及其图像处理方法。

图3是进一步图示根据本公开实施例的图像处理方法的流程图。如图3所示的根据本公开实施例的图像处理方法30包括以下步骤。

图3所示的步骤S301和S302分别与参照图2描述的步骤S201和S202相同，在此将省略其重复描述。

在步骤S302中将第一层特征数据存储到存储单元之后，处理进到步骤S303。在步骤S303中，由第二卷积计算单元从存储单元读取下一层待计算的特征数据以及预定卷积计算参数，执行中间层卷积计算，生成中间层特征数据。在本公开的一个实施例中，由第二卷积计算单元读取下一层待计算的特征数据不必定是上一层卷积计算的计算结果。预定卷积计算参数包括但不限于是经由训练过程之后预先存储在存储单元102中的卷积权重值等参数。

此外，在步骤S302执行的中间层卷积计算还包括根据由现场可编程门阵列实现的神经网络的结构设置第二卷积计算单元103的输入通道数和输出通道数；以及在需处理的输入通道数大于所述第二卷积计算单元的输入通道数和/或需处理的输出通道数大于所述第二卷积计算单元103的输出通道数时，根据所述需处理的输入通道数、所述第二卷积计算单元103的输入通道数、所述需处理的输出通道数以及所述第二卷积计算单元103的输出通道数，控制每一所述中间层卷积计算的执行周期以及所述中间层特征数据到所述存储单元102的存储周期。例如，在本公开的一个实施例中，采用的BCNN算法通道数包括32、64、128、256等多种数值。为了节省现场可编程门阵列资源，卷积计算模块的通道数静态设置为32路输入、16路输出。即每个时钟周期内计算32路输入通道的数据，并转换为16个通道输出。对于其他数量的通道，控制单元104通过动态配置每个通道的执行步数来实现。例如，当是32路通道输入、32路输出，则用两个时钟周期，控制单元104动态调整输入保持时间为两拍，使第一个时钟周期和第二个时钟周期的输入数据相同，但第一个时钟周期的输入与低16路输出通道的系数做运算，第二个时钟周期的输入与高16路输出通道的系数做运算；如果为64路通道输入、32路输出，则将64路输入分为两个32路输入，用四个时钟周期完成计算，前两个时钟周期如上所述，计算低32路输入通道的32路输出结果，后二个时钟周期计算高32路输入通道的32路输出结果。此后，处理进到步骤S304。

在步骤S304中，递增中间层的计数值。此后处理进到步骤S305。

在步骤S305中，判断当前的中间层计数值是否到达预定值。例如，在本公开的一个实施例中，在实现BCNN算法的情况下，所述预定值为17。

如果在步骤S305中获得否定结果，即当前的中间层计数值还未到达预定值，则处理进到步骤S306。在步骤S306中，将当前的中间层特征数据存储到存储单元中。存储在存储单元102中的中间层特征数据用于在随后的中间层卷积计算步骤中读出并且进一步执行卷积计算。此后，处理返回步骤S303以执行一下层的中间层卷积计算。

相反地，如果在步骤S305中获得肯定结果，即当前的中间层计数值到达预定值，则处理进到步骤S307。在步骤S307中，输出最终计算的中间层特征数据作为卷积计算的结果。

在本公开的一个实施例中，卷积计算的结果为输入图像数据的目标热力图。在本公开的又一个实施例中，卷积计算的结果可以由配置控制单元104的ARM处理器读取并且进行进一步的处理。由于卷积后的数据量已经很小，完全可以通过控制单元104进行串行计算。并且控制单元104的计算过程与第一卷积计算单元101和第二卷积计算单元103的卷积计算、以及图像数据输入、卷积计算结果的输出可以并行进行，以节省时间开支。此外，在本公开的另一实施例中，还可以输出在原始的输入图像数据中叠加有经由图像处理方法30获取的目标位置信息的输出图像用于在显示器上显示。

图4是进一步图示根据本公开实施例的图像处理设备的框图。图4中示出的第一卷积计算单元101、存储单元102以及控制单元104分别与参照图1描述的第一卷积计算单元101、存储单元102以及控制单元104相同。

与上述图1相比，图4进一步示出的第二卷积计算单元103的内部结构。如图4所示，第二卷积计算单元103包括反池化处理子单元1031、联合处理子单元1032、卷积计算处理子单元1033、池化处理子单元1034和选择处理子单元1035。对于每一中间层卷积计算，在卷积计算处理之前，控制单元104控制所述反池化处理子单元1031选择性地执行反池化处理；以及对于每一中间层卷积计算，在卷积计算处理之后，控制单元104控制池化处理子单元1034选择性地执行池化处理。在本公开的一个实施例中，反池化处理子单元1031和池化处理子单元1034均为2x2窗口，由控制单元104动态控制其是否旁路。此外，对于每一中间层卷积计算，在卷积计算处理之前，控制单元104控制联合处理子单元1032执行所述联合处理，以组合读取的下一层待计算的特征数据。对于每一中间层卷积计算，在卷积计算处理之后，控制单元104控制选择处理子单元1035执行选择处理，以选择用于存储到存储单元102的中间层特征数据的数据通道。也就是说，联合处理子单元1032可将不同的特征图进行重组，输出新的特征图，其数据输入路数可以选择，在本公开的一个实施例中，其数据输入路数为2。选择处理子单元1035可以选择存回到存储单元102的数据通道，其数据输入路数可以选择，在本公开的一个实施例中，其数据输入路数为2。此外，在本公开的一个实施例中，卷积计算处理子单元1033采用3x3窗口的卷积，同时同步输入到卷积计算处理子单元1033的特征值和参数值，以方便计算。在第二卷积计算单元103的整个数据流程中，在存储单元102的带宽不足时自动暂停当前计算并保留现场，从而最大限度地保证了存储单元102的带宽利用率，提高了计算速度。

通过采用如图4所示的第二卷积计算单元103的设计结构，使配置不同的卷积层变得非常容易。例如，某一层卷积计算不需要池化功能，就在控制单元104中动态调整参数，使得池化处理子单元1034旁路以关闭功能，而无需重新更改现场可编程门阵列的硬件架构，就可以完成修改。如果某一卷积层需要并行两个3x3窗口大小的卷积计算，在现场可编程门阵列资源允许的情况下，只需复制一个卷积计算处理子单元1033并入到网络中，并动态配置参数即可。

如图5所示，在从步骤S503开始由第二卷积计算单元103执行处理之前，是参照图3描述的步骤S301和S302，在此将省略其重复描述。在步骤S503中，由第二卷积计算单元从存储单元读取下一层待计算的特征数据以及预定卷积计算参数。此后，处理进到步骤S504。

在步骤S504中，根据由现场可编程门阵列实现的神经网络的结构设置第二卷积计算单元的输入通道数和输出通道数。如上所述，例如，在本公开的一个实施例中，采用的BCNN算法通道数包括32、64、128、256等多种数值。为了节省现场可编程门阵列资源，卷积计算模块的通道数静态设置为32路输入、16路输出。即每个时钟周期内计算32路输入通道的数据，并转换为16个通道输出。对于其他数量的通道，控制单元104通过动态配置每个通道的执行步数来实现。此后，处理进到步骤S505。

在步骤S505中，控制每一中间层卷积计算的执行周期以及中间层特征数据到存储单元的存储周期。在本公开的一个实施例中，在需处理的输入通道数大于所述第二卷积计算单元的输入通道数和/或需处理的输出通道数大于所述第二卷积计算单元103的输出通道数时，根据所述需处理的输入通道数、所述第二卷积计算单元103的输入通道数、所述需处理的输出通道数以及所述第二卷积计算单元103的输出通道数，控制每一所述中间层卷积计算的执行周期以及所述中间层特征数据到所述存储单元102的存储周期。此后，处理进到步骤S506。

在步骤S506中，选择性地执行反池化处理。在本公开的一个实施例中，某一层卷积计算不需要反池化功能，就在控制单元104中动态调整参数，使得反池化处理子单元1031旁路以关闭功能。此后，处理进到步骤S507。

在步骤S507中，执行联合处理，以组合读取的下一层待计算的特征数据。在本公开的一个实施例中，联合处理子单元1032可将不同的特征图进行重组，输出新的特征图，其数据输入路数可以选择，在本公开的一个实施例中，其数据输入路数为2。此后，处理进到步骤S508。

在步骤S508中，执行中间层卷积计算，生成中间层特征数据。此后，处理进到步骤S509。

在步骤S509中，选择性地执行池化处理。在本公开的一个实施例中，某一层卷积计算不需要池化功能，就在控制单元104中动态调整参数，使得池化处理子单元1034旁路以关闭功能。此后，处理进到步骤S510。

在步骤S510中，执行选择处理，以选择用于存储到存储单元的中间层特征数据的数据通道。在本公开的一个实施例中，选择处理子单元1035可以选择存回到存储单元102的数据通道，其数据输入路数可以选择，在本公开的一个实施例中，其数据输入路数为2。通过步骤S503到S510，由第二卷积计算单元103完成一次中间层卷积计算，此后处理进到步骤S304中，以便根据中间层的计数值是否达到预定值判断是返回步骤S503以继续下一层中间层卷积计算，还是确定已经完成最终层卷积计算从而输出计算结果。

图6是图示根据本公开实施例的图像处理***的示意图。如图6所示，根据本公开实施例的图像处理***600包括摄像头5、图像处理设备6、服务器7和显示器8。容易理解的是，图6所示的配置仅是示意性的，图像处理设备6例如可以配置在摄像头5或服务器7中。

摄像头5中的光学传感器用于采集监控场景的原始图像数据，并且将其作为输入图像数据提供给图像处理设备6。

图像处理设备6中至少包括现场可编程门阵列70和位于现场可编程门阵列70外部的存储器80。现场可编程门阵列70进一步包括ARM处理器701、第一查找表资源702和第二查找表资源703。需要理解的是，如6所示的第一查找表资源702、存储器80、第二查找表资源703和ARM处理器701分别是参照图1描述的第一卷积计算单元101、存储单元102、第二卷积计算单元103和控制单元104的具体硬件实现方式，其分别执行参照图2、图3和图5描述的图像处理方法的各个步骤。

根据需要，图像处理设备6可以将对输入图像数据执行卷积计算之后的目标检测结果提供给服务器7执行进一步处理或者提供给显示器8执行显示。

在本公开的一个实施例中，图像处理设备6可以进一步配置有编码单元，用于基于原始图像数据和所述目标检测结果生成对应于所述目标的编码图像数据。图像处理设备6将最终获取的目标的编码图像数据(包括仅包括目标的JPEG图像和/或标注有目标的H.264或H.265视频)通过网络有线地或无线地传输给后端服务器7进行诸如人脸属性分析、人脸识别、人脸美颜、人脸卡通化中的至少一种的处理，或者传输给显示器8执行显示。

以上，参照图1到图6描述了根据本公开的实施例图像处理方法、图像处理设备以及图像处理***，根据本公开的实施例图像处理方法和图像处理设备，利用现场可编程门阵列中的查找表(LUT)资源实现低比特CNN算法，实现充分利用现场可编程门阵列的资源提高计算力；其中实现的卷积单元增加了可静态配置的通道数、数据位宽数，可动态配置的循环次数和方式，配合可调整参数的控制单元，可以快速实现不同架构的CNN模型。

以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。

本公开中涉及的器件、装置、设备、***的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、***。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

另外，如在此使用的，在以“至少一个”开始的项的列举中使用的“或”指示分离的列举，以便例如“A、B或C的至少一个”的列举意味着A或B或C，或AB或AC或BC，或ABC(即A和B和C)。此外，措辞“示例的”不意味着描述的例子是优选的或者比其他例子更好。

还需要指出的是，在本公开的***和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。

可以不脱离由所附权利要求定义的教导的技术而进行对在此所述的技术的各种改变、替换和更改。此外，本公开的权利要求的范围不限于以上所述的处理、机器、制造、事件的组成、手段、方法和动作的具体方面。可以利用与在此所述的相应方面进行基本相同的功能或者实现基本相同的结果的当前存在的或者稍后要开发的处理、机器、制造、事件的组成、手段、方法或动作。因而，所附权利要求包括在其范围内的这样的处理、机器、制造、事件的组成、手段、方法或动作。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此，本公开不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种图像处理方法，包括：

由第一卷积计算单元对输入图像数据执行第一层卷积计算，生成第一层特征数据；

将所述第一层特征数据存储到存储单元；以及

由第二卷积计算单元从所述存储单元读取所述第一层特征数据，执行预定层数的卷积计算，生成对于所述输入图像数据的卷积计算结果，其中在每层卷积计算结束后将相应的计算结果存储到所述存储单元；

其中，所述第一卷积计算单元和所述第二卷积计算单元由现场可编程门阵列配置。

2.如权利要求1所述的图像处理方法，其中所述执行预定层数的卷积计算包括：

由所述第二卷积计算单元从所述存储单元读取下一层待计算的特征数据以及预定卷积计算参数，执行中间层卷积计算，以生成中间层特征数据；

递增所述中间层的计数值，并且判断所述计数值是否到达预定值，其中

在所述计数值未到达所述预定值的情况下，将所述中间层特征数据存储到所述存储单元，并且返回由所述第二卷积计算单元执行中间层卷积计算；

在所述计数值到达所述预定值的情况下，输出所述中间层特征数据作为所述卷积计算结果。

3.如权利要求1或2所述的图像处理方法，其中所述输入图像数据具有第一数据宽度，所述第一层特征数据具有第二数据宽度，其中所述第二数据宽度小于所述第一数据宽度。

4.如权利要求2所述图像处理方法，所述执行中间层卷积计算还包括：

根据由所述现场可编程门阵列实现的神经网络的结构设置所述第二卷积计算单元的输入通道数和输出通道数；以及

在需处理的输入通道数大于所述第二卷积计算单元的输入通道数和/或需处理的输出通道数大于所述第二卷积计算单元的输出通道数时，根据所述需处理的输入通道数、所述第二卷积计算单元的输入通道数、所述需处理的输出通道数以及所述第二卷积计算单元的输出通道数，控制每一所述中间层卷积计算的执行周期以及所述中间层特征数据到所述存储单元的存储周期。

5.如权利要求2所述的图像处理方法，其中所述中间层卷积计算包括反池化处理、卷积计算处理和池化处理，所述执行中间层卷积计算还包括：

对于每一所述中间层卷积计算，在所述卷积计算处理之前，选择性地执行所述反池化处理；以及

对于每一所述中间层卷积计算，在所述卷积计算处理之后，选择性地执行所述池化处理。

6.如权利要求2或5所述图像处理方法，其中所述中间层卷积计算还包括联合处理和选择处理，所述执行中间层卷积计算还包括：

对于每一所述中间层卷积计算，在所述卷积计算处理之前，执行所述联合处理，以组合读取的下一层待计算的特征数据；

对于每一所述中间层卷积计算，在所述卷积计算处理之后，执行所述选择处理，以选择用于存储到所述存储单元的所述中间层特征数据的数据通道。

7.如权利要求1所述的图像处理方法，其中，在所述存储单元的带宽不足时，自动暂停由所述第二卷积计算单元执行的所述卷积计算并保留现场。

8.如权利要求1所述的图像处理方法，其中，所述方法由摄像头实现，所述摄像头包括所述第一卷积计算单元、所述第二卷积计算单元和所述存储单元。

9.一种图像处理设备，包括：

第一卷积计算单元，用于对输入图像数据执行第一层卷积计算，生成第一层特征数据；

存储单元，用于存储所述第一层特征数据；

第二卷积计算单元，用于从所述存储单元读取所述第一层特征数据，执行预定层数的卷积计算，生成对于所述输入图像数据的卷积计算结果；以及

控制单元，用于控制所述第一卷积计算单元、所述存储单元和所述第二卷积计算单元；

其中，所述存储单元还用于存储所述第二卷积计算单元执行的每层卷积计算的计算结果，所述第一卷积计算单元和所述第二卷积计算单元由现场可编程门阵列配置。

10.如权利要求9所述的图像处理设备，其中所述控制单元控制所述第二卷积计算单元从所述存储单元读取下一层待计算的特征数据以及预定卷积计算参数，执行中间层卷积计算，以生成中间层特征数据；并且

所述控制单元递增所述中间层的计数值，并且判断所述计数值是否到达预定值，其中

在所述计数值未到达所述预定值的情况下，将所述中间层特征数据存储到所述存储单元，并且返回控制所述第二卷积计算单元执行中间层卷积计算；

11.如权利要求9或10所述的图像处理设备，其中所述输入图像数据具有第一数据宽度，所述第一层特征数据具有第二数据宽度，其中所述第二数据宽度小于所述第一数据宽度。

12.如权利要求10所述的图像处理设备，其中所述控制单元根据由所述现场可编程门阵列实现的神经网络的结构，设置所述第二卷积计算单元的输入通道数和输出通道数；以及

13.如权利要求10所述的图像处理设备，其中所述第二卷积计算单元包括反池化处理子单元、卷积计算处理子单元和池化处理子单元，

对于每一所述中间层卷积计算，在所述卷积计算处理之前，所述控制单元控制所述反池化处理子单元选择性地执行所述反池化处理；以及

对于每一所述中间层卷积计算，在所述卷积计算处理之后，所述控制单元控制所述池化处理子单元选择性地执行所述池化处理。

14.如权利要求10或13所述的图像处理设备，其中所述第二卷积计算单元还包括联合处理子单元和选择处理子单元，

对于每一所述中间层卷积计算，在所述卷积计算处理之前，所述控制单元控制所述联合处理子单元执行所述联合处理，以组合读取的下一层待计算的特征数据；

对于每一所述中间层卷积计算，在所述卷积计算处理之后，所述控制单元控制所述选择处理子单元执行所述选择处理，以选择用于存储到所述存储单元的所述中间层特征数据的数据通道。

15.如权利要求9所述的图像处理设备，其中，所述控制单元还用于在所述存储单元的带宽不足时，自动暂停由所述第二卷积计算单元执行的所述卷积计算并保留现场。

16.如权利要求9所述的图像处理设备，其中，所述控制单元为所述现场可编程门阵列内部的ARM处理器，和/或，

所述第一卷积计算单元包括所述现场可编程门阵列中的至少一部分查找表，和/或，

所述第二卷积计算单元包括所述现场可编程门阵列中的至少一部分查找表，和/或，

所述存储单元为外置于所述现场可编程门阵列的存储器。

17.如权利要求9所述的图像处理设备，其中，所述图像处理设备为摄像头。