CN105681628B

CN105681628B - 一种卷积网络运算单元及可重构卷积神经网络处理器和实现图像去噪处理的方法

Info

Publication number: CN105681628B
Application number: CN201610003960.2A
Authority: CN
Inventors: 张斌; 饶磊; 李艳婷; 杨宏伟; 赵季中
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2016-01-05
Filing date: 2016-01-05
Publication date: 2018-12-07
Anticipated expiration: 2036-01-05
Also published as: CN105681628A

Abstract

本发明公开一种卷积网络运算单元及可重构卷积神经网络处理器和实现图像去噪处理的方法；本发明所公开的可重构卷积神经网络处理器，包括总线接口、前处理单元、可重构硬件控制器、SRAM、SRAM控制模块、输入缓存模块、输出缓存模块、存储器、数据存储器控制器和卷积网络运算单元；其资源少、速度快、能适用于常用的卷积神经网络架构。本发明能够实现卷积神经网络，处理速度快，易于移植，资源消耗少，能够恢复被雨滴、灰尘污染的图像或者视频，还能作为前处理操作为后续的图像识别或者分类提供帮助。

Description

一种卷积网络运算单元及可重构卷积神经网络处理器和实现图像去噪处理的方法

技术领域

本发明涉及图像处理领域，特别涉及一种卷积网络运算单元及可重构卷积神经网络处理器和实现图像去噪处理的方法。

背景技术

图像雨滴和灰尘的去除对于图像处理应用有重要意义，特别是视频监控和导航***。它可用于恢复被雨滴、灰尘污染的图像或者视频，还可作为前处理操作为后续的图像识别或者分类提供帮助。

当前的去除图像噪声的方法大都利用高斯滤波、中值滤波、双边滤波等方式完成，这些方法处理效果不好，常常不能满足特定图像处理应用的需求。因此需要一个效果更好的方法来去除图像噪声，卷积神经网络的方法成为一个不错的选择。

当前的深度学习网络大都在GPU上运行，但是GPU价格昂贵，功耗高，并不适合大规模的广泛应用。而在CPU上运行速度慢，运行大规模的深度学习网络效率低，无法满足性能需求。

可以看出目前技术对于应用卷积神经网络，主要存在的问题有：处理器面积大，成本高，功耗大，性能差等问题。因此这就需要一个低功耗、面积小、处理效果好的可重构卷积神经网络处理器。

发明内容

本发明的目的在于提供一种卷积网络运算单元及可重构卷积神经网络处理器和实现图像去噪处理的方法，硬件资源消耗低、面积小，能恢复被雨滴、灰尘污染的图像或者视频。

为了实现上述目的，本发明采用如下技术方案：

一种卷积网络运算单元，包括2个可重构分离卷积模块、非线性激活函数单元和乘累加器单元；

第一个可重构分离卷积模块的输出为非线性激活函数单元的输入，非线性激活函数单元的输出为乘累加器单元的输入，乘累加器单元的输出为第二个可重构分离卷积模块的输入；

图像信号和配置网络参数信号输入到第一个可重构分离卷积模块；第一个可重构分离卷积模块完成16×16卷积运算；非线性激活函数单元完成卷积神经网络中激活函数的运算；乘累加器单元完成卷积神经网络中的连接层的运算；第二个可重构分离卷积模块同时完成4个8×8卷积运算；

所述乘累加器单元包括若干乘累加器和若干寄存器；其中乘累加器用于计算上一层卷积网络的输出值与权重参数乘积的和；寄存器将上一层卷积网络的结果输入到乘累加器中。

进一步的，所述可重构分离卷积模块包括16个4×4可重构一维卷积模块和第一寄存器组；第一寄存器组将图像信号和卷积网络参数输入到可重构一维卷积模块；可重构分离卷积模块可完成1个16×16卷积或者同时完成4个8×8卷积运算；4×4可重构一维卷积模块包括4个第一选择器、4个第一2输入乘法器、第一4输入加法器、4个第二2输入乘法器和第二4输入加法器；4个第一选择器的输出端连接对应的4个第一2输入乘法器的输入端，4个第一2输入乘法器的另外一个输入端为神经网络的权重；4个第一2输入乘法器的输出端连接第一4输入加法器的输入端；4个第二2输入乘法器的输入为第一4输入加法器的输出和神经网络的权重；第二4输入加法器的输入为4个第二2输入乘法器的输出。

进一步的，所述非线性激活函数单元包括QD产生器和运算器组；其中QD产生器的输入为可重构分离卷积的输出，运算器组的输入为QD产生器的输出；QD产生器用于产生激活函数所需的参数；运算器组用于计算激活函数最终的结果值；

所述QD产生器包含一个第一除法器；输入信号输入到第一除法器，第一除法器输出商Q和余数D；所述运算器组包含移位寄存器、2个第一加法器和第二除法器；移位寄存器输出和为2个第一加法器的输入；2个第一加法器的输出为第二除法器的输入；移位寄存器、第一加法器和第二除法器依次连接；

一种可重构卷积神经网络处理器，包括总线接口、前处理单元、可重构硬件控制器、SRAM、SRAM控制模块、输入缓存模块、输出缓存模块、存储器、数据存储器控制器和若干权利要求1至3中任一项所述的卷积网络运算单元；总线接口连接前处理单元、数据存储器控制器、可重构硬件控制器和输入缓存、输出缓存；存储器连接数据存储器控制器；输入缓存连接可重构硬件控制器和SRAM控制模块；卷积网络运算单元连接输入缓存模块、输出缓存模块；

所述的前处理单元的输入为图像或者视频信号；完成白平衡、噪声过滤等前处理操作；

所述的输入缓存模块、输出缓存模块分别用于缓存卷积网络运算单元的输入和输出；

所述的可重构硬件控制器对卷积网络运算模块进行配置，控制其运算过程；在运算过程中或者结束时发送中断请求完成与外部***的交互；

所述的SRAM控制模块用于控制卷积网络权重参数的传输。

进一步的，包括512个卷积网络运算单元，实现基于卷积神经网络的图像去噪处理。

进一步的，所述一种可重构卷积神经网络处理器实现一个3层卷积神经网络，用于去除图像或者视频中附着的雨滴和灰尘；所述的卷积神经网络第一层由512个16×16卷积构成，第二层为神经网络连接层，第三层由512个8×8卷积构成。

一种可重构卷积神经网络处理器实现图像去噪处理的方法，包括：

在图像去噪处理的过程中，随机减少卷积个数，减少硬件资源的消耗，提高处理速度；

或者，在图像去噪处理的过程中将16×16卷积运算单元和8×8卷积运算单元分别分成16个和4个4×4的卷积模板，对每个4×4的卷积采用一维卷积。

相对于现有技术，本发明具有以下有益效果：卷积网络运算单元利用可重构技术，可完成16×16卷积或者同时完成4个8×8卷积运算，提高硬件性能和灵活性。本发明利用深度学习的方法，实现了可去除图像雨滴和灰尘的去噪处理，处理效果满足需求。本发明在不影响处理效果的前提下，随机减少卷积网络的模板个数，而且还利用分块一维卷积的方法，硬件资源消耗大大减少，处理速度大大提高。此处理器可实现3层的卷积神经网络，能够为后续更高层次的图像识别、分类提供特征。相对于GPU价格昂贵，功耗高，面积大。CPU运行速度慢，运行大规模的深度学习网络效率低。本发明采用可重构技术和上述减少模板个数和分块一维卷积的方法，实现的可重构卷积神经网络处理器的资源消耗低、易于硬件实现，能够恢复被雨滴、灰尘污染的图像或者视频。

附图说明

图1是卷积网络运算单元的结构示意图；

图2是非线性激活函数单元的结构示意图；

图3是第一4×4可重构一维卷积模块的结构示意图；

图4是可重构分离卷积模块的结构示意图；

图5是可重构卷积神经网络处理器的结构示意图；

具体实施方式

下面结合附图说明和具体实施方式对本发明做详细说明。

参照图1，本发明中可重构卷积神经网络处理器中所使用的卷积网络运算单元包括2个可重构分离卷积模块、非线性激活函数单元和乘累加器单元；第一个可重构分离卷积模块的输出为非线性激活函数单元的输入，非线性激活函数单元的输出为乘累加器单元的输入，乘累加器单元的输出为第二个可重构分离卷积模块的输入；

请参阅图2所示，非线性激活函数单元包括QD产生器和运算器组；其中QD产生器的输入为可重构分离卷积的输出，运算器组的输入为QD产生器的输出；QD产生器用于产生激活函数所需的参数；运算器组用于计算激活函数最终的结果。

本发明神经网络的激活函数为双曲正切函数

通过定义域扩展和泰勒级数展开，得到

其中|D|<ln2

QD产生器包含一个第一除法器，输入信号输入到第一除法器，第一除法器除以定值0.69，输出商Q和余数D；所述运算器组包含移位寄存器、2个第一加法器和第二除法器；移位寄存器输出和为2个第一加法器的输入；2个第一加法器的输出为第二除法器的输入；移位寄存器、第一加法器和第二除法器依次连接；

请参阅图3所示，4×4可重构一维卷积模块包括4个第一选择器MUX，4个第一2输入乘法器，第一4输入加法器，4个第二2输入乘法器，第二4输入加法器。第一选择器的两个输入为图像信号和前一级结果；4个第一选择器的输出端连接对应的4个第一2输入乘法器的一个输入端，4个第一2输入乘法器的另外一个输入端为神经网络的权重；4个第一2输入乘法器的输出端连接第一4输入加法器的输入端；4个第二2输入乘法器的输入为第一4输入加法器的输出和神经网络的权重；第二4输入加法器的输入为4个第二2输入乘法器的输出。

请参阅图4所示，可重构分离卷积模块包括第一寄存器组、16个4×4可重构一维卷积模块、4个4输入第一加法器和1个4输入第二加法器。利用可重构技术，可重构分离卷积模块可完成16×16或者同时完成4个8×8卷积运算。图像信号和配置信号输入到第一寄存器组。第一4×4卷积1的输入为1-4行图像信号，第一4×4卷积5的输入为5-8行图像信号。

当卷积模板为16×16时，第一4×4卷积3的输入为第一4×4卷积2的输出，第一4×4卷积7的输入为第一4×4卷积6的输出，第一4×4卷积11的输入为第一4×4卷积10的输出，第一4×4卷积15的输入为第一4×4卷积14的输出。第一4×4卷积9的输入为9-12行图像信号，第一4×4卷积13的输入为13-16行图像信号。可重构分离卷积模块输出为第二加法器的结果。

当卷积模块为8×8时，第一4×4卷积3的输入为1-4行图像信号，第一4×4卷积7的输入为1-4行图像信号，第一4×4卷积11的输入为1-4行图像信号，第一4×4卷积15的输入为1-4行图像信号。第一4×4卷积9的输入为1-4行图像信号，第一4×4卷积13的输入为5-8行图像信号。可重构分离卷积模块输出为4个第一加法器的结果。一个可重构分离卷积模块可同时完成4个8×8卷积运算。

请参阅图5所示，本发明一种可重构卷积神经网络处理器包括总线接口、前处理单元、可重构硬件控制器、SRAM、SRAM控制模块、输入缓存、输出缓存、存储器、数据存储器控制器和若干卷积网络运算单元；总线接口连接前处理单元、数据存储器控制器、可重构硬件控制器和输入缓存、输出缓存；存储器连接数据存储器控制器；输入缓存连接可重构硬件控制器和SRAM控制模块；卷积网络运算单元连接输入缓存模块、输出缓存模块。

前处理单元的输入为图像或者视频信号；完成白平衡、噪声过滤等前处理操作；输入缓存模块、输出缓存分别用于缓存卷积网络运算单元的输入和输出。可重构硬件控制器对卷积网络运算单元进行配置，控制其运算过程；在运算过程中或者结束时发送中断请求完成与外部***的交互；SRAM控制模块用于控制卷积网络权重参数的传输。

一个实现去除图像雨滴和灰尘的卷积神经网络中，包括512个卷积网络运算单元。为了减少资源，提高处理速度，本发明在具体实现过程中采用了以下两种方法：(1)随机减少卷积个数的方法：在不影响处理效果的前提下减少卷积网络运算单元的个数，减少硬件资源的消耗，提高处理速度；(2)分块一维卷积的方法：将16×16和8×8的卷积模板分别分成16个和4个4×4的卷积模板，对每个4×4的卷积采用一维卷积的方式。

参照图5，可重构16×16卷积运算单元包括16个4×4可重构一维卷积模块(1,2,3,…,16)、行存模块和寄存器；行存模块输入为图像或者视频信号，寄存器组的输入为行存模块的输出，4×4可重构一维卷积模块的输入为寄存器组的输出；行存模块用于保存图像；寄存器用于保存行存串行输入的图像数据，将图像数据输入到4×4可重构一维卷积模块。

可重构8×8卷积运算单元包括4个4×4可重构一维卷积模块(1,2,3,4)、行存模块和寄存器；行存模块输入为乘累加器的输出，寄存器组的输入为行存模块的输出，4×4可重构一维卷积模块的输入为寄存器组的输出。

Claims

1.一种卷积网络运算单元，其特征在于：包括2个可重构分离卷积模块、非线性激活函数单元和乘累加器单元；

所述乘累加器单元包括若干乘累加器和若干寄存器；其中乘累加器用于计算上一层卷积网络的输出值与权重参数乘积的和；寄存器将上一层卷积网络的结果输入到乘累加器中；

所述可重构分离卷积模块包括16个4×4可重构一维卷积模块和第一寄存器组；第一寄存器组用于将图像信号或前一级输出和卷积网络参数输入到可重构一维卷积模块；可重构分离卷积模块用于完成1个16×16卷积或者同时完成4个8×8卷积运算；

4×4可重构一维卷积模块包括4个第一选择器、4个第一2输入乘法器、第一4输入加法器、4个第二2输入乘法器和第二4输入加法器；4个第一选择器的输出端连接对应的4个第一2输入乘法器的输入端，4个第一2输入乘法器的另外一个输入端为神经网络的权重；4个第一2输入乘法器的输出端连接第一4输入加法器的输入端；4个第二2输入乘法器的输入为第一4输入加法器的输出和神经网络的权重；第二4输入加法器的输入为4个第二2输入乘法器的输出。

2.根据权利要求1所述的一种卷积网络运算单元，其特征在于：所述非线性激活函数单元包括QD产生器和运算器组；其中QD产生器的输入为可重构分离卷积的输出，运算器组的输入为QD产生器的输出；QD产生器用于产生激活函数所需的参数；运算器组用于计算激活函数最终的结果值；

所述QD产生器包含一个第一除法器；输入信号输入到第一除法器，第一除法器输出商Q和余数D；所述运算器组包含移位寄存器、2个第一加法器和第二除法器；移位寄存器输出和为2个第一加法器的输入；2个第一加法器的输出为第二除法器的输入；移位寄存器、第一加法器和第二除法器依次连接。

3.一种可重构卷积神经网络处理器，其特征在于：包括总线接口、前处理单元、可重构硬件控制器、SRAM、SRAM控制模块、输入缓存模块、输出缓存模块、存储器、数据存储器控制器和若干权利要求1至2中任一项所述的卷积网络运算单元；总线接口连接前处理单元、数据存储器控制器、可重构硬件控制器和输入缓存、输出缓存；存储器连接数据存储器控制器；输入缓存连接可重构硬件控制器和SRAM控制模块；卷积网络运算单元连接输入缓存模块、输出缓存模块；

所述的SRAM控制模块用于控制卷积网络权重参数的传输。

4.根据权利要求3所述的一种可重构卷积神经网络处理器，其特征在于：包括512个卷积网络运算单元，实现基于卷积神经网络的图像去噪处理。

5.根据权利要求3所述的一种可重构卷积神经网络处理器，其特征在于：所述一种可重构卷积神经网络处理器实现一个3层卷积神经网络，用于去除图像或者视频中附着的雨滴和灰尘；所述的卷积神经网络第一层由512个16×16卷积构成，第二层为神经网络连接层，第三层由512个8×8卷积构成。

6.权利要求3所述的一种可重构卷积神经网络处理器实现图像去噪处理的方法，其特征在于：包括：