CN105956660A

CN105956660A - 一种用于实时图像识别的神经元网络芯片实现方法

Info

Publication number: CN105956660A
Application number: CN201610320676.8A
Authority: CN
Inventors: 赵鑫鑫; 姜凯; 李朋
Original assignee: Inspur Group Co Ltd
Current assignee: Inspur Group Co Ltd
Priority date: 2016-05-16
Filing date: 2016-05-16
Publication date: 2016-09-21

Abstract

本发明公开一种用于实时图像识别的神经元网络芯片实现方法,属于图像识别芯片技术领域；根据实际需要方便快速完成神经网络模型选择和配置；基于FPGA实现通用神经网络芯片，后期根据编译平台提供的FPGA重构数据完成芯片中神经网络的生成，硬件平台可以方便快速的完成多种神经网络的实现，该方法可以大幅度提高用于实时图像识别的神经网络芯片的开发效率，使芯片设计具有可拓展性好、可灵活修改等特点，大幅降低芯片开发难度，提高项目推进速度。

Description

一种用于实时图像识别的神经元网络芯片实现方法

技术领域

本发明公开一种神经元网络芯片实现方法,属于图像识别芯片技术领域，具体地说是一种用于实时图像识别的神经元网络芯片实现方法。

背景技术

目前，由于现场图像实时处理的需要，机器视觉技术越来越多地借助硬件来完成，如DSP芯片、专用图像信号处理卡等。但是，DSP做图像处理也面临着由于数据存储与处理量大，导致处理速度较慢，***实时性较差的情况时有发生，而且原始图像识别算法的模式不能识别图片中有部分变化的识别目标，通用性较差，识别成功度较低，使用范围受限制，不能完成图片翻译、物体识别、人脸模糊识别等功能。

本发明提供一种用于实时图像识别的神经元网络芯片实现方法，该方法设计实现的实时图像识别芯片***用于实时视频图像处理、人脸识别和图像物体识别等领域。基于FPGA，根据编译平台提供的FPGA重构数据完成芯片中神经网络的生成，硬件平台可以方便快速的完成多种神经网络的实现，利用本发明方法可以大幅度提高实时图像识别的神经网络芯片的开发效率。

其中卷积神经网络（Convolutional Neural Network,CNN）是一种前馈神经网络，它的人工神经元可以响应一部分覆盖范围内的周围单元，对于大型图像处理有出色表现。

发明内容

本发明针对现有技术中实时图像处理***的资源需求大、实时性较差的问题，提供一种用于实时图像识别的神经元网络芯片实现方法，可以大幅度提高实时图像识别的神经网络芯片的开发效率。

本发明提出的具体方案是：

一种用于实时图像识别的神经元网络芯片实现方法：

设置自动化编译平台，用于图像识别的卷积神经网络形成神经网络模型库，

根据应用需求使用自动化编译平台完成神经网络的训练，并提取神经网络的结构和信息，利用信息形成重构FPGA的控制数据，

构建FPGA实现：根据接收的编译平台的控制数据，完成FPGA内部各运算单元的连接和快速配置，完成控制信号和数据信号通路的连通，使运算数据快速输入各运算单元，

神经元网络芯片的生成：根据需要配置的神经网络，使用需要识别的图像进行训练，训练完成后使用编译平台，得到FPGA重构数据，将FPGA实现下载到芯片中，生成通用神经网络芯片，并将重构数据输入FPGA芯片。

所述构建FPGA实现，其中FPGA包括控制模块、数据传输模块、运算模块，

控制模块用于根据接收的编译平台控制数据，完成FPGA内部各运算单元的连接，

数据传输模块用于FPGA内部各运算单元的快速配置，完成控制信号和数据信号通路的连通，使运算数据快速输入各运算单元，

运算模块构成神经元节点，各个运算模块连接形成神经网络。

所述控制模块包括FPGA内的软核CPU，存储模块， FPGA内部互联总线控制单元。

所述数据传输模块包括DMA模块和多路选择器网络，DMA模块完成芯片内各运算单元的多路选择器网络的快速配置，完成控制信号和数据信号通路的连通，DMA模块与多路选择器网络配合将运算数据输入各运算单元。

所述运算模块包括累加运算单元、乘运算单元、求余运算单元、归一化运算单元，各运算单元通过可配置互联线进行连接，不同的连接对应输入数据的不同处理流程。

所述神经网络信息主要包括：神经网络层数，每层神经元节点数目，每个神经元节点的运算类型和权重。

控制数据结构主要包括：目的DMA PORT地址，连通运算单元对地址，运算单元运算类型，运算单元权重。

本发明的有益之处是：

本方法针对现有实时图像处理***的资源需求大、实时性较差的特点，提出了一种用于实时图像识别的神经元网络芯片实现方法。该方法根据实际需要方便快速完成神经网络模型选择和配置；基于FPGA实现通用神经网络芯片，后期根据编译平台提供的FPGA重构数据完成芯片中神经网络的生成，硬件平台可以方便快速的完成多种神经网络的实现，该方法可以大幅度提高用于实时图像识别的神经网络芯片的开发效率，使芯片设计具有可拓展性好、可灵活修改等特点，大幅降低芯片开发难度，提高项目推进速度。

附图说明

图1本发明方法框架流程示意图；

图2本发明神经元芯片的硬件实现示意图。

具体实施方式

一种用于实时图像识别的神经元网络芯片实现方法：

根据上述方法，结合附图对本发明做进一步说明。

利用本发明方法，其中使用python脚本语言调用numpy，设置自动化编译平台，用于图像识别的卷积神经网络形成可配置神经网络规模、输入输出节点数的神经网络模型库，或者同时，也可以编写多种深度学习算法的函数库，使用户可以根据实际需要自行完成特定的神经网络模型；

根据应用需求使用自动化编译平台完成神经网络的训练，并提取神经网络的结构和信息，利用信息形成重构FPGA的控制数据，其中信息主要包括：神经网络层数，每层神经元节点数目，每个神经元节点的运算类型和权重；控制数据结构主要包括：目的DMA PORT地址，连通运算单元对地址，运算单元运算类型，运算单元权重；

构建FPGA实现，其中FPGA包括控制模块、数据传输模块、运算模块，

控制模块包括FPGA内的软核CPU，存储模块，FPGA内部互联总线控制单元，用于根据接收的编译平台控制数据，完成FPGA内部各运算单元的连接，

数据传输模块包括DMA模块和多路选择器网络，DMA模块和多路选择器网络通过互联线连接，DMA模块完成芯片内各运算单元的多路选择器网络的快速配置，完成控制信号和数据信号通路的连通，DMA模块与多路选择器网络配合将运算数据输入各运算单元；

运算模块构成神经元节点，各个运算模块连接形成神经网络，运算模块包括累加运算单元、乘运算单元、求余运算单元、归一化运算单元，各运算单元通过可配置互联线进行连接，不同的连接对应输入数据的不同处理流程；

神经元网络芯片的生成：根据需要配置的神经网络，使用需要识别的图像进行训练，训练完成后使用编译平台，得到FPGA重构数据，将FPGA实现下载到芯片中，生成通用神经网络芯片，并可使用网口等通讯接口将重构数据输入FPGA芯片，在硬件中实现训练完成的神经网络，神经元网络芯片得以硬件实现。

Claims

1.一种用于实时图像识别的神经元网络芯片实现方法，其特征是

2.根据权利要求1所述的方法，其特征是所述构建FPGA实现，其中FPGA包括控制模块、数据传输模块、运算模块，

3.根据权利要求2所述的方法，其特征是所述控制模块包括FPGA内的软核CPU，存储模块， FPGA内部互联总线控制单元。

4.根据权利要求2或3所述的方法，其特征是所述数据传输模块包括DMA模块和多路选择器网络，DMA模块完成芯片内各运算单元的多路选择器网络的快速配置，完成控制信号和数据信号通路的连通，DMA模块与多路选择器网络配合将运算数据输入各运算单元。

5.根据权利要求4所述的方法，其特征是所述运算模块包括累加运算单元、乘运算单元、求余运算单元、归一化运算单元，各运算单元通过可配置互联线进行连接，不同的连接对应输入数据的不同处理流程。

6.根据权利要求1-3或5任一项所述的方法，其特征是所述神经网络信息主要包括：神经网络层数，每层神经元节点数目，每个神经元节点的运算类型和权重。

7.根据权利要求1-3或5任一项所述的方法，其特征是控制数据结构主要包括：目的DMA PORT地址，连通运算单元对地址，运算单元运算类型，运算单元权重。