CN110414401B

CN110414401B - 一种基于pynq的智能监控***及监控方法

Info

Publication number: CN110414401B
Application number: CN201910661356.2A
Authority: CN
Inventors: 李一涛; 胡有能; 岳克强
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2019-07-22
Filing date: 2019-07-22
Publication date: 2022-02-15
Anticipated expiration: 2039-07-22
Also published as: CN110414401A

Abstract

本发明涉及一种基于PYNQ的智能监控***及监控方法，通过软硬件协同实现目多目标检测分类。主要包括多目标检测模块，进行算法的移植与优化，通用卷积神经网络加速器IP，基于python的API接口。所述PYNQ集成了arm处理器***和FPGA可编程逻辑，软件部分移植了caffe框架，适用于主流人工智能算法，改进了faster‑RCNN算法移植到PYNQ平台实现目标检测功能。FPGA部分使用卷积神经网络加速IP来进行算法推导部分的计算。基于Python的API提供方便的调用接口。本发明具有图像处理速度快，硬件资源需求少，方便移植与开发的优点。

Description

一种基于PYNQ的智能监控***及监控方法

技术领域

本发明涉及基于嵌入式平台的目标检测技术，具体涉及一种基于PYNQ的智能监控***及监控方法。

背景技术

视频监控是安防行业的一个子行业，2010-2017年期间，我国视频监控市场规模从242亿元增长到1124亿元，年均复合率达24.53%。随着我国道路交通基础设施的兴建，以及“平安城市”的建设加速，预计到2020年我国视频监控市场规模有望达到1558亿元，到2023年有望突破1900亿元。而智能化将是视频监控未来长期的一个发展方向。因此人工智能将在监控***中扮演越来越重要的角色。目标检测是计算机视觉和数字图像处理的一个热门方向，也是智能监控***的核心部分，通过计算机视觉减少对人力资本的消耗，具有重要的现实意义。由于深度学习的广泛运用，目标检测算法得到了较为快速的发展。

PYNQ开发板，在原有Zynq架构的基础上，添加了对python的支持。使嵌入式编程人员能够在无需设计可编程逻辑电路的情况下即可充分发挥Xilinx Zynq AllProgrammable SoC（APSoC）的功能。PYNQ集成了ARM处理器和FPGA可编程逻辑器件，与常规方式不同的是，通过PYNQ，用户可以使用Python进行APSoC编程，并且代码可直接在PYNQ上进行开发和测试。通过PYNQ，可编程逻辑电路将作为硬件库导入并通过其API进行编程，其方式与导入和编程软件库基本相同。Python作为一种优雅简单的脚本语言，被广泛应用于各个领域，基于Python开发的控制***将有很高的可移植性。

传统的监控***往往需要人工的干预，比如交通事故、盗窃往往需要时候来回放监控错过了最佳时机，具有很大的延时性，而且往往人力资源成本比较高。只要能自动检测出需要的信息，就能及时给出反馈，而且机器代替人工也能降低成本。

发明内容

针对现有技术存在的技术问题，本发明提供了一种基于PYNQ的智能监控***及监控方法。

一种基于PYNQ的智能监控***，包括通过USB连接的摄像头和PYNQ处理***，所述PYNQ处理***包括arm处理器和FPGA，其特征在于所述PYNQ处理***包括多目标检测模块、通用卷积神经网络加速器IP和Python的API接口，所述多目标检测模块移植与优化faster-RCNN多目标检测算法，优化AlexNet网络的结构做为前馈网络，并对检测结果kmeans聚类；所述faster-RCNN多目标检测算法包括建议框的提取模块、SVM分类模块、线性回归修正模块、卷积模块、池化模块、全连接层模块。

进一步的,所述的卷积模块、池化模块、全连接层模块使用FPGA中通用卷积神经网络加速器IP计算。

进一步的，所述的Python的API接口包括通用卷积神经网络加速器IP的配置参数、搬运数据、执行计算、获取状态。

进一步的,所述的建议框的提取模块、SVM分类模块、线性回归修正模块和kmeans聚类模块在arm处理器中计算。

进一步的，所述的arm处理器预处理得特征图存储在DDR，按行输入，采用AXI-lite总线控制，DMA传输图像数据。

进一步的，所述的通用卷积神经网络加速器IP包括计算单元，所述计算单元内部采用行列复用、6级流水，所述通用卷积神经网络加速器IP可选择实现卷积、池化、激活函数的功能，可以自定义核的大小、步长、补0。

一种基于所述的基于PYNQ的智能监控***的监控方法，包括如下步骤：

（1）把训练好的网络权重导入PYNQ的SD卡中，再从SD读取权重到DDR中；

（2）图像采集，控制USB摄像头采集图像，并通过USB接口传输一帧图片到PYNQ上；arm处理器把图像预处理为AlexNet网络的输入格式的特征图写入到DDR中；

（3）调用API配置网络参数，通过AXI_lite控制对应的寄存器，根据每层的网络结构不同，配置核大小、步长、是否补0，以及该层为卷积层还是池化层，是否需要激活函数等信息；

（4）启动通用卷积神经网络加速器IP进行计算，FPGA自动通过DMA从DDR按行搬运特征图数据，计算后把结果写回DDR，循环执行每一层，完成卷积和池化层的正向推导计算；

（5）arm处理器干预，检测标志位判断是否完成计算；

（6）根据锚点盒进行建议框的选取，根据建议框裁剪出可能为目标的部分特征图进行ROI池化，再次调用通用卷积神经网络加速器IP进行全连接层的计算，全连接层的实现是转换成长宽为１的卷积计算；

（7）对全连接层计算结果用支持向量机进行分类，用回归模型修正得到目标的边界框坐标，并用kmeans聚类筛选重复识别的目标。

进一步的，所述的建议框可以配置三种面积、三种尺度，共９种形式的建议框。

本发明适用于主流人工智能算法，具有图像处理速度快，硬件资源需求少，方便移植与开发的优点。

附图说明

图1为本发明的结构示意图。

具体实施方式

下面结合说明书附图，如图1所示，对本发明的技术方案作进一步说明，具体技术方案如下：

本发明提供了一种基于PYNQ开发平台的智能监控***，包括摄像头和PYNQ处理***，摄像头和PYNQ处理***通过USB连接。所述PYNQ处理***包括arm处理器和FPGA。摄像头采集图像信息，通过USB传输给arm处理器预处理，处理结果再输入FPGA进行正向推导，快速检测多目标，并作出对应的控制。通过软硬件协同模块，提高检测实时性。

PYNQ在原有Zynq架构的基础上，添加了对python的支持。集成了ARM处理器和FPGA可编程逻辑器件，可编程逻辑电路将作为硬件库导入并通过其API进行编程。方便软硬件协同实施，计算重复度高的正向推导部分放在FPGA中处理，计算复杂度大的部分用软件处理。

所述PYNQ处理***主要包括多目标检测模块、通用卷积神经网络加速IP和基于python的API接口。所述多目标检测模块通过算法的移植与优化进行多目标的检测，首先选用多目标检测算法faster-RCNN，针对该平台的硬件资源，改进了AlexNet网络的结构做为前馈网络；然后对检测结果进行kmeans聚类，提高准确度。为了便于多目标检测算法faster-RCNN的实现，移植caffe到PYNQ。

所述多目标检测算法faster-RCNN包括建议框的提取模块、SVM分类模块、线性回归修正模块、卷积模块、池化模块、全连接层模块，所述软硬件协同模块、建议框的提取模块、 SVM分类模块、线性回归修正模块及kmean聚类模块等部分使用arm处理器计算；计算并行度大重复率高的正向推导部分使用FPGA中通用卷积神经网络加速器IP计算。所述通用卷积神经网络加速器IP，采用AXI-lite总线控制，DMA传输图像数据，可选择实现卷积、池化、激活函数的功能，可以自定义核的大小、步长、补0等，适用于各种卷积神经网络。

通用卷积神经网络加速器IP包括计算单元，计算单元内部采用行列复用、6级流水，加速效果好。循环配置和调用通用卷积神经网络加速器IP实现faster-RCNN中的卷积模块、池化模块、全连接层模块。所述基于Python的API，把通用卷积神经网络加速器IP的配置参数、搬运数据、执行计算、获取状态都封装成了Python的接口，在算法实现过程中方便的嵌入调用，方便调用和移植。

一种基于PYNQ的智能监控方法，包括如下步骤：

把训练好的网络权重导入PYNQ的SD卡中，再从SD读取权重到DDR中。

图像采集，控制USB摄像头采集图像，并通过USB接口传输一帧图片到PYNQ上。arm处理器把图像预处理为AlexNet网络的输入格式，8位三通道224*224像素，写入到DDR中。因为特征图的数据量很大，FPGA中资源比较少，无法存下，因此保存在相对大很多的DDR，之后根据通用卷积神经网络加速器IP按行写入FPGA进行计算。

调用API配置网络参数，通过AXI_lite控制对应的寄存器，根据每层的网络结构不同，配置核大小、步长、是否补0，以及该层为卷积层还是池化层，是否需要激活函数等信息，可以方便表示各种网络结构。启动通用卷积神经网络加速器IP进行计算，FPGA端会自动通过DMA从DDR按行搬运特征图数据，计算后把结果写回DDR，期间不需要arm处理器干预，只需要检测标志位判断是否完成计算。循环执行每一层，完成卷积和池化层的正向推导计算。

根据锚点盒进行建议框的选取，可以配置三种面积、三种尺度，共９种形式的建议框。根据建议框裁剪出可能为目标的部分特征图进行ROI池化，再次调用通用卷积神经网络加速器IP进行全连接层的计算，全连接层的实现是转换成长宽为１的卷积计算。

对全连接层计算结果用支持向量机进行分类，用回归模型修正得到目标的边界框坐标，并用kmeans聚类筛选重复识别的目标，提高准确度。

根据识别的结果进行对应的控制。

一种基于PYNQ的智能监控***的游乐园的无人检票***，用于区分成人票、小孩票、家庭票。

步骤一，家长带小孩检票，在入口处提供门票信息，控制摄像头开始采集图像。并通过USB接口传输一帧图片到基于PYNQ的智能监控***上。Arm处理器对采集到的图像信息做预处理，转换成8位三通道224*224像素的特征图，并写入到DDR中。

步骤二，调用API配置每层参数，构建网络。然后启动通用卷积神经网络加速器IP开始计算前馈网络，FPGA通过DMA自动按行搬运特征图数据，计算出结果写回DDR中。当计算完毕会改变标志位，通知arm处理器。

步骤三，根据锚点盒进行建议框的选取，在计算结果中裁剪出可能为目标的部分特征图进行ROI池化，再次调用通用卷积神经网络加速器IP进行全连接层的计算。对全连接层计算结果用支持向量机进行分类，用回归模型修正得到目标的边界框坐标，并用kmeans聚类筛选重复识别的目标。

步骤四，最后得到检测结果多目标的类别和边界框，判断入口区域内，是两个大人，一个小孩，与家庭票信息对应，控制电机开门放行。

Claims

1.一种基于PYNQ的智能监控方法，其特征在于：该方法采用的监控***包括通过USB连接的摄像头和PYNQ处理***，所述PYNQ处理***包括arm处理器和FPGA，其特征在于所述PYNQ***包括多目标检测模块、通用卷积神经网络加速器IP和Python的API接口，所述多目标检测模块移植与优化faster-RCNN多目标检测算法，优化AlexNet网络的结构做为前馈网络，并对检测结果kmeans聚类；所述faster-RCNN多目标检测算法包括建议框的提取模块、SVM分类模块、线性回归修正模块、卷积模块、池化模块、全连接层模块；监控方法包括如下步骤：

（3）调用API配置网络参数，通过AXI_lite控制对应的寄存器，根据每层的网络结构不同，配置核大小、步长、是否补0，以及该层为卷积层还是池化层，是否需要激活函数信息；

（5）arm处理器干预，检测标志位判断是否完成计算；

（6）根据锚点盒进行建议框的选取，根据建议框裁剪出可能为目标的部分特征图进行ROI池化，再次调用通用卷积神经网络加速器IP进行全连接层的计算，全连接层的实现是转换成长宽为1的卷积计算；

2.根据权利要求1所述的一种基于PYNQ的智能监控方法，其特征在于所述的卷积模块、池化模块、全连接层模块使用FPGA中通用卷积神经网络加速器IP计算。

3.根据权利要求1所述的一种基于PYNQ的智能监控方法，其特征在于所述的Python的API接口包括通用卷积神经网络加速器IP的配置参数、搬运数据、执行计算、获取状态。

4.根据权利要求1所述的一种基于PYNQ的智能监控方法，其特征在于所述的建议框的提取模块、SVM分类模块、线性回归修正模块和kmeans聚类模块在arm处理器中计算。

5.根据权利要求2所述的一种基于PYNQ的智能监控方法，其特征在于所述arm处理器预处理得特征图存储在DDR，按行输入，采用AXI-lite总线控制，DMA传输图像数据。

6.根据权利要求1所述的一种基于PYNQ的智能监控方法，其特征在于所述的通用卷积神经网络加速器IP包括计算单元，所述计算单元内部采用行列复用、6级流水，所述通用卷积神经网络加速器IP可选择实现卷积、池化、激活函数的功能，可以自定义核的大小、步长、补0。

7.根据权利要求1所述的一种基于PYNQ的智能监控方法，其特征在于所属的建议框可以配置三种面积、三种尺度，共９种形式的建议框。