CN110008927A

CN110008927A - 一种基于深度学习模型Fast-Rcnn改进的警情自动化判定方法

Info

Publication number: CN110008927A
Application number: CN201910301206.0A
Authority: CN
Inventors: 轩素辉; 欧阳文文; 生拥宏; 于绘娟; 张瑞
Original assignee: Henan Dahua Security Polytron Technologies Inc
Current assignee: Henan Dahua Security Polytron Technologies Inc
Priority date: 2019-04-15
Filing date: 2019-04-15
Publication date: 2019-07-12

Abstract

本发明公开了一种基于深度学习模型Fast‑Rcnn改进的警情自动化判定方法，包括以下步骤：S1：图像采集，采用图像采集卡或视霸卡将CCD或是CMOS摄像机的模拟视频信号经A/D后存储，然后送计算机进行处理；S2：候选框确定；S3：深度网络提取特征，CNN网络在卷积层之后会接上若干个全连接层，将卷积层产生的特征图映射成一个固定长度的特征向量，使用该像素周围的一个图像块作为CNN的输入用于训练和预测；S4：图像分类，对于对象的实际类可以特定于目标设备，由适配器负责创建并返回适当的编写器；S5：图像尺寸调整；S6：结果预测，最后两个loss层要改成一个softmax层，利用这种算法只检测人体的移动的时候，可以对真实警情程度能有很好的预测。

Description

一种基于深度学习模型Fast-Rcnn改进的警情自动化判定方法

技术领域

本发明涉及计算机软件技术领域，具体为一种基于深度学习模型Fast-Rcnn改进的警情自动化判定方法。

背景技术

目前有成千上万的家庭和商户安装了安防摄像头，大多数的摄像头具有这样的功能，即当安防警报被触发时，摄像头会自动抓拍现场图片并且传回后方的安防控制中心。目前对于这些图像的处理基本为人工处理，即后台有工作人员点开图片观看来判定是否确实有警情，以及是否需要出警。这样的处理方式不仅速度慢，而且不具有统一性。不同人员的判断标准不一样，对于警情的判断难以统一，而且同一个工作人员在同一时间的判断标准也可能不一样。举一个例子，当工作人员疲劳是，判断的准确性可能会下降。

还有一个问题就是数据量的大小问题。每年安防的用户都在增长，目前可能人力还处理的过来，但是当用户数量多到一定程度的时候，所需要的人力太多，成本也就随之上涨,所以目前用人力判断的方法具有很多的弊端。

发明内容

本发明的目的在于提供一种基于深度学习模型Fast-Rcnn改进的警情自动化判定方法，不是通过检测物体的移动，而是利用算法只检测人体的移动的时候，对真实警情程度能有很好的预测，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：一种基于深度学习模型Fast-Rcnn改进的警情自动化判定方法，该警情自动化判定方法具体步骤如下：

S1：图像采集，采用图像采集卡或视霸卡将CCD(Charge Coupled Device，电荷耦合器件)或是CMOS(互补金属氧化物半导体)摄像机的模拟视频信号经A/D后存储，然后送计算机进行处理；

S2：候选框确定，图像归一化为224×224直接送入网络，前五阶段是基础的conv+relu+pooling形式，在第五阶段结尾，输入P个候选区域(图像序号×1+几何位置×4，序号用于训练)，roi_pool层将每个候选区域均匀分成M×N块，对每块进行max pooling。将特征图上大小不一的候选区域转变为大小统一的数据，送入下一层；

S3：深度网络提取特征，CNN网络在卷积层之后会接上若干个全连接层,将卷积层产生的特征图映射成一个固定长度的特征向量，使用该像素周围的一个图像块作为CNN的输入用于训练和预测，程序中第6和32对应的是原网络中pool1和pool5层。整个网络输出的结果，你可以在最后通过输出结果对应到原网络大小，从而保存其他层的图片特征结果；

S4：图像分类，对于对象的实际类特定于目标设备，由适配器负责创建并返回适当的编写器，CIFAR102和CIFAR100数据库是Tiny的两个子集，分别包含了10类和100类物Images体类别；

S5：图像尺寸调整，oI池化层用于将不同大小的输入张量池化为固定大小，RoI池化层指定池化窗口的数量为W\times HW×H，每个池化窗口的大小是根据池化区域变化的，

S6：结果预测，最后两个loss层要改成一个softmax层，输入是分类的score，输出概率，最后对每个类别采用NMS，使用softmax得到分类，使用回归得到边框回归，CNN的主体结构可以来自于AlexNet，也可以来自于VGGNet。

优选的，所述步骤S1中的CMOS为互补金属氧化物半导体，它本是计算机***内一种重要的芯片，保存了***引导最基本的资料，CMOS经过加工成为数码摄影中的图像传感器。

优选的，所述步骤S2中将普通max pooling层设为输入层的节点和为输出层的节点然后判决函数表示i节点是否被j节点选为最大值输出，不被选中有两种可能：不在范围内，或者不是最大值，对于roi max pooling，一个输入节点可能和多个输出节点相连，设为输入层的节点，为第个候选区域的第个输出节点。

优选的，所述步骤S4中的两个数据库的图像尺寸都是32×32，而且是彩色图像。

优选的，CIFAR10包含6万的图像，其中5万用于模型训练，1万用于测试，每一类物体有5000张图像用于训练，1000张图像用于测试CFAR-100与CIFAR-10组成类似。

优选的，所述步骤S5中的池化层包含超级参数，池化的超级参数包括过滤器大小f和步幅s，常用的参数值为f＝2，s＝2。

优选的，应用频率非常高，其效果相当于高度和宽度缩减一半，也有使用f＝3，s＝2的情况。

优选的，所述步骤S6中Softmax函数，或称归一化指数函数，是逻辑函数的一种推广，Softmax函数实际上是有限项离散概率分布的梯度对数归一化。

本发明的技术效果和优点：本发明提出的一种基于深度学习模型Fast-Rcnn改进的警情自动化判定方法，与现有技术相比，能够利用Fast-Rcnn改进后的计算方法只检测人体的移动的时候，对真实警情程度能有很好的预测，避免因图像中小动物或者自然因素导致的物体移动导致计算机对警情的误报率偏高的技术问题。

附图说明

图1为本发明一种基于深度学习模型Fast-Rcnn改进的警情自动化判定方法框架示意图。

图2为本发明一种基于深度学习模型Fast-Rcnn改进的警情自动化判定方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，本发明提供了一种基于深度学习模型Fast-Rcnn改进的警情自动化判定方法，包括以下步骤：

S1：图像采集，采用图像采集卡或视霸卡将CCD(Charge Coupled Device，电荷耦合器件)或是CMOS(互补金属氧化物半导体)摄像机的模拟视频信号经A/D后存储，然后送计算机进行处理，CCD是指电荷耦合器件，是一种用电荷量表示信号大小，用耦合方式传输信号的探测元件；

S2：S2：候选框确定，图像归一化为224×224直接送入网络，前五阶段是基础的conv+relu+pooling形式，在第五阶段结尾，输入P个候选区域(图像序号×1+几何位置×4，序号用于训练)，roi_pool层将每个候选区域均匀分成M×N块，对每块进行max pooling。将特征图上大小不一的候选区域转变为大小统一的数据，送入下一层，RoI是指SelectiveSearch完成后得到的“候选框”在特征图上的映射，候选框是经过RPN产生的，然后再把各个“候选框”映射到特征图上，得到RoIs；

S3：S3：深度网络提取特征，CNN网络在卷积层之后会接上若干个全连接层,将卷积层产生的特征图(feature map)映射成一个固定长度的特征向量，使用该像素周围的一个图像块作为CNN的输入用于训练和预测，程序中第6和32对应的是原网络中pool1和pool5层。整个网络输出的结果，你可以在最后通过输出结果对应到原网络大小，从而保存其他层的图片特征结果；

S5：图像尺寸调整，oI池化层用于将不同大小的输入张量池化为固定大小，RoI池化层指定池化窗口的数量为W\times HW×H，每个池化窗口的大小是根据池化区域变化的；

所述步骤S1中的CMOS为互补金属氧化物半导体，它本是计算机***内一种重要的芯片，保存了***引导最基本的资料，CMOS经过加工成为数码摄影中的图像传感器。

所述步骤S2中将普通max pooling层设为输入层的节点和为输出层的节点然后判决函数表示i节点是否被j节点选为最大值输出，不被选中有两种可能：不在范围内，或者不是最大值，对于roi max pooling，一个输入节点可能和多个输出节点相连，设为输入层的节点，为第个候选区域的第个输出节点。

所述步骤S4中的两个数据库的图像尺寸都是32×32,而且是彩色图像，CIFAR10包含6万的图像，其中5万用于模型训练，1万用于测试，每一类物体有5000张图像用于训练，1000张图像用于测试CFAR-100与CIFAR-10组成类似。

所述步骤S5中的池化层包含超级参数，池化的超级参数包括过滤器大小f和步幅s，常用的参数值为f＝2，s＝2，应用频率非常高，其效果相当于高度和宽度缩减一半，也有使用f＝3，s＝2的情况。

所述步骤S6中Softmax函数，或称归一化指数函数，是逻辑函数的一种推广，Softmax函数实际上是有限项离散概率分布的梯度对数归一化。

综上所述：优先选择使用CMOS(互补金属氧化物半导体)摄像机的模拟视频信号经A/D后存储，然后送计算机进行处理，图像归一化为224×224直接送入网络，前五阶段是基础的conv+relu+pooling形式，对每块进行max pooling后，将特征图上大小不一的候选区域转变为大小统一的数据，送入下一层。

CNN网络在卷积层之后会接上若干个全连接层,将卷积层产生的特征图映射成一个固定长度的特征向量，使用该像素周围的一个图像块作为CNN的输入用于训练和预测，对于对象的实际类特定于目标设备，由适配器负责创建并返回适当的编写器，将不同大小的输入张量池化为固定大小，RoI池化层指定池化窗口的数量为W\times HW×H，最后两个loss层要改成一个softmax层，输入是分类的score，输出概率，对每个类别采用NMS，使用softmax得到分类。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度学习模型Fast-Rcnn改进的警情自动化判定方法，其特征在于：该警情自动化判定方法具体步骤如下：

S1：图像采集，采用图像采集卡或视霸卡将CCD或是CMOS摄像机的模拟视频信号经A/D后存储，然后送计算机进行处理；

S2：候选框确定，图像归一化为224×224直接送入网络，前五阶段是基础的conv+relu+pooling形式，在第五阶段结尾，输入P个候选区域，roi_pool层将每个候选区域均匀分成M×N块，对每块进行max pooling，将特征图上大小不一的候选区域转变为大小统一的数据，送入下一层；

S3：深度网络提取特征，CNN网络在卷积层之后会接上若干个全连接层,将卷积层产生的特征图映射成一个固定长度的特征向量，使用该像素周围的一个图像块作为CNN的输入用于训练和预测，程序中第6和32对应的是原网络中pool1和pool5层；整个网络输出的结果，可以在最后通过输出结果对应到原网络大小，从而保存其他层的图片特征结果；

S5：图像尺寸调整，oI池化层将不同大小的输入张量池化为固定大小，RoI池化层指定池化窗口的数量为W\times HW×H，每个池化窗口的大小是根据池化区域变化的；

S6：结果预测，最后两个loss层要改成一个softmax层，输入是分类的score，输出概率，对每个类别采用NMS，使用softmax得到分类，使用回归得到边框回归。

2.根据权利要求1所述的一种基于深度学习模型Fast-Rcnn改进的警情自动化判定方法，其特征在于：所述步骤S1中的CMOS为互补金属氧化物半导体，它本是计算机***内一种重要的芯片，保存了***引导最基本的资料，CMOS经过加工成为数码摄影中的图像传感器。

3.根据权利要求1或2所述的一种基于深度学习模型Fast-Rcnn改进的警情自动化判定方法，其特征在于：所述步骤S2中将普通max pooling层设为输入层的节点和为输出层的节点然后判决函数表示i节点是否被j节点选为最大值输出。

4.根据权利要求1-3任一项所述的一种基于深度学习模型Fast-Rcnn改进的警情自动化判定方法，其特征在于：所述步骤S4中的两个数据库的图像尺寸都是32×32，而且是彩色图像。

5.根据权利要求1所述的一种基于深度学习模型Fast-Rcnn改进的警情自动化判定方法，其特征在于：所述步骤S5中的池化层包含超级参数，池化的超级参数包括过滤器大小f和步幅s，常用的参数值为f＝2，s＝2。

6.根据权利要求1所述的一种基于深度学习模型Fast-Rcnn改进的警情自动化判定方法，其特征在于：所述步骤S6中Softmax函数，Softmax函数实际上是有限项离散概率分布的梯度对数归一化。