CN110287862A

CN110287862A - 基于深度学习的防偷拍检测方法

Info

Publication number: CN110287862A
Application number: CN201910545151.8A
Authority: CN
Inventors: 张静; 胡锐; 周秦; 申枭; 李云松
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2019-06-21
Filing date: 2019-06-21
Publication date: 2019-09-27
Anticipated expiration: 2039-06-21
Also published as: CN110287862B

Abstract

本发明公开一种基于深度学习的防偷拍检测方法，其步骤为：1、构建深度学习的目标检测网络；2、生成训练集；3、采取多种尺度画框方式对图片中的同一偷拍行为进行标记；4、训练深度学习网络；5、检测偷拍行为；6、对无偷拍行为的图片进行图像增强；7、对特征增强后的图像再次进行检测。本发明通过在对数据集进行标记时采取多种尺度画框方式，克服了因偷拍行为动作多样化导致的检测正确率低的问题，构建了深度学习网络并对人形区域进行图像增强处理，保证了在监控视频中的偷拍行为检测上能够达到实时效果，并具有较高的正确率。

Description

基于深度学习的防偷拍检测方法

技术领域

本发明属于图像处理技术领域，更进一步涉及目标检测技术领域中的一种基于深度学习的防偷拍检测方法。本发明可对视频监控中所拍摄到的人的偷拍行为进行实时检测。

技术背景

视频监控中的防偷拍检测在许多保密机构和单位中是一个十分有必要的行为，能够防止机构或单位的内部保密信息向外界泄露。但是在实际中，人工检测视频监控中的偷拍行为费时费力，而且很难做到实时检测。为解决上述问题，人们通常设计目标检测方法，利用计算机对视频监控中的偷拍行为进行检测。

裕利年电子南通有限公司在其申请的专利文献“基于计算机视觉的防拍照显示***及防拍照方法”(申请号：201811171034.1，公布号：CN109271814A)中提供了一种基于计算机视觉的防拍照显示***及防拍照方法。该方法的步骤为，首先从数据库中调入基于RGB颜色空间的图像数据，并对数据进行滤波处理，使数据较为平滑；然后将RGB颜色空间映射到HSV空间，并对图像进行形态学处理；最后通过将检测到的物体轮廓图和大小与手机以及数码相机进行比对，判断图像是否包含偷拍行为。该方法的不足之处是：由于该方法在检测时只对偷拍设备进行检测而偷拍行为动作具有多样化，易将其他行为错误判断为偷拍行为，对检测准确率有较大影响。

山东浪潮云服务信息科技有限公司在其申请的专利文献“一种防偷拍***及方法”(申请号：201711077705.3，公布号：CN107784653A)中公开了一种防偷拍***及方法。该方法的步骤为，首先实时采集幕布上展示的影片图像，将影片图像输出给偷拍判断模块；然后实时观众席图像，将图像输出给偷拍判断模块；针对接收到的每张图像，计算当前观众席图像与接收到的影片图像之间的匹配度，当计算出的匹配度大于等于预设匹配度阈值时，认为当前图像中有偷拍行为。该方法的不足之处是：由于该方法在对比图像匹配度时采用传统的匹配方法，计算量较大，从而无法对视频进行实时处理。

发明内容

本发明的目的在于针对上述现有技术的不足，提出一种基于深度学习网络的防偷拍检测方法，解决了对视频中偷拍行为进行检测时精度低、无法达到实时效果的问题。

实现本发明目的的思路是，先搭建一个由四个模块组成的Yolov3目标检测网络、设置网络每层参数，再构建数据集，采取多种尺度画框方式对图片中的同一偷拍行为进行标记，并对人形区域进行标记，然后输入标记好的图片对深度学习网络进行训练，最后将实时采集的图片输入到训练好网络中检测偷拍行为，对无偷拍行为图片中的人形区域进行局部增强，将局部增强后的图片再次输入深度学习网络中，重新对图片进行检测。

本发明实现的具体步骤如下：

(1)构建深度学习的目标检测网络：

(1a)搭建一个由四个模块组成的Yolov3目标检测网络具体结构如下：

所述第一个模块的结构依次为：输入层→第1卷积层→第2卷积层→第一卷积子模块→第3卷积层→第二卷积子模块→第4卷积层→第三卷积子模块→第5卷积层→第四卷积子模块→第6卷积层→第五卷积子模块；所述第二卷积子模块是由四个依次串联的第一卷积单元组成；所述第三卷积子模块由八个依次串联的第2卷积单元组成；所述第四卷积子模块是由八个依次串联的第3卷积单元组成；所述第五卷积子模块是由四个依次串联的第4卷积单元组成；所有卷积单元的结构均依次为:两个依次串联的卷积层→ResNet层，每个ResNet层将所在卷积子模块的输入端连接并合并到输出端；

所述第二个模块的结构依次为：第7卷积层→第8卷积层→第9卷积层→第10卷积层→第11卷积层→第12卷积层→第13卷积层→输出层；

所述第三个模块的结构依次为：第14卷积层→上采样层→第1concat层→第15卷积层→第16卷积层→第17卷积层→第18卷积层→第19卷积层→第20卷积层→第21卷积层→输出层；

所述第四个模块的结构依次为：第22卷积层→上采样层→第2concat层→第23卷积层→第24卷积层→第25卷积层→第26卷积层→第27卷积层→第28卷积层→第29卷积层→输出层；

将第一个模块中的第五卷积子模块与第二个模块中第7卷积层相连，将第二个模块中第11卷积层与第三个模块中第14卷积层相连，将第三个模块中第19卷积层与第四个模块中第22卷积层相连；将第一个模块中的第四卷积子模块与第三个模块中的第1concat层相连，将第一个模块中的第三卷积子模块与第四个模块中的第2concat层相连，组成Yolov3目标检测网络；

(1b)设置深度学习的目标检测网络每层的参数如下：

将第1至第6卷积层的所有卷积核大小均设置为3*3，通道数依次设置为32,64,128,256,512,1024，第1卷积层步长设置为1，将第2至第5卷积层的步长均设置为2；

将第7、9、11卷积层的卷积核大小均设置为1*1，通道数均设置为512，步长均设置为1；

将第8、10、12卷积层的卷积核大小均设置为3*3，通道数均设置为1024，步长均设置为1；

将第14卷积层的卷积核大小设置为1*1，通道数设置为256，步长设置为1；

将第15、17、19卷积层的卷积核大小均设置为1*1，通道数均设置为256，步长均设置为1；

将第16、18、20卷积层的卷积核大小均设置为3*3，通道数均设置为512，步长均设置为1；

将第22卷积层的卷积核大小设置为1*1，通道数设置为128，步长设置为1；

将第23、25、27卷积层的卷积核大小均设置为1*1，通道数均设置为128，步长均设置为1；

将第24、26、28卷积层的卷积核大小均设置为3*3，通道数均设置为256，步长均设置为1；

将第13、21、29卷积层的卷积核大小均设置为1*1，通道数均设置为255，步长均设置为1；

将第1卷积子模块以及第1至第4卷积单元中两个卷积层的卷积核大小依次分别设置为1*1和3*3，步长均设置为1，将第1卷积子模块中两个卷积层的通道数依次分别设置为32和64，将第1卷积单元中两个卷积层的通道数依次分别设置为64和128，将第2卷积单元中两个卷积层的通道数依次分别设置为128和256，将第3卷积单元中两个卷积层的通道数依次分别设置为256和512，将第4卷积单元中两个卷积层的通道数依次分别设置为512和1024；

将上述四个模块中所有上采样层的步长均设置为2；

(2)生成训练集：

(2a)采集至少1万张图片组成深度学习数据集，其中，60％的图片中有偷拍行为，40％的图片中没有偷拍行为；

(2b)从有偷拍行为的所有图片中随机提取80％的图片，从没有偷拍行为的所有图片中随机提取80％的图片组成训练集；

(3)采取多种尺度画框方式对图片中的同一偷拍行为进行标记：

(3a)对有同一偷拍行为的所有图片中偷拍所使用的拍照设备的***画框做标记；

(3b)对有同一偷拍行为的所有图片中偷拍所使用的拍照设备以及拍照设备上出现的一部分人手的***画框做标记；

(3c)对有同一偷拍行为的所有图片中包括完整的人手和拍照设备的偷拍动作轮廓的***画框做标记；

(3d)对深度学习数据集中每张图片的人形区域画框进行标记，得到标记好的训练集图片；

(4)训练深度学习网络：

将已经标记好的训练集图片输入到Yolov3目标检测网络中，对网络参数进行迭代更新，当损失函数下降到0.1以下时停止训练，得到训练好的Yolov3目标检测网络；

(5)检测偷拍行为：

(5a)将待检测的室内环境中实时采集的一张图片输入到训练好的Yolov3目标检测网络中，输出该张图片的一张相应已标出检测目标的图片以及网络所计算出的该目标类别的得分值；

(5b)将偷拍行为的得分值的判断阈值设置为0.5，如果检测到的偷拍行为得分值小于0.5，认为没有偷拍行为；如果检测到的偷拍行为得分值大于0.5，认为有偷拍行为，输出偷拍行为的得分值及其位置信息；

(6)对无偷拍行为的图片进行图像增强：

(6a)如果图片中没有检测到偷拍行为，判断是否能够检测到人形区域，将检测到的人形区域得分值大于0.5的图片确认为有人，将检测到的人形区域得分值小于0.5的图片确认为没有人；

(6b)如果能够检测到人形区域，将图片中已检测出的人形区域进行局部均衡化处理；如果没有检测到人形区域，认为该图片中无偷拍行为；

(7)对特征增强后的图像再次进行检测：

将进行局部直方图均衡化之后的图像再次输入深度学习网络中，重新对图片进行偷拍行为检测。

与现有技术相比本发明有以下优点：

第一，由于本发明在对数据集进行标记时采取多种尺度画框方式，克服了现有技术中因偷拍行为动作多样化导致的检测正确率低的问题，使得本发明在对偷拍行为进行检测的过程中具有较高的正确率。

第二，由于本发明搭建了一个深度学习的目标检测网络，用于对偷拍行为进行检测，克服了现有技术中因传统方法计算量大导致的检测速度慢的问题，使得本发明能够实现对监控视频中的偷拍行为进行实时检测。

第三，由于本发明采用对无偷拍行为的图片进行图像增强的方法，使图片的局部特征得到增强，使得本发明对偷拍行为的检测具有更好的检测效果。

附图说明

图1是本发明的流程图；

图2是本发明的仿真图。

具体实施方式

下面结合附图对本发明做进一步的描述。

参照图1，对本发明实现的具体步骤做进一步的详细描述。

步骤1，构建深度学习的目标检测网络。

搭建一个由四个模块组成的Yolov3目标检测网络；

将第一个模块中的第五卷积子模块与第二个模块中第7卷积层相连，将第二个模块中第11卷积层与第三个模块中第14卷积层相连，将第三个模块中第19卷积层与第四个模块中第22卷积层相连；将第一个模块中的第四卷积子模块与第三个模块中的第1concat层相连，将第一个模块中的第三卷积子模块与第四个模块中的第2concat层相连，组成Yolov3目标检测网络。

设置深度学习的目标检测网络每层的参数；

将上述四个模块中所有上采样层的步长均设置为2。

步骤2，生成训练集：

采集至少1万张图片组成深度学习数据集，其中，60％的图片中有偷拍行为，40％的图片中没有偷拍行为；

从有偷拍行为的所有图片中随机提取80％的图片，从没有偷拍行为的所有图片中随机提取80％的图片，组成训练集。

所述的图片中的偷拍行为是指人们在室内环境下手持手机、相机、平板的拍照设备进行拍照的行为。

步骤3，采取多种尺度画框方式对图片中的同一偷拍行为进行标记：

对有同一偷拍行为的所有图片中偷拍所使用的拍照设备的***画框做标记；

对有同一偷拍行为的所有图片中偷拍所使用的拍照设备以及拍照设备上出现的一部分人手的***画框做标记；

对有同一偷拍行为的所有图片中包括完整的人手和拍照设备的偷拍动作轮廓的***画框做标记。

对深度学习数据集中每张图片的人形区域画框进行标记，得到标记好的训练集图片。

步骤4，训练深度学习网络：

将已经标记好的训练集图片输入到Yolov3目标检测网络中，对网络参数进行迭代更新，当损失函数下降到0.1以下时停止训练，得到训练好的Yolov3目标检测网络。

步骤5，检测偷拍行为：

将待检测的室内环境中实时采集的一张图片输入到训练好的Yolov3目标检测网络中，输出该张图片的一张相应已标出检测目标的图片以及网络所计算出的该目标类别的得分值。

将偷拍行为的得分值的判断阈值设置为0.5，如果检测到的偷拍行为得分值小于0.5，认为没有偷拍行为；如果检测到的偷拍行为得分值大于0.5，认为有偷拍行为，输出偷拍行为的得分值及其位置信息。

步骤6，对无偷拍行为的图片进行图像增强：

如果图片中没有检测到偷拍行为，判断是否能够检测到人形区域，将检测到的人形区域得分值大于0.5的图片确认为有人，将检测到的人形区域得分值小于0.5的图片确认为没有人。

如果能够检测到人形区域，将图片中已检测出的人形区域进行局部均衡化处理；如果没有检测到人形区域，认为该图片中无偷拍行为。

步骤7，对特征增强后的图像再次进行检测：

所述对无偷拍行为目标图像进行特征增强的步骤如下：保存监控视频中检测到人但没有检测到偷拍行为的图片，得到这些图片进行人形检测的像素坐标信息，利用像素坐标信息对人形区域进行直方图均衡化，最终得到局部均衡化之后的图片。

下面结合仿真实验对本发明的效果做进一步说明。

1.仿真实验条件：

本发明的仿真实验的硬件平台为：处理器为Intel Core i7-6850K CPU，显卡为NVIDIA GeForce GTX 1080Ti，内存为128GB。

本发明的仿真实验的软件平台为：ubuntu16.04。

2.仿真实验内容：

本发明仿真实验是采用本发明的方法，从数据集中随机选取其中的80％作为训练集，10％用作验证集，剩余的10％用作测试集。对所搭建的深度学习网络在该数据集上进行训练，得到训练好的深度学习网络。

本发明仿真实验所使用的数据集由室内采集的有人持手机偷拍动作的图片组成，成像时间为2019年3月，图片大小为1920×1080，图像格式为jpg。

将训练好的深度学习网络在测试集上进行测试，检测到图片中的偷拍行为，对图片中人形区域进行增强之后，phone和phone-hand两种标记方式均得到了正确的检测结果如图2所示。图2中，用对手机的***画框做标记的方式得到的检测结果记为phone，用对人手持手机的偷拍动作轮廓的***画框做标记的方式得到的检测结果记为phone-hand。

利用三个评价指标(准确率Acc、误识率FPR、漏识率FNR)对本发明仿真中图片进行局部增强前后的检测结果分别进行评价。利用下式，计算准确率Acc、误识率FPR、漏识率FNR，其中，TP表示被正确地划分为有目标的图片数、FP表示被错误地划分为有目标的图片数、TN表示被错误地划分为无目标的图片数、FN表示被正确地划分为无目标的图片数，将所有计算结果绘制成表1：

表1.仿真实验中本发明检测结果的定量分析表

	FPR	FNR	Acc
				局部增强前	67.6％	37.4％	28.4％
局部增强后	76.0％	26.9％	21.6％

结合表1可以看出，本发明在局部增强后检测的误识率FPR为76.0％，漏识率FNR为26.9％，准确率Acc为21.6％，这三个指标均高于局部增强前的检测结果，证明局部增强图片的方法可以得到更精确的检测结果。

以上仿真实验表明：本发明在对数据集进行标记时采取多种尺度画框方式，克服了现有技术因偷拍行为动作多样化导致的检测正确率低的问题，使得本发明在检测过程中具有较高的正确率。在检测时搭建了一个基于深度学习的目标检测网络，克服了现有技术因传统方法计算量大导致的检测速度慢的问题，使得本发明在监控视频中的偷拍行为检测上能够达到实时效果。

Claims

1.一种基于深度学习的防偷拍检测方法，其特征在于，构建深度学习的目标检测网络，采取多种尺度画框方式对图片进行标记，对无偷拍行为的图片进行图像增强，该方法的步骤如下：