CN111144209A - 一种基于异构多分支深度卷积神经网络的监控视频人头检测方法 - Google Patents

一种基于异构多分支深度卷积神经网络的监控视频人头检测方法 Download PDF

Info

Publication number
CN111144209A
CN111144209A CN201911168427.1A CN201911168427A CN111144209A CN 111144209 A CN111144209 A CN 111144209A CN 201911168427 A CN201911168427 A CN 201911168427A CN 111144209 A CN111144209 A CN 111144209A
Authority
CN
China
Prior art keywords
network
layer
branch
detection
yolov3
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911168427.1A
Other languages
English (en)
Other versions
CN111144209B (zh
Inventor
王慧燕
潘峥昊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Gongshang University
Original Assignee
Zhejiang Gongshang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Gongshang University filed Critical Zhejiang Gongshang University
Priority to CN201911168427.1A priority Critical patent/CN111144209B/zh
Publication of CN111144209A publication Critical patent/CN111144209A/zh
Application granted granted Critical
Publication of CN111144209B publication Critical patent/CN111144209B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/53Recognition of crowd images, e.g. recognition of crowd congestion

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)
  • Closed-Circuit Television Systems (AREA)

Abstract

本发明提供一种基于异构多分支深度卷积神经网络的监控视频人头检测方法,可应用于视频监控领域中的各种小目标检测。为了提高目标检测算法的检测精度,对YOLOv3结构进行改造,将其主干网络修改为双主干网络结构,其中一个分支以DenseNet121网络为主干网络,去掉其最后的FC层,然后将其基础结构由CBL修改为BRC结构;另外一个分支采用Darknet53为主干网络,去掉其最后FC层,该分支的BRC结构不作修改。本发明设计的双主干结构网络模型取名为Dense_YOLO网络,通过两个不同结构的主干网络提取的特征进行特征融合,提高了检测效果,减少了误检和漏检,适用于小目标检测,效果优于以Darknet53作为主干网络的YOLOv3模型。

Description

一种基于异构多分支深度卷积神经网络的监控视频人头检测 方法
技术领域
本发明涉及计算机视觉中智能视频监控技术领域,具体涉及一种基于异构多分支深度卷积神经网络的监控视频人头检测方法。
背景技术
在大型的视频监控场所,如机场、火车站、停车场、银行等,摄像机数量很多,捕获的视频非常庞大,却给人们搜索有用信息带来了巨大的挑战。
目前,智能视频监控技术已被应用于对视频进行自动处理和分析以节省昂贵的人力资源和时间成本。监控摄像头中的人头检测是智能视频监控***的一个关键技术,是后续很多视频识别和分析任务的基础,比如人头部属性识别、人流量检测和行人跟踪等。
在监控摄像头中,人头部尺寸往往较小,尤其是距离较远的行人,在遮挡和各种复杂的背景下,其检测难度较大,这种检测属于视频监控中的小目标检测范畴。目前已有的方法检测精度不高,误检和漏检较多。基于此,本发明提出了一种新的深度学习网络结构Dense_YOLO的小目标检测方法,用于精确地实现监控视频中的行人头部检测。与已有的方法相比,本发明所提出的方法通过融合不同结构主干网络之间的特征,获得更加抽象和丰富的特征表达,提高了检测效果,尤其对小尺度目标的检测效果,减少了误检和漏检。
发明内容
本发明的目的是提供一种适用于摄像机网络中行人头部检测及视频监控中其他小目标检测、提高检测精度的基于异构多分支深度卷积神经网络的监控视频人头检测方法。
为了达到上述目的,本发明通过以下技术方案来实现:
一种基于异构多分支深度卷积神经网络的监控视频人头检测方法,包括如下步骤:
S1)数据增强
使用Mixup方法对人头检测数据进行数据增强操作,使用线性插值的方法构建新的训练样本和标签来代替原样本和标签;
S2)人头部位检测
S2-1)构建卷积神经网络Dense_YOLO
修改YOLOv3主干网络结构为双分支结构,其中一个分支以DenseNet121网络作为主干网络,去掉其最后一层FC层,另一个分支以Darknet53作为主干网络,去掉其最后一层FC层;将DenseNet121的基础结构由CBL结构修改为BRC结构,而Darknet53分支的BRC结构不作修改;
S2-2)特征图层次选择与融合
利用S2-1)中的双主干网络对增强后的训练数据进行训练;
将两个主干网络获得的特征图进行融合,得到三层特征图,对应的输入通道数分别为256、512和1024;
对最后一层特征图进行如下操作:首先,将它放进make embedding层中,通过后面的5层CBL结构后通道数减少一半;然后,分成两条路径,一条路径通过3×3卷积升维到原先的维度,再通过一个1×1卷积得到最终的255维输出,另一条路径通过1×1卷积通道数降维至一半,再通过上采样层得到特征图和主干网络输入的下一层次特征图进行拼接;
以此类推,得到第二层、第三层的输出;这三个层次的输出共同构成最终的输出结果;
S2-3)行人头部目标框预测
从S2-2)得到的三个特征图分别通过µ×(4+1+c)个1×1卷积进行卷积预测,其中µ为预设边界框的数量,c为待预测的目标类别数;
预设边界框的尺寸可根据训练数据集通过聚类得到,根据网络预测得到的目标边框内包含目标的概率和目标框中心点偏移量以及宽和高,最终得到目标真实的边界框,实现对目标的准确定位。
本发明与现有技术相比,具有以下优点:
本发明一种基于异构多分支深度卷积神经网络的监控视频人头检测方法,不仅适用于摄像机网络中行人头部检测,也适用于视频监控中其他小目标检测。为了提高目标检测算法的检测精度,本发明对YOLOv3结构进行改造,将其主干网络修改为双主干网络结构,其中一个分支以DenseNet121网络为主干网络,去掉其最后的FC层,然后将其基础结构由CBL修改为BRC结构;另外一个分支采用Darknet53为主干网络,去掉其最后FC层,该分支的BRC结构不作修改。本发明设计的双主干结构网络模型取名为Dense_YOLO网络,通过两个不同结构的主干网络提取的特征进行特征融合,提高了检测效果,减少了误检和漏检,适用于小目标检测,效果优于以Darknet53作为主干网络的YOLOv3模型。
附图说明
图1是本发明一种基于异构多分支深度卷积神经网络的监控视频人头检测方法的Dense_YOLO网络结构示意图。
具体实施方式
下面结合附图,对本发明的实施例作进一步详细的描述。
一种基于异构多分支深度卷积神经网络的监控视频人头检测方法,包括如下步骤:
S1)数据增强
使用Mixup方法对人头检测数据进行数据增强操作,使用线性插值的方法构建新的训 练样本
Figure 680596DEST_PATH_IMAGE002
和标签
Figure 419007DEST_PATH_IMAGE004
,来代替原样本和标签
Figure 550912DEST_PATH_IMAGE005
,公式为:
Figure 748675DEST_PATH_IMAGE007
Figure 420964DEST_PATH_IMAGE009
(1);
其中,
Figure 387783DEST_PATH_IMAGE011
是一个控制函数,用于控制不同的数据增强的效果;
S2)人头部位检测
S2-1)构建卷积神经网络Dense_YOLO
修改YOLOv3主干网络结构为双分支结构,其中一个分支以DenseNet121网络作为主干网络,去掉其最后一层FC层,另一个分支以Darknet53作为主干网络,去掉其最后一层FC层;
为了减少训练难度,提高精度,将DenseNet121的基础结构由CBL(Conv2d-BN-LeakyReLU)结构修改为BRC(BN-ReLU-Conv)结构,而Darknet53分支的BRC结构不作修改;
本发明设计的双主干结构网络模型取名为Dense_YOLO网络,其效果优于原YOLOv3以Darknet53作为主干网络的模型;YOLOv3是目标检测网络You Only Look Once v3:Unified, Real-Time Object Detection;DenseNet121是密集连接卷积网络,即DenselyConnected Convolutional Networks,网络中使用了121个convolutional layers;Darknet53是一个较为轻型的完全基于C与CUDA的开源深度学习框架,即Darknet: Opensource neural networks in C,使用了53个convolutional layers;
S2-2)特征图层次选择与融合
利用S2-1)中的双主干网络对增强后的训练数据进行训练;
如图1所示,将两个主干网络获得的特征图进行融合,得到三层特征图
Figure 18485DEST_PATH_IMAGE013
,对应的输入通道数N1、N2、N3分别为256、512和1024;
对最后一层特征图
Figure 172386DEST_PATH_IMAGE015
进行如下操作:首先,将它放进make embedding层中,通过后 面的5层CBL结构后通道数N1减少一半;然后,分成两条路径,一条路径通过3×3卷积升维到 原先的维度,再通过一个1×1卷积得到最终的255维输出y1,另一条路径通过1×1卷积通道 数降维至一半,其特征图通道数刚好是主干网络输入的下一层特征图
Figure 149831DEST_PATH_IMAGE017
通道数N2的一 半,再通过上采样层得到特征图
Figure 236736DEST_PATH_IMAGE019
和主干网络输入的下一层次特征图进行拼接;
以此类推,重复上述类似操作得到第二层的输出y2、第三层的输出y3;三个特征图
Figure 772760DEST_PATH_IMAGE021
共同构成了网络输出结果,其尺寸大小
Figure 679536DEST_PATH_IMAGE023
分别为13×13、26× 26、52×52;这里的CBL结构具体参见YOLOv3结构;
S2-3)行人头部目标框预测
从S2-2)得到的三个特征图
Figure 693628DEST_PATH_IMAGE024
分别通过
Figure 635039DEST_PATH_IMAGE026
卷积进行卷积 预测,得到了大小为
Figure 545226DEST_PATH_IMAGE028
的输出,其中µ为预设边界框的数量,这里取µ=3,预设边界 框的尺寸可根据训练数据集通过聚类得到,其在特征图上的中心坐标表示为
Figure 565397DEST_PATH_IMAGE030
, 宽和高表示为
Figure 258547DEST_PATH_IMAGE032
;c为待预测的目标的类别数,
Figure 913519DEST_PATH_IMAGE034
个参数用于预测目标框中心点 偏移量为
Figure 666711DEST_PATH_IMAGE036
,宽和高为
Figure 672714DEST_PATH_IMAGE038
Figure 169554DEST_PATH_IMAGE040
个参数用于预测目标边框j内包含目标的 概率
Figure 210191DEST_PATH_IMAGE042
最终预测的目标框为:
Figure 603126DEST_PATH_IMAGE044
,其中
Figure 597889DEST_PATH_IMAGE046
Figure 898421DEST_PATH_IMAGE048
Figure 527985DEST_PATH_IMAGE050
Figure 622980DEST_PATH_IMAGE052
Figure 603575DEST_PATH_IMAGE054
为sigmoid函数;
根据网络预测得到的目标边框内包含目标的概率和目标框中心点偏移量以及宽和高,最终得到目标真实的边界框,实现对目标的准确定位。
以上所述仅是本发明优选实施方式,应当指出,对于本技术领域的普通技术人员,在不脱离本发明构思的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明保护范围内。

Claims (1)

1.一种基于异构多分支深度卷积神经网络的监控视频人头检测方法,其特征在于包括如下步骤:
S1)数据增强
使用Mixup方法对人头检测数据进行数据增强操作,使用线性插值的方法构建新的训练样本和标签来代替原样本和标签;
S2)人头部位检测
S2-1)构建卷积神经网络Dense_YOLO
修改YOLOv3主干网络结构为双分支结构,其中一个分支以DenseNet121网络作为主干网络,去掉其最后一层FC层,另一个分支以Darknet53作为主干网络,去掉其最后一层FC层;将DenseNet121的基础结构由CBL结构修改为BRC结构,而Darknet53分支的BRC结构不作修改;
S2-2)特征图层次选择与融合
利用S2-1)中的双主干网络对增强后的训练数据进行训练;
将两个主干网络获得的特征图进行融合,得到三层特征图,对应的输入通道数分别为256、512和1024;
对最后一层特征图进行如下操作:首先,将它放进make embedding层中,通过后面的5层CBL结构后通道数减少一半;然后,分成两条路径,一条路径通过3×3卷积升维到原先的维度,再通过一个1×1卷积得到最终的255维输出,另一条路径通过1×1卷积通道数降维至一半,再通过上采样层得到特征图和主干网络输入的下一层次特征图进行拼接;
以此类推,得到第二层、第三层的输出;这三个层次的输出共同构成最终的输出结果;
S2-3)行人头部目标框预测
从S2-2)得到的三个特征图分别通过µ×(4+1+c)个1×1卷积进行卷积预测,其中µ为预设边界框的数量,c为待预测的目标类别数;
预设边界框的尺寸可根据训练数据集通过聚类得到,根据网络预测得到的目标边框内包含目标的概率和目标框中心点偏移量以及宽和高,最终得到目标真实的边界框,实现对目标的准确定位。
CN201911168427.1A 2019-11-25 2019-11-25 一种基于异构多分支深度卷积神经网络的监控视频人头检测方法 Active CN111144209B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911168427.1A CN111144209B (zh) 2019-11-25 2019-11-25 一种基于异构多分支深度卷积神经网络的监控视频人头检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911168427.1A CN111144209B (zh) 2019-11-25 2019-11-25 一种基于异构多分支深度卷积神经网络的监控视频人头检测方法

Publications (2)

Publication Number Publication Date
CN111144209A true CN111144209A (zh) 2020-05-12
CN111144209B CN111144209B (zh) 2024-07-02

Family

ID=70516661

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911168427.1A Active CN111144209B (zh) 2019-11-25 2019-11-25 一种基于异构多分支深度卷积神经网络的监控视频人头检测方法

Country Status (1)

Country Link
CN (1) CN111144209B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112949498A (zh) * 2021-03-04 2021-06-11 北京联合大学 一种基于异构卷积神经网络的目标关键点检测方法
CN114067282A (zh) * 2021-11-04 2022-02-18 北京智芯原动科技有限公司 一种端到端的车辆位姿检测方法及装置
CN115661614A (zh) * 2022-12-09 2023-01-31 江苏稻源科技集团有限公司 一种基于轻量化YOLO v1的目标检测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107844743A (zh) * 2017-09-28 2018-03-27 浙江工商大学 一种基于多尺度分层残差网络的图像多字幕自动生成方法
CN109815886A (zh) * 2019-01-21 2019-05-28 南京邮电大学 一种基于改进YOLOv3的行人和车辆检测方法及***
WO2019144575A1 (zh) * 2018-01-24 2019-08-01 中山大学 一种快速行人检测方法及装置
US20190303731A1 (en) * 2018-03-28 2019-10-03 Boe Technology Group Co., Ltd. Target detection method and device, computing device and readable storage medium

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107844743A (zh) * 2017-09-28 2018-03-27 浙江工商大学 一种基于多尺度分层残差网络的图像多字幕自动生成方法
WO2019144575A1 (zh) * 2018-01-24 2019-08-01 中山大学 一种快速行人检测方法及装置
US20190303731A1 (en) * 2018-03-28 2019-10-03 Boe Technology Group Co., Ltd. Target detection method and device, computing device and readable storage medium
CN109815886A (zh) * 2019-01-21 2019-05-28 南京邮电大学 一种基于改进YOLOv3的行人和车辆检测方法及***

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘君;谢颖华;: "智能视频监控***中改进YOLO算法的实现", 信息技术与网络安全, no. 04, 10 April 2019 (2019-04-10) *
潘峥昊: "基于正反卷积和多任务深度学习的行人检测和属性识别研究及实现", 中国优秀硕士学位论文全文数据库 工程科技, 15 April 2022 (2022-04-15) *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112949498A (zh) * 2021-03-04 2021-06-11 北京联合大学 一种基于异构卷积神经网络的目标关键点检测方法
CN112949498B (zh) * 2021-03-04 2023-11-14 北京联合大学 一种基于异构卷积神经网络的目标关键点检测方法
CN114067282A (zh) * 2021-11-04 2022-02-18 北京智芯原动科技有限公司 一种端到端的车辆位姿检测方法及装置
CN114067282B (zh) * 2021-11-04 2024-05-07 北京智芯原动科技有限公司 一种端到端的车辆位姿检测方法及装置
CN115661614A (zh) * 2022-12-09 2023-01-31 江苏稻源科技集团有限公司 一种基于轻量化YOLO v1的目标检测方法
CN115661614B (zh) * 2022-12-09 2024-05-24 江苏稻源科技集团有限公司 一种基于轻量化YOLO v1的目标检测方法

Also Published As

Publication number Publication date
CN111144209B (zh) 2024-07-02

Similar Documents

Publication Publication Date Title
CN110837778A (zh) 一种基于骨架关节点序列的交警指挥手势识别方法
CN112818903A (zh) 一种基于元学习和协同注意力的小样本遥感图像目标检测方法
Li et al. A deep learning approach for real-time rebar counting on the construction site based on YOLOv3 detector
CN111144209B (zh) 一种基于异构多分支深度卷积神经网络的监控视频人头检测方法
CN109145836B (zh) 基于深度学习网络和卡尔曼滤波的船只目标视频检测方法
CN109753949B (zh) 一种基于深度学习的多视窗交通标志检测方法
CN110532961B (zh) 一种基于多尺度注意机制网络模型的语义交通信号灯检测方法
WO2020114116A1 (zh) 一种基于密集人群的行人检测方法、存储介质及处理器
CN112651262A (zh) 一种基于自适应行人对齐的跨模态行人重识别方法
CN108875754A (zh) 一种基于多深度特征融合网络的车辆再识别方法
CN109086803A (zh) 一种基于深度学习与个性化因子的雾霾能见度检测***及方法
CN107609509A (zh) 一种基于运动显著性区域检测的动作识别方法
Xu et al. BANet: A balanced atrous net improved from SSD for autonomous driving in smart transportation
Tomar et al. Crowd analysis in video surveillance: A review
CN112700476A (zh) 一种基于卷积神经网络的红外船视频跟踪方法
Shen et al. Infrared multi-pedestrian tracking in vertical view via siamese convolution network
CN114202803A (zh) 一种基于残差网络的多阶段人体异常动作检测方法
CN115147459A (zh) 基于Swin Transformer的无人机目标跟踪方法
Liang et al. Methods of moving target detection and behavior recognition in intelligent vision monitoring.
Chen et al. Vehicles detection on expressway via deep learning: Single shot multibox object detector
Yin Object Detection Based on Deep Learning: A Brief Review
CN110688512A (zh) 基于ptgan区域差距与深度神经网络的行人图像搜索算法
CN114241606A (zh) 一种基于自适应集学习预测的人物交互检测方法
CN113936034A (zh) 一种结合帧间光流的表观运动联合弱小运动目标检测方法
CN117474883A (zh) 基于残差偏移网络自适应优化的绝缘子状态检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant