CN111144209B - 一种基于异构多分支深度卷积神经网络的监控视频人头检测方法 - Google Patents

一种基于异构多分支深度卷积神经网络的监控视频人头检测方法 Download PDF

Info

Publication number
CN111144209B
CN111144209B CN201911168427.1A CN201911168427A CN111144209B CN 111144209 B CN111144209 B CN 111144209B CN 201911168427 A CN201911168427 A CN 201911168427A CN 111144209 B CN111144209 B CN 111144209B
Authority
CN
China
Prior art keywords
network
branch
detection
target
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911168427.1A
Other languages
English (en)
Other versions
CN111144209A (zh
Inventor
王慧燕
潘峥昊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Gongshang University
Original Assignee
Zhejiang Gongshang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Gongshang University filed Critical Zhejiang Gongshang University
Priority to CN201911168427.1A priority Critical patent/CN111144209B/zh
Publication of CN111144209A publication Critical patent/CN111144209A/zh
Application granted granted Critical
Publication of CN111144209B publication Critical patent/CN111144209B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/53Recognition of crowd images, e.g. recognition of crowd congestion
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)
  • Closed-Circuit Television Systems (AREA)

Abstract

本发明提供一种基于异构多分支深度卷积神经网络的监控视频人头检测方法,可应用于视频监控领域中的各种小目标检测。为了提高目标检测算法的检测精度,对YOLOv3结构进行改造,将其主干网络修改为双主干网络结构,其中一个分支以DenseNet121网络为主干网络,去掉其最后的FC层,然后将其基础结构由CBL修改为BRC结构;另外一个分支采用Darknet53为主干网络,去掉其最后FC层,该分支的BRC结构不作修改。本发明设计的双主干结构网络模型取名为Dense_YOLO网络,通过两个不同结构的主干网络提取的特征进行特征融合,提高了检测效果,减少了误检和漏检,适用于小目标检测,效果优于以Darknet53作为主干网络的YOLOv3模型。

Description

一种基于异构多分支深度卷积神经网络的监控视频人头检测 方法
技术领域
本发明涉及计算机视觉中智能视频监控技术领域,具体涉及一种基于异构多分支深度卷积神经网络的监控视频人头检测方法。
背景技术
在大型的视频监控场所,如机场、火车站、停车场、银行等,摄像机数量很多,捕获的视频非常庞大,却给人们搜索有用信息带来了巨大的挑战。
目前,智能视频监控技术已被应用于对视频进行自动处理和分析以节省昂贵的人力资源和时间成本。监控摄像头中的人头检测是智能视频监控***的一个关键技术,是后续很多视频识别和分析任务的基础,比如人头部属性识别、人流量检测和行人跟踪等。
在监控摄像头中,人头部尺寸往往较小,尤其是距离较远的行人,在遮挡和各种复杂的背景下,其检测难度较大,这种检测属于视频监控中的小目标检测范畴。目前已有的方法检测精度不高,误检和漏检较多。基于此,本发明提出了一种新的深度学习网络结构Dense_YOLO的小目标检测方法,用于精确地实现监控视频中的行人头部检测。与已有的方法相比,本发明所提出的方法通过融合不同结构主干网络之间的特征,获得更加抽象和丰富的特征表达,提高了检测效果,尤其对小尺度目标的检测效果,减少了误检和漏检。
发明内容
本发明的目的是提供一种适用于摄像机网络中行人头部检测及视频监控中其他小目标检测、提高检测精度的基于异构多分支深度卷积神经网络的监控视频人头检测方法。
为了达到上述目的,本发明通过以下技术方案来实现:
一种基于异构多分支深度卷积神经网络的监控视频人头检测方法,包括如下步骤:
S1)数据增强
使用Mixup方法对人头检测数据进行数据增强操作,使用线性插值的方法构建新的训练样本和标签来代替原样本和标签;
S2)人头部位检测
S2-1)构建卷积神经网络Dense_YOLO
修改YOLOv3主干网络结构为双分支结构,其中一个分支以DenseNet121网络作为主干网络,去掉其最后一层FC层,另一个分支以Darknet53作为主干网络,去掉其最后一层FC层;将DenseNet121的基础结构由CBL结构修改为BRC结构,而Darknet53分支的BRC结构不作修改;
S2-2)特征图层次选择与融合
利用S2-1)中的双主干网络对增强后的训练数据进行训练;
将两个主干网络获得的特征图进行融合,得到三层特征图,对应的输入通道数分别为256、512和1024;
对最后一层特征图进行如下操作:首先,将它放进make embedding层中,通过后面的5层CBL结构后通道数减少一半;然后,分成两条路径,一条路径通过3×3卷积升维到原先的维度,再通过一个1×1卷积得到最终的255维输出,另一条路径通过1×1卷积通道数降维至一半,再通过上采样层得到特征图和主干网络输入的下一层次特征图进行拼接;
以此类推,得到第二层、第三层的输出;这三个层次的输出共同构成最终的输出结果;
S2-3)行人头部目标框预测
从S2-2)得到的三个特征图分别通过µ×(4+1+c)个1×1卷积进行卷积预测,其中µ为预设边界框的数量,c为待预测的目标类别数;
预设边界框的尺寸可根据训练数据集通过聚类得到,根据网络预测得到的目标边框内包含目标的概率和目标框中心点偏移量以及宽和高,最终得到目标真实的边界框,实现对目标的准确定位。
本发明与现有技术相比,具有以下优点:
本发明一种基于异构多分支深度卷积神经网络的监控视频人头检测方法,不仅适用于摄像机网络中行人头部检测,也适用于视频监控中其他小目标检测。为了提高目标检测算法的检测精度,本发明对YOLOv3结构进行改造,将其主干网络修改为双主干网络结构,其中一个分支以DenseNet121网络为主干网络,去掉其最后的FC层,然后将其基础结构由CBL修改为BRC结构;另外一个分支采用Darknet53为主干网络,去掉其最后FC层,该分支的BRC结构不作修改。本发明设计的双主干结构网络模型取名为Dense_YOLO网络,通过两个不同结构的主干网络提取的特征进行特征融合,提高了检测效果,减少了误检和漏检,适用于小目标检测,效果优于以Darknet53作为主干网络的YOLOv3模型。
附图说明
图1是本发明一种基于异构多分支深度卷积神经网络的监控视频人头检测方法的Dense_YOLO网络结构示意图。
具体实施方式
下面结合附图,对本发明的实施例作进一步详细的描述。
一种基于异构多分支深度卷积神经网络的监控视频人头检测方法,包括如下步骤:
S1)数据增强
使用Mixup方法对人头检测数据进行数据增强操作,使用线性插值的方法构建新 的训练样本 和标签,来代替原样本和标签,公式为:
(1);
其中,是一个控制函数,用于控制不同的数据增强的效果;
S2)人头部位检测
S2-1)构建卷积神经网络Dense_YOLO
修改YOLOv3主干网络结构为双分支结构,其中一个分支以DenseNet121网络作为主干网络,去掉其最后一层FC层,另一个分支以Darknet53作为主干网络,去掉其最后一层FC层;
为了减少训练难度,提高精度,将DenseNet121的基础结构由CBL(Conv2d-BN-LeakyReLU)结构修改为BRC(BN-ReLU-Conv)结构,而Darknet53分支的BRC结构不作修改;
本发明设计的双主干结构网络模型取名为Dense_YOLO网络,其效果优于原YOLOv3以Darknet53作为主干网络的模型;YOLOv3是目标检测网络You Only Look Once v3:Unified, Real-Time Object Detection;DenseNet121是密集连接卷积网络,即DenselyConnected Convolutional Networks,网络中使用了121个convolutional layers;Darknet53是一个较为轻型的完全基于C与CUDA的开源深度学习框架,即Darknet: Opensource neural networks in C,使用了53个convolutional layers;
S2-2)特征图层次选择与融合
利用S2-1)中的双主干网络对增强后的训练数据进行训练;
如图1所示,将两个主干网络获得的特征图进行融合,得到三层特征图, 对应的输入通道数N1、N2、N3分别为256、512和1024;
对最后一层特征图进行如下操作:首先,将它放进make embedding层中, 通过后面的5层CBL结构后通道数N1减少一半;然后,分成两条路径,一条路径通过3×3卷积 升维到原先的维度,再通过一个1×1卷积得到最终的255维输出y1,另一条路径通过1×1卷 积通道数降维至一半,其特征图通道数刚好是主干网络输入的下一层特征图通道 数N2的一半,再通过上采样层得到特征图和主干网络输入的下一层次特征图进行拼 接;
以此类推,重复上述类似操作得到第二层的输出y2、第三层的输出y3;三个特征图共同构成了网络输出结果,其尺寸大小分别为13×13、 26×26、52×52;这里的CBL结构具体参见YOLOv3结构;
S2-3)行人头部目标框预测
从S2-2)得到的三个特征图分别通过卷积进 行卷积预测,得到了大小为的输出,其中µ为预设边界框的数量,这里取µ=3, 预设边界框的尺寸可根据训练数据集通过聚类得到,其在特征图上的中心坐标表示为,宽和高表示为;c为待预测的目标的类别数,个参数用于预 测目标框中心点偏移量为,宽和高为个参数用于预测目标 边框j内包含目标的概率
最终预测的目标框为:,其中为sigmoid函数;
根据网络预测得到的目标边框内包含目标的概率和目标框中心点偏移量以及宽和高,最终得到目标真实的边界框,实现对目标的准确定位。
以上所述仅是本发明优选实施方式,应当指出,对于本技术领域的普通技术人员,在不脱离本发明构思的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明保护范围内。

Claims (1)

1.一种基于异构多分支深度卷积神经网络的监控视频人头检测方法,其特征在于包括如下步骤:
S1)数据增强
使用Mixup方法对人头检测数据进行数据增强操作,使用线性插值的方法构建新的训练样本x′i和标签y′i,来代替原样本xi和标签yi,公式为:
x′i=αxi+(1-α)xi,y′i=αyi+(1-α)yi (1);
其中,α是一个控制函数,用于控制不同的数据增强的效果;
S2)人头部位检测
S2-1)构建卷积神经网络Dense_YOLO
修改YOLOv3主干网络结构为双分支结构,其中一个分支以DenseNet121网络作为主干网络,去掉其最后一层FC层,另一个分支以Darknet53作为主干网络,去掉其最后一层FC层;将DenseNet121的基础结构由CBL结构修改为BRC结构,而Darknet53分支的BRC结构不作修改;
S2-2)特征图层次选择与融合
利用S2-1)中的双主干网络对增强后的训练数据进行训练;
将两个主干网络获得的特征图进行融合,得到三层特征图,对应的输入通道数分别为256、512和1024;
对最后一层特征图进行如下操作:首先,将它放进make embedding层中,通过后面的5层CBL结构后通道数减少一半;然后,分成两条路径,一条路径通过3×3卷积升维到原先的维度,再通过一个1×1卷积得到最终的255维输出,另一条路径通过1×1卷积通道数降维至一半,再通过上采样层得到特征图和主干网络输入的下一层次特征图进行拼接;
以此类推,得到第二层、第三层的输出;这三个层次的输出共同构成最终的输出结果;
S2-3)行人头部目标框预测
从S2-2)得到的三个特征图{yi|i=1,2,3}分别通过v=μ×(4+1+c)卷积进行卷积预测,得到了大小为bi×bi×v的输出,其中μ为预设边界框的数量,这里取μ=3,预设边界框的尺寸可根据训练数据集通过聚类得到,其在特征图上的中心坐标表示为(sx,sy),宽和高表示为(sw,sh);c为待预测的目标的类别数,4μ个参数用于预测目标框中心点偏移量为宽和高为μ个参数用于预测目标边框j内包含目标的概率
最终预测的目标框为:(tx,ty,tw,th),其中 σ(x)为sigmoid函数;
根据网络预测得到的目标边框内包含目标的概率和目标框中心点偏移量以及宽和高,最终得到目标真实的边界框,实现对目标的准确定位。
CN201911168427.1A 2019-11-25 2019-11-25 一种基于异构多分支深度卷积神经网络的监控视频人头检测方法 Active CN111144209B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911168427.1A CN111144209B (zh) 2019-11-25 2019-11-25 一种基于异构多分支深度卷积神经网络的监控视频人头检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911168427.1A CN111144209B (zh) 2019-11-25 2019-11-25 一种基于异构多分支深度卷积神经网络的监控视频人头检测方法

Publications (2)

Publication Number Publication Date
CN111144209A CN111144209A (zh) 2020-05-12
CN111144209B true CN111144209B (zh) 2024-07-02

Family

ID=70516661

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911168427.1A Active CN111144209B (zh) 2019-11-25 2019-11-25 一种基于异构多分支深度卷积神经网络的监控视频人头检测方法

Country Status (1)

Country Link
CN (1) CN111144209B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112949498B (zh) * 2021-03-04 2023-11-14 北京联合大学 一种基于异构卷积神经网络的目标关键点检测方法
CN114067282B (zh) * 2021-11-04 2024-05-07 北京智芯原动科技有限公司 一种端到端的车辆位姿检测方法及装置
CN115661614B (zh) * 2022-12-09 2024-05-24 江苏稻源科技集团有限公司 一种基于轻量化YOLO v1的目标检测方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107844743B (zh) * 2017-09-28 2020-04-28 浙江工商大学 一种基于多尺度分层残差网络的图像多字幕自动生成方法
CN108399362B (zh) * 2018-01-24 2022-01-07 中山大学 一种快速行人检测方法及装置
CN108416327B (zh) * 2018-03-28 2022-04-29 京东方科技集团股份有限公司 一种目标检测方法、装置、计算机设备及可读存储介质
CN109815886B (zh) * 2019-01-21 2020-12-18 南京邮电大学 一种基于改进YOLOv3的行人和车辆检测方法及***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于正反卷积和多任务深度学习的行人检测和属性识别研究及实现;潘峥昊;中国优秀硕士学位论文全文数据库 工程科技;20220415;全文 *

Also Published As

Publication number Publication date
CN111144209A (zh) 2020-05-12

Similar Documents

Publication Publication Date Title
CN110837778B (zh) 一种基于骨架关节点序列的交警指挥手势识别方法
CN111144209B (zh) 一种基于异构多分支深度卷积神经网络的监控视频人头检测方法
EP3633615A1 (en) Deep learning network and average drift-based automatic vessel tracking method and system
CN111738110A (zh) 基于多尺度注意力机制的遥感图像车辆目标检测方法
WO2021218786A1 (zh) 一种数据处理***、物体检测方法及其装置
Li et al. Sign language recognition based on computer vision
Lu et al. Cascaded multi-task road extraction network for road surface, centerline, and edge extraction
CN110532961B (zh) 一种基于多尺度注意机制网络模型的语义交通信号灯检测方法
CN112489081A (zh) 一种视觉目标跟踪方法及装置
CN116385761A (zh) 一种融合rgb与红外信息的3d目标检测方法
Xu et al. BANet: A balanced atrous net improved from SSD for autonomous driving in smart transportation
Liang et al. Methods of moving target detection and behavior recognition in intelligent vision monitoring.
Yang et al. [Retracted] A Method of Image Semantic Segmentation Based on PSPNet
CN112183450A (zh) 一种多目标跟踪方法
CN117116048A (zh) 基于知识表示模型和图神经网络的知识驱动交通预测方法
CN114943888A (zh) 基于多尺度信息融合的海面小目标检测方法、电子设备及计算机可读介质
Yin Object Detection Based on Deep Learning: A Brief Review
Dong et al. Intelligent pixel-level pavement marking detection using 2D laser pavement images
CN116824641B (zh) 姿态分类方法、装置、设备和计算机存储介质
Li et al. An efficient point cloud place recognition approach based on transformer in dynamic environment
CN116994164A (zh) 一种多模态航拍图像融合与目标检测联合学习方法
CN115731517B (zh) 一种基于Crowd-RetinaNet网络的拥挤人群检测方法
CN111726535A (zh) 基于车辆感知的智慧城市cim视频大数据画质控制方法
CN103903269B (zh) 球机监控视频的结构化描述方法和***
Zou et al. Traffic flow video image recognition and analysis based on multi-target tracking algorithm and deep learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant