CN111191621A - 一种大焦距监控场景下多尺度目标的快速精准识别方法 - Google Patents

一种大焦距监控场景下多尺度目标的快速精准识别方法 Download PDF

Info

Publication number
CN111191621A
CN111191621A CN202010004300.2A CN202010004300A CN111191621A CN 111191621 A CN111191621 A CN 111191621A CN 202010004300 A CN202010004300 A CN 202010004300A CN 111191621 A CN111191621 A CN 111191621A
Authority
CN
China
Prior art keywords
target
anchor
detection
branch
target detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010004300.2A
Other languages
English (en)
Other versions
CN111191621B (zh
Inventor
魏世安
刘立强
江龙
王亚涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Tongfang Software Co Ltd
SG Biofuels Ltd
Original Assignee
Beijing Tongfang Software Co Ltd
SG Biofuels Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Tongfang Software Co Ltd, SG Biofuels Ltd filed Critical Beijing Tongfang Software Co Ltd
Priority to CN202010004300.2A priority Critical patent/CN111191621B/zh
Publication of CN111191621A publication Critical patent/CN111191621A/zh
Application granted granted Critical
Publication of CN111191621B publication Critical patent/CN111191621B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/20Scenes; Scene-specific elements in augmented reality scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

一种大焦距监控场景下多尺度目标的快速精准识别方法,涉及人工智能领域和计算机视觉领域。本发明的方法步骤为:1)动态anchor设定:获取训练数据,并对训练的目标进行数据拟合,通过大数据拟合来分析anchor的特性,动态的设定anchor的值。2)设计网络结构DAnchorNet:设计DAnchorNet中目标检测分支与目标分割分支,通过目标检测分支与分割分支的结合来解决目标检测超参阈值的设定。3)设计DAnchorNet的损失函数:通过动态权重设计方案来优化训练过程中的损失函数,关注目标区域的平均概率值来对总的损失进行调整。本发明通过动态anchor能有效提升大焦距监控场景下多尺度目标的检出率,通过分割与动态anchor检测相结合的网络结构能有效提升目标检测的准确率,进而有效的提升目标识别的整体效果。

Description

一种大焦距监控场景下多尺度目标的快速精准识别方法
技术领域
本发明涉及人工智能领域和计算机视觉领域,特别是大焦距监控场景下多尺度目标的快速精准识别方法。
背景技术
目标检测与识别在生活中多个领域中有着广泛的应用,它是将图像或者视频中的目标与不感兴趣的部分区分开,判断是否存在目标。若存在目标则确定目标的位置,识别目标是一种计算机视觉任务。目标检测与识别是计算机视觉领域中一个非常重要的研究方向,随着互联网,人工智能技术,智能硬件的迅猛发展,人类生活中存在着大量的图像和视频数据,这使得计算机视觉技术在人类生活中起到的作用越来越大,对计算机视觉的研究也越来越火热。目标检测与识别,作为计算机视觉领域的基石,也越来越受到重视。在实际生活中应用也越来越广泛,例如目标跟踪,视频监控,信息安全,自动驾驶,图像检索,医学图像分析,网络数据挖掘,无人机导航,遥感图像分析,国防***等。
目标检测也就成为了近年来理论和应用的研究热点,它是图像处理和计算机视觉学科的重要分支,也是智能监控***的核心部分,同时目标检测也是泛身份识别领域的一个基础性的算法,对后续的人脸识别、步态识别、人群计数、实例分割等任务起着至关重要的作用。因此,提升目标检测的准确率以及降低目标的漏检率有着重要的实际意义。
目前,目标检测与识别的研究方法主要有两大类:基于传统图像处理和机器学习算法的目标检测与识别方法、基于深度学习的目标检测与识别方法。
1、基于传统图像处理和机器学习算法的目标检测与识别方法:
传统的目标检测与识别方法可以表示为:目标特征提取->目标识别->目标定位。这里所用到的特征都是人为设计的,例如SIFT (尺度不变特征变换匹配算法ScaleInvariantFeatureTransform), HOG(方向梯度直方图特征HistogramofOrientedGradient), SURF(加速稳健特征Speeded Up Robust Features)等。通过这些特征对目标进行识别,然后再结合相应的策略对目标进行定位。
2、基于深度学习的目标检测与识别方法:
如今,基于深度学习的目标检测与识别成为主流方法,可以表示为:图像的深度特征提取->基于深度神经网络的目标识别与定位,其中用到深度神经网络模型是卷积神经网络CNN。目前可以将现有的基于深度学习的目标检测与识别算法大致分为以下三大类:
1)基于区域建议的目标检测与识别算法,如R-CNN, Fast-R-CNN, Faster-R-CNN。
2)基于回归的目标检测与识别算法,如YOLO, SSD。
3)基于搜索的目标检测与识别算法,如基于视觉注意的AttentionNet,基于强化学习的算法。
上述现有技术还存在的不足有:
1、基于传统图像处理和机器学习算法的目标检测算法存在的缺陷:
(1)当遇到大焦距监控场景时,近端的目标与远端的目标差异会非常的大,同一场景下会存在多个尺度的目标。在选取目标预测区域时,采用滑动窗口的方式无法有效的设定滑动窗口大小和长宽比,因此滑动窗口的穷举方式,耗时长,冗余大。
(2)在大焦距监控场景下,目标离摄像机近时比较大,距离摄像机比较远时比较小,目标尺度变化较大,利用传统方法无法准确的识别大焦距场景下近端与远端的目标,泛化能力差。
2、基于深度学习的目标检测与识别方法存在的缺陷:
(1)目前基于深度学习的目标检测方法大部分都是利用基于固定anchor回归的方式,当遇到大焦距监控场景时,存在多个尺度大小的目标,固定的anchor无法有效的兼顾目标大小差别比较大的情况,造成检测网络无法收敛或者训练网络的质量较低,很容易造成目标的漏检与误检。
(2)用深度学习网络做目标检测时需要设定超参阈值来实现对目标的检出,只有当网络预测目标的置信度大于设定的超参阈值时才认为该预测框为目标,因此该超参阈值对目标的检出率与准确率有着很大的影响,在实际应用中往往设定经验值。但是当阈值设定较高就会造成漏检,当阈值设定较低就会造成误检,无法充分利用训练的网络模型实现对目标的识别。
发明内容
针对上述现有技术中存在的不足,本发明的目的是提供一种大焦距监控场景下多尺度目标的快速精准识别方法。它通过动态anchor能有效提升大焦距监控场景下多尺度目标的检出率,通过分割与动态anchor检测相结合的网络结构能有效提升目标检测的准确率,进而有效的提升目标识别的整体效果。
为了达到上述发明目的,本发明的技术方案以如下方式实现:
一种大焦距监控场景下多尺度目标的快速精准识别方法,其方法步骤为:
1)动态anchor设定:
获取训练数据,并对训练的目标进行数据拟合,通过大数据拟合来分析anchor的特性,动态的设定anchor的值。
2)设计网络结构DAnchorNet:
设计DAnchorNet中目标检测分支与目标分割分支,通过目标检测分支与分割分支的结合来解决目标检测超参阈值的设定。
3)设计DAnchorNet的损失函数:
通过动态权重设计方案来优化训练过程中的损失函数,融合目标注意力机制,重点关注目标区域的平均概率值来对总的损失进行调整。
本发明由于采用了上述方法,同现有技术相比具有如下优点:
1.根据目标所在的位置动态的设定anchor值,该方法能够有效的提升目标检测中anchor的利用率,有效的兼顾大焦距场景下的大、小目标,同时该方法使网络更容易收敛,有效的提升大焦距场景下多尺度目标的检测率。
2.DAnchorNet中采用融合分割分支损失函数的结合方式,融合分割的网络会无疑增加了网络训练的难度,本文提出动态权重设计方案来优化训练过程中的损失函数,融合目标注意力机制,重点关注目标区域的平均概率值来对总的损失进行调整。当目标区域平均概率值较高时说明分割网络训练较好,可以降低分割网络的损失贡献。当目标区域平均概率值较低时说明分割网络收敛欠佳,应提升分割网络的损失贡献,降低网络的训练难度,提升网络训练效果。
3.提出一种新的网络结构DAnchorNet来提升目标检测的效果,提出融合分割的目标检测方法,在计算量增加不大的前提下增加分割分支,融合分割分支后得到一种新的网络结构DAnchorNet。通过DAnchorNet计算两个分支的检测目标的交并集来获取最终的检测结果,当二者交并集满足设定的要求时,即认为该预测框为目标。该网络结构能够避免单独检测方法目标置信度超参阈值的设定,充分利用网络模型,有效的提升了目标检测的准确率。
下面结合附图和具体实施方式对本发明做进一步说明。
说明书附图
图1为本发明的方法流程图;
图2为本发明实施实例中融合分割的网络结构DAnchorNet。
具体实施方式
参看图1和图2,本发明一种大焦距监控场景下多尺度目标的快速精准识别方法,其方法步骤为:
1. 动态anchor设定:
获取训练数据,并对训练的目标进行数据拟合,获取anchor的拟合结果,其步骤如下:
(1)获取数据M(x,y,w,h),Mi为数据集中的第i组数据,xi、yi为第i个目标左上角坐标,wi、hi为第i个目标的长和宽,对数据M(x,y,w,h)进行重新组合得到两组数据M_h(y,h)、M_w(y,w)。
(2)对获取的M_h(y,h)、M_w(y,w)分别进行数据线性拟合,得到针对M_w(y,w)拟合的斜率k_w与截距b_w,以及针对M_h(y,h)拟合的斜率k_h与截距b_h。
(3)在网络训练时,通过k_w、b_w、k_h、b_h动态的设定anchor的宽度anchor_w以及anchor的高度anchor_h,结果为:
Figure DEST_PATH_IMAGE001
其中y为在每个featuremap上网格(i,j)中j转换为原始图像的高度坐标。
2.设计网络结构DAnchorNet:
(1)通过检测分支获取目标检测结果Rd,Rd包括预测目标的坐标位置,Rd_x、 Rd_y目标的长宽Rd_w、 Rd_h,目标的置信度Rd_conf
(2)通过分割分支获取目标的分割结果F_seg,该分割结果包括两个单通道分割图Ffull_seg、Finter_seg,其中Ffull_seg是全部目标的预测分割结果,Finter_seg是全部目标的粘连部分的分割结果,通过Ffull_seg、Finter_seg获取最终图像目标的单独分割结果Seg。
Figure 957592DEST_PATH_IMAGE002
(3)对获取的分割结果Seg做轮廓提取,进而获得目标的外轮廓矩形seg_seg_boud,该seg_boud包括分割目标的左上角坐标位置S_x、S_y,目标的长宽S_w、S_h,目标的置信度S_conf。
(4)通过S_conf、Rd_conf来获取部分目标的最终结果R_1、R_2,其计算方式如式(4)所示:
Figure DEST_PATH_IMAGE003
(5)对步骤(4)计算后剩余的检测结果相互间计算交并集IOU,获取目标检测结果R_3,该结果会设定一个交并集阈值ThIOU为0.7,对于置信度较低的预测结果会通过分割得到的Seg_boud与检测得到的Rd结合的方式来进行目标判定,如果两个目标的交并集IOU>ThIOU,获取最终的目标检测结果R_3,计算方式如下式(5)所示,如果IOU<ThIOU就把当前目标丢掉。
Figure 235252DEST_PATH_IMAGE004
(6)通过步骤(4)、(5)获取的R_1、R_2、R_3合并获取得到最终的检测结果R_all。
3.设计DAnchorNet的损失函数:
(1)获取检测分支的损失L1,该损失函数用的是yolo_v3的损失函数。
(2)获取分割分支的损失L2,该损失函数用的是sigmoid损失函数,Pi,j为最终分割的feature map的i,j位置的概率值,获取ground truth的目标位置区域的所有featuremap的概率值,假如ground truth中有N个目标框,目标区域总的面积为Area,获取总的概率值P,进而获取到N个目标区域的平均概率值Pavg
Figure DEST_PATH_IMAGE005
(3)根据步骤(2)获取的Pavg动态的获取总的损失L,其计算方法如下所示:
Figure 342885DEST_PATH_IMAGE006
本发明方法中,结合分割的目标检测网络结构DAnchorNet,首先优化了原始目标检测方法,利用动态anchor有效的兼顾大场景下的大目标与小目标,提升网络对多尺度目标情况下的检出率;然后在检测的分支上引出分割网络,通过二者的结合避免了单独目标检测网络置信度的设置,在计算量增加不大的情况下有效的提升了目标的检出率与准确率。

Claims (1)

1.一种大焦距监控场景下多尺度目标的快速精准识别方法,其方法步骤为:
1)动态anchor设定:
获取训练数据,并对训练的目标进行数据拟合,通过大数据拟合来分析anchor的特性,动态的设定anchor的值;
2)设计网络结构DAnchorNet:
设计DAnchorNet网络结构,该网络结构包括两个分支,一个是目标检测分支,一个是目标分割分支,目标分割分支与目标检测分支共用一个基础网络,通过目标检测分支与分割分支的结合来解决目标检测超参阈值的设定;
3)设计DAnchorNet的损失函数:
通过动态权重设计方案优化训练过程中的损失函数,融合目标注意力机制,重点关注目标区域的平均概率值来对总的损失进行调整。
CN202010004300.2A 2020-01-03 2020-01-03 一种大焦距监控场景下多尺度目标的快速精准识别方法 Active CN111191621B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010004300.2A CN111191621B (zh) 2020-01-03 2020-01-03 一种大焦距监控场景下多尺度目标的快速精准识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010004300.2A CN111191621B (zh) 2020-01-03 2020-01-03 一种大焦距监控场景下多尺度目标的快速精准识别方法

Publications (2)

Publication Number Publication Date
CN111191621A true CN111191621A (zh) 2020-05-22
CN111191621B CN111191621B (zh) 2024-06-28

Family

ID=70708022

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010004300.2A Active CN111191621B (zh) 2020-01-03 2020-01-03 一种大焦距监控场景下多尺度目标的快速精准识别方法

Country Status (1)

Country Link
CN (1) CN111191621B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3171297A1 (en) * 2015-11-18 2017-05-24 CentraleSupélec Joint boundary detection image segmentation and object recognition using deep learning
US20180137642A1 (en) * 2016-11-15 2018-05-17 Magic Leap, Inc. Deep learning system for cuboid detection
CN108460403A (zh) * 2018-01-23 2018-08-28 上海交通大学 一种图像中多尺度特征融合的目标检测方法与***
CN108694401A (zh) * 2018-05-09 2018-10-23 北京旷视科技有限公司 目标检测方法、装置及***
CN109325418A (zh) * 2018-08-23 2019-02-12 华南理工大学 基于改进YOLOv3的道路交通环境下行人识别方法
CN109816024A (zh) * 2019-01-29 2019-05-28 电子科技大学 一种基于多尺度特征融合与dcnn的实时车标检测方法
CN109902629A (zh) * 2019-03-01 2019-06-18 成都康乔电子有限责任公司 一种复杂交通场景下的实时车辆目标检测模型
CN109919000A (zh) * 2019-01-23 2019-06-21 杭州电子科技大学 一种基于多尺度融合策略的舰船目标检测方法
CN109934236A (zh) * 2019-01-24 2019-06-25 杰创智能科技股份有限公司 一种基于深度学习的多尺度转换目标检测算法
KR20190085464A (ko) * 2018-01-10 2019-07-18 삼성전자주식회사 이미지 처리 방법 및 이를 수행하는 장치들

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3171297A1 (en) * 2015-11-18 2017-05-24 CentraleSupélec Joint boundary detection image segmentation and object recognition using deep learning
US20180137642A1 (en) * 2016-11-15 2018-05-17 Magic Leap, Inc. Deep learning system for cuboid detection
KR20190085464A (ko) * 2018-01-10 2019-07-18 삼성전자주식회사 이미지 처리 방법 및 이를 수행하는 장치들
CN108460403A (zh) * 2018-01-23 2018-08-28 上海交通大学 一种图像中多尺度特征融合的目标检测方法与***
CN108694401A (zh) * 2018-05-09 2018-10-23 北京旷视科技有限公司 目标检测方法、装置及***
CN109325418A (zh) * 2018-08-23 2019-02-12 华南理工大学 基于改进YOLOv3的道路交通环境下行人识别方法
CN109919000A (zh) * 2019-01-23 2019-06-21 杭州电子科技大学 一种基于多尺度融合策略的舰船目标检测方法
CN109934236A (zh) * 2019-01-24 2019-06-25 杰创智能科技股份有限公司 一种基于深度学习的多尺度转换目标检测算法
CN109816024A (zh) * 2019-01-29 2019-05-28 电子科技大学 一种基于多尺度特征融合与dcnn的实时车标检测方法
CN109902629A (zh) * 2019-03-01 2019-06-18 成都康乔电子有限责任公司 一种复杂交通场景下的实时车辆目标检测模型

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张楚楚;吕学斌;: "基于改进YOLOv2网络的密集人群场景行人检测", 现代计算机(专业版), no. 28 *

Also Published As

Publication number Publication date
CN111191621B (zh) 2024-06-28

Similar Documents

Publication Publication Date Title
CN107330920B (zh) 一种基于深度学习的监控视频多目标追踪方法
CN109636829B (zh) 一种基于语义信息和场景信息的多目标跟踪方法
Tsintotas et al. Assigning visual words to places for loop closure detection
Yang et al. Multi-object tracking with discriminant correlation filter based deep learning tracker
CN106886216B (zh) 基于rgbd人脸检测的机器人自动跟踪方法和***
Su et al. Global localization of a mobile robot using lidar and visual features
CN112598713A (zh) 一种基于深度学习的近岸海底鱼类检测、跟踪统计方法
CN113592896B (zh) 基于图像处理的鱼类投喂方法、***、设备及存储介质
CN105513053A (zh) 一种用于视频分析中背景建模方法
CN115797736B (zh) 目标检测模型的训练和目标检测方法、装置、设备和介质
CN110751619A (zh) 一种绝缘子缺陷检测方法
CN116721398A (zh) 一种基于跨阶段路由注意力模块和残差信息融合模块的Yolov5目标检测方法
CN111241987B (zh) 基于代价敏感的三支决策的多目标模型视觉追踪方法
CN116386120A (zh) 一种无感监控管理***
CN110689557A (zh) 一种基于kcf的改进型抗遮挡目标跟踪方法
CN111881775B (zh) 一种人脸实时识别方法和装置
Hu et al. Automatic detection of pecan fruits based on Faster RCNN with FPN in orchard
CN117011346A (zh) 鼓风机图像配准算法
CN111191621B (zh) 一种大焦距监控场景下多尺度目标的快速精准识别方法
Ge et al. Detection and localization strategy based on YOLO for robot sorting under complex lighting conditions
CN112069997B (zh) 一种基于DenseHR-Net的无人机自主着陆目标提取方法及装置
CN110634151B (zh) 一种单目标跟踪方法
CN114821441A (zh) 联合ads-b信息的基于深度学习的机场场面运动目标识别方法
Grekov et al. Application of the YOLOv5 Model for the Detection of Microobjects in the Marine Environment
CN114155273A (zh) 一种结合历史轨迹信息的视频图像单目标跟踪方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant