CN112989867A - 目标检测与场景分割一体化网络设计方法 - Google Patents
目标检测与场景分割一体化网络设计方法 Download PDFInfo
- Publication number
- CN112989867A CN112989867A CN201911212008.3A CN201911212008A CN112989867A CN 112989867 A CN112989867 A CN 112989867A CN 201911212008 A CN201911212008 A CN 201911212008A CN 112989867 A CN112989867 A CN 112989867A
- Authority
- CN
- China
- Prior art keywords
- network
- scene segmentation
- target detection
- sub
- resolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 59
- 238000001514 detection method Methods 0.000 title claims abstract description 54
- 238000000034 method Methods 0.000 title claims abstract description 22
- 238000013461 design Methods 0.000 title abstract description 12
- 238000000605 extraction Methods 0.000 claims abstract description 22
- 238000012549 training Methods 0.000 claims description 15
- 238000010586 diagram Methods 0.000 claims description 9
- 230000004927 fusion Effects 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 3
- 230000007423 decrease Effects 0.000 claims description 2
- 238000013135 deep learning Methods 0.000 description 4
- 238000010276 construction Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/29—Graphical models, e.g. Bayesian networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/194—Segmentation; Edge detection involving foreground-background segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种目标检测与场景分割一体化网络设计方法,包括特征提取主体网络、目标检测子网络以及场景分割子网络,所述目标检测子网络与场景分割子网络共享特征提取主体网络。本发明将传统的多任务多网络串行改进为多任务单网络并行,从而大幅度降低模型大小,降低多任务执行时间。
Description
技术领域
本发明属于计算机视觉技术领域,具体涉及目标检测与场景分割网络设计方法。
背景技术
随着深度学习技术的快速发展,目标检测识别以及场景分割成为其在计算机视觉方向的主要研究热点,两者分属两大范畴,而深度学习也在此两个方向做出重大突破,如目标检测方向的Faster-Rcnn,SSD以及YOLO系列,场景分割方向的FCN、UNet等一系列业内顶尖算法。但是,截至目前极少研究两者的并行处理问题。基于深度学习的检测分割算法往往需要大量计算资源,而在大多数的工业化应用中,要求在极其有限的计算资源与存储资源下实现任务的实时执行,这就对算法的计算复杂度以及模型精简化提出了较高要求。
在实际工程应用中,对于上述两大任务(目标检测与场景分割)分别设计不同的卷积神经网络很难满足工程对于实时性以及存储资源的要求。
发明内容
本发明需解决的技术问题是提供一种目标检测与场景分割一体化网络设计方法,实现模型精简化,降低多任务执行时间。
为解决上述技术问题,本发明提供了目标检测与场景分割一体化网络设计方法,采取技术方案如下:
所述一体化网络包括特征提取主体网络、目标检测子网络以及场景分割子网络,所述目标检测子网络与场景分割子网络共享特征提取主体网络。
进一步地,通过特征提取主体网络的卷积及降采样,于1/8分辨率、1/16分辨率上进行特征融合,引出场景分割子网络,于1/8/、1/16以及1/32分辨率上进行特征融合,引出目标检测子网络。
进一步地,所述场景分割子网络搭建方法为:
在1/16分辨率的特征图上,采用多路并行卷积网络,卷积核大小分别选用3*3、5*5以及1*1,同时利用特征金字塔模式,将1/16分辨率的特征与1/8分辨率的特征进行有效融合,并利用该融合特征执行分割任务,建立场景分割子网络。
进一步地,还包括:一体化网络训练,训练方法如下:
步骤1、保持目标检测子网络参数不变的情况下,优先训练场景分割子网络、特征提取主体网络,使场景分割子网络收敛;
步骤2、保持特征提取主体网络及场景分割子网络参数不变的情况下,训练目标检测子网络,使目标检测子网络收敛;
步骤3、在上述两步的前提下,目标检测子网络损失及场景分割子网络损失,数值保持在较小比例范围内且下降趋于平稳,而后进行一体化网络联合训练,使一体化网络收敛。
本发明通过一个深度卷积神经网络实现检测与分割任务的同步执行,从而将传统的多任务多网络串行改进为多任务单网络并行,从而大幅度降低模型大小,降低多任务执行时间。本发明可用于车辆自动驾驶(涉及行人、车辆检测与车道线场景分割)、目标探测(涉及目标检测与场景分割)等领域。
附图说明
图1为本发明实施例的一体化网络设计模式示意图;
图2为本发明实施例的主体特征提取网络示意图;
图3为本发明实施例的场景分割网络子网络示意图。
具体实施方式
下面结合附图和实施例对本发明的具体实施方式进一步说明。
基于深度学习的单任务网络设计包含两大模块:特征提取主体网络以及任务相关子网络。目标检测网络包含特征提取主体网络以及目标检测子网络,场景分割网络包含特征提取主体网络以及目标分割子网络。
本发明实施例搭建的目标检测与场景分割并行的统一化网络,如图1所示,具体如下:
所述统一化网络包含特征提取主体网络、目标检测子网络以及场景分割子网络。目标检测子网络与场景分割子网络在特征提取主体网络存在参数共享空间。为了提升目标检测与场景分割性能,通过特征提取主体网络的卷积及降采样,于1/8分辨率、1/16分辨率上进行特征融合,引出场景分割子网络,于1/8/、1/16以及1/32分辨率上进行特征融合,引出目标检测子网络。图2以车辆自动驾驶为例的主体特征提取网络示意图,其中,目标检测子网络为车辆检测子网络,场景分割子网络为车道线检测子网络。
进一步地,所述分割子网络具体设计方法如下:
基于1/8分辨率以及1/16分辨率的主体网络上的特征利用卷积层提取特征,进行场景分割子网络设计。为了保证低参数高性能运算,在1/16分辨率的特征图上,采用多路并行卷积网络,卷积核大小分别选用3*3、5*5以及1*1以有效扩增决策层(图中的SegPred1)的接受域,同时利用特征金字塔模式,将1/16分辨率的特征与1/8分辨率的特征进行有效融合,并利用该融合特征执行分割任务(图中的SegPred2),建立场景分割子网络,具体的网络设计如图3所示(未特殊标注的卷积核大小均为3*3)。
所述目标检测子网络的搭建可采取YOLO算法的检测框架。
在此需说明的是,目标检测子网络的搭建为本领域技术人员公知技术,在此不再赘述。
进一步地,对一体化网络进行训练。
上述一体化网络在训练过程中存在下述问题:1)检测模块损失与分割模块损失失衡(两者不在一个量级)2)训练过程中两者的下降速率相差较大,具体表现为,检测模块损失迅速下降,而分割损失下降较为缓慢。因此训练过程很难收敛,基于上述问题,本发明实施例提出下述训练方法:
步骤1、保持目标检测子网络参数不变的情况下,优先训练场景分割子网络、特征提取主体网络,使场景分割子网络收敛;
步骤2、保持特征提取主体网络及场景分割子网络参数不变的情况下,训练目标检测子网络,使目标检测子网络收敛;
步骤3、在上述两步的前提下,检测目标检测子网络损失及场景分割子网络损失,数值保持在较小比例范围内且下降趋于平稳,而后进行一体化网络联合训练(包含主干特征提取主体网络、目标检测子网络以及场景分割子网络),使一体化网络(双任务)收敛。
Claims (4)
1.一种目标检测与场景分割一体化网络设计方法,其特征在于:包括特征提取主体网络、目标检测子网络以及场景分割子网络,所述目标检测子网络与场景分割子网络共享特征提取主体网络。
2.如权利要求1所述的一种目标检测与场景分割一体化网络设计方法,其特征在于:通过特征提取主体网络的卷积及降采样,于1/8分辨率、1/16分辨率上进行特征融合,引出场景分割子网络,于1/8/、1/16以及1/32分辨率上进行特征融合,引出目标检测子网络。
3.如权利要求2所述的一种目标检测与场景分割一体化网络设计方法,其特征在于:所述场景分割子网络搭建方法为:在1/16分辨率的特征图上,采用多路并行卷积网络,卷积核大小分别选用3*3、5*5以及1*1,同时利用特征金字塔模式,将1/16分辨率的特征与1/8分辨率的特征进行有效融合,并利用该融合特征执行分割任务,建立场景分割子网络。
4.如权利要求1、2或3所述的一种目标检测与场景分割一体化网络设计方法,其特征在于:还包括:一体化网络训练,训练方法如下:
步骤1、保持目标检测子网络参数不变的情况下,优先训练场景分割子网络、特征提取主体网络,使场景分割子网络收敛;
步骤2、保持特征提取主体网络及场景分割子网络参数不变的情况下,训练目标检测子网络,使目标检测子网络收敛;
步骤3、在上述两步的前提下,检测目标检测子网络损失及场景分割子网络损失,数值保持在较小比例范围内且下降趋于平稳,而后进行一体化网络联合训练,使一体化网络收敛。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911212008.3A CN112989867A (zh) | 2019-12-02 | 2019-12-02 | 目标检测与场景分割一体化网络设计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911212008.3A CN112989867A (zh) | 2019-12-02 | 2019-12-02 | 目标检测与场景分割一体化网络设计方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112989867A true CN112989867A (zh) | 2021-06-18 |
Family
ID=76331009
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911212008.3A Pending CN112989867A (zh) | 2019-12-02 | 2019-12-02 | 目标检测与场景分割一体化网络设计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112989867A (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107886117A (zh) * | 2017-10-30 | 2018-04-06 | 国家新闻出版广电总局广播科学研究院 | 基于多特征提取和多任务融合的目标检测算法 |
CN108985250A (zh) * | 2018-07-27 | 2018-12-11 | 大连理工大学 | 一种基于多任务网络的交通场景解析方法 |
CN110414387A (zh) * | 2019-07-12 | 2019-11-05 | 武汉理工大学 | 一种基于道路分割的车道线多任务学习检测方法 |
-
2019
- 2019-12-02 CN CN201911212008.3A patent/CN112989867A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107886117A (zh) * | 2017-10-30 | 2018-04-06 | 国家新闻出版广电总局广播科学研究院 | 基于多特征提取和多任务融合的目标检测算法 |
CN108985250A (zh) * | 2018-07-27 | 2018-12-11 | 大连理工大学 | 一种基于多任务网络的交通场景解析方法 |
CN110414387A (zh) * | 2019-07-12 | 2019-11-05 | 武汉理工大学 | 一种基于道路分割的车道线多任务学习检测方法 |
Non-Patent Citations (2)
Title |
---|
ROBERTO ARROYO等: "Expert Video-Surveillance System for Real-Time Detection of Suspicious Be- haviors in Shopping Malls" * |
郭爱心等: "基于深度卷积神经网络的小尺度行人检测" * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108288088B (zh) | 一种基于端到端全卷积神经网络的场景文本检测方法 | |
CN107480789B (zh) | 一种深度学习模型的高效转换方法及装置 | |
CN109977773B (zh) | 基于多目标检测3d cnn的人体行为识别方法及*** | |
CN107392214B (zh) | 一种基于全卷积***网络的目标检测方法 | |
CN112733919B (zh) | 基于空洞卷积和多尺度多分支的图像语义分割方法及*** | |
CN104424483A (zh) | 一种人脸图像的光照预处理方法、装置及终端 | |
CN109242880A (zh) | 一种基于图像处理的电力线提取方法 | |
CN111915558B (zh) | 一种高压输电线销钉状态检测方法 | |
CN205622767U (zh) | 一种基于arm的智能车无线视频监控*** | |
CN112989867A (zh) | 目标检测与场景分割一体化网络设计方法 | |
Miao et al. | UAV visual navigation system based on digital twin | |
CN110046626B (zh) | 基于pico算法的图像智能学习动态跟踪***及方法 | |
CN116205927A (zh) | 一种基于边界增强的图像分割方法 | |
Ran et al. | Adaptive fusion and mask refinement instance segmentation network for high resolution remote sensing images | |
Wang et al. | Detection of transmission towers and insulators in remote sensing images with deep learning | |
Shan et al. | A deep learning-based visual perception approach for mobile robots | |
CN112698345A (zh) | 一种激光雷达的机器人同时定位与建图优化方法 | |
CN112598699A (zh) | 一种针对机器人工作场景中提取障碍物运动信息的方法 | |
CN101937511B (zh) | 基于随机并行优化算法的快速图像匹配方法 | |
Sheng et al. | A YOLOX-Based Detection Method of Triple-Cascade Feature Level Fusion for Power System External Defects | |
HU et al. | Data sewing algorithm for parallel segmentation of high-resolution remotely sensed image | |
CN115205632B (zh) | 黎曼空间下的半监督多视图度量学习方法 | |
CN110018916B (zh) | 一种通信任务可组态功能的实现方法 | |
CN104424297A (zh) | 信息处理的方法及智能设备 | |
CN103020972A (zh) | 一种基于嵌入式处理器的二值图像连通域检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20210618 |
|
WD01 | Invention patent application deemed withdrawn after publication |