CN109685008A - 一种实时的视频目标检测方法 - Google Patents
一种实时的视频目标检测方法 Download PDFInfo
- Publication number
- CN109685008A CN109685008A CN201811588266.7A CN201811588266A CN109685008A CN 109685008 A CN109685008 A CN 109685008A CN 201811588266 A CN201811588266 A CN 201811588266A CN 109685008 A CN109685008 A CN 109685008A
- Authority
- CN
- China
- Prior art keywords
- layer
- target
- real
- feature
- convolutional
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
一种实时的视频目标检测方法,首先,通过低层卷积层与高层卷积层的连接提高对图像特征的利用;然后,通过对第一层预测层进行上采样操作,得到尺寸更大的特征层。最后,将得到的上采样特征层与低层网络进行通道连接,增加第二层预测,使得算法对目标的检测更为精确。本方法在目标分类准确性、目标位置预测、检测速度方面优于YOLO‑Tiny方法,在实时的视频监控、交通情况检测等领域中有很大的应用前景。
Description
技术领域
本发明是实时的视频目标检测方法,适用于机器学习、模式识别和视频监控领域。
背景技术
目标检测的目的是确定目标所属的类别并对目标的位置进行精确定位,这在实时的视频监控、交通情况检测等领域中起着非常重要的作用,因此,目标检测一直是计算机视觉领域要解决的问题。目标检测任务可分为两个关键的子任务:目标分类和目标定位。目标分类任务负责判断输入图像中是否有感兴趣类别的物体出现,输出一系列带分数的标签表明感兴趣类别的物体出现在输入图像的可能性。目标定位任务负责确定输入图像中感兴趣类别的物体的位置和范围。随着深度学习的发展,引入了卷积神经网络对图像特征进行提取,使算法检测精度及速度有所提升。但是高精度的算法往往需要高计算消耗,检测速度并不能满足实时检测的要求,且深度学习算法对硬件的要求也远高于传统的方法。现有的检测算法对于遮挡物体及小目标的识别效果并不好。设计一种能达到实时要求,拥有高精度,对不同场景都有良好检测效果的的算法是计算机视觉领域的一个研究热点。
发明内容
本发明的目的就是针对实时视频目标检测存在检测精度低、检测速度慢等缺点,现有的检测方法无法达到高精度的同时满足实时要求。提出一种采用密集连接的卷积神经网络检测方法。
本发明采用的技术方案是:
一种实时的视频目标检测方法,本发明特征在于:通过低层卷积层与高层卷积层的连接提高对图像特征的利用;然后,通过对第一层预测层进行上采样操作,得到尺寸更大的特征层;最后,将得到的上采样特征层与低层网络进行通道连接,增加第二层预测,使得算法对目标的检测更为精确;方法包括:
1)数据集采用PASCAL VOC公共数据库,该数据库为图像识别和分类提供有一整套标准化的数据集;
2)用层数更多的卷积神经网络替代层数少的网络,通过对特征的重复利用,使训练的模型对物体的分类以及位置的预测更为精确;
3)通过卷积层的跨层连接,再通过上采样操作增加预测层得到目标的分类及位置;
4)通过连接上采样层和低层卷积层的特征得到了更为精确的目标分类和定位结果。
本发明所述的目标为实时的视频目标,将该实时的视频目标检测视为一个模式的转化问题,即目标的分类为第一模式,目标的定位为第二模式;采用一个改进的卷积神经网络模拟第一模式和第二模式之间的映射关系。
本发明所述用层数更多的卷积神经网络替代层数少的网络是:采用一个改进的卷积神经网络模拟第一模式和第二模式之间的映射关系;用损失函数表示当前神经网络分类及定位结果图与标准图之间的误差;在训练过程中反复迭代误差损失函数,当损失函数尽可能小时,训练得到模型已能够有效提取对视频目标的分类与定位的映射规律,通过所学到的规律准确检测所述实时的视频目标;整个实时的视频目标检测过程由目标分类和目标定位两部分组成。
本发明基于密集连接的所述卷积神经网络架构设计了一个能够有效提取图像特征的神经网络;该网络包含特征的提取和特征连接两部分;该网络的思想是连接低层的卷积层,提高对特征的重复利用,并在第一层预测层之后增加上采样操作,连接低层特征,提高对特征的利用,在大尺度上进行目标的分类及定位使目标的检测更为精确。
本发明采用的所述卷积神经网络是一种密集连接架构,每一层卷积层都接收来自前面所有卷积层的输出,每一块中都有两层卷积层,其卷积核大小分别为1x1、3x3,且每个卷积层后都有一个激活函数leaky-ReLU;在连续几个块之后是一个大小为3x3,步长为2的卷积层,作用是降低图像分辨率,得到图像的深度特征;特征复用就是进行通道合并操作,使低层特征一直被使用,提高特征利用率,在上采样后将对于大小相同的低层特征进行通道合并,提升第二次预测的结果;神经网络的输入使需检测的图像,输出则是对图像中目标的分类及定位。
本文发明是基于深度学***台:处理器为Intel i7-8700CPU,内存为16GB,显卡NVIDIA GeForce GTX 1070。由于GPU显存不大,所以规模较大的神经网络无法在现有的机器中运行,这也是本实验使用密集连接型神经网络的原因。为了与现有的方法进行一个定量的比较,本文使用公开的PASCAL VOC数据集对提出的方法进行评估。
目前有很多的检测方法用于实时的视频目标检测,但是检测速度和检测精度始终是目标检测任务中面临的重要挑战之一。从PASCAL VOC数据集中选出部分图像进行实验,对比Tiny 网络和本文网络的检测效果图,可以看出本文方法对图像中的物体有更好的分类和位置预测。本发明的效果是:提出了一种新的采用密集连接方式的神经网络对图像中的目标进行检测。首先,使每一层卷积层的输出都来自于前面所有卷积层的输出,使低层特征始终可以被使用。其次,对上采样的特征层进行跨层连接,增加预测层,提升对小目标的预测以及目标的定位。通过对特征的重复利用以及增加预测层,从而获得更为精确的检测结果。本文方法在准确性、检测速度、目标定位方面优于原Tiny结构,对小目标也有良好的检测结果,该方法精度高、检测速度快、鲁棒性好,在视频监控***中具有广阔的应用前景。
附图说明
图1a-图1d为原Tiny结构的检测效果图;
图2a-图2d为本文方法的检测效果图;
表1为本发明采用的密集连接神经网络结构。
具体实施方法
见图1a-图1d,图2a-图2d,表1,一种实时的视频目标检测方法,本发明特征在于:通过低层卷积层与高层卷积层的连接提高对图像特征的利用;然后,通过对第一层预测层进行上采样操作,得到尺寸更大的特征层;最后,将得到的上采样特征层与低层网络进行通道连接,增加第二层预测,使得算法对目标的检测更为精确;方法包括:
1)数据集采用PASCALVOC公共数据库,该数据库为图像识别和分类提供有一整套标准化的数据集;
2)用层数更多的卷积神经网络替代层数少的网络,通过对特征的重复利用,使训练的模型对物体的分类以及位置的预测更为精确;
3)通过卷积层的跨层连接,再通过上采样操作增加预测层得到目标的分类及位置;
4)通过连接上采样层和低层卷积层的特征得到了更为精确的目标分类和定位结果。
本发明所述的目标为实时的视频目标,将该实时的视频目标检测视为一个模式的转化问题,即目标的分类为第一模式,目标的定位为第二模式;采用一个改进的卷积神经网络模拟第一模式和第二模式之间的映射关系。
本发明所述用层数更多的卷积神经网络替代层数少的网络是:采用一个改进的卷积神经网络模拟第一模式和第二模式之间的映射关系;用损失函数表示当前神经网络分类及定位结果图与标准图之间的误差;在训练过程中反复迭代误差损失函数,当损失函数尽可能小时,训练得到模型已能够有效提取对视频目标的分类与定位的映射规律,通过所学到的规律准确检测所述实时的视频目标;整个实时的视频目标检测过程由目标分类和目标定位两部分组成。
本发明基于密集连接的所述卷积神经网络架构设计了一个能够有效提取图像特征的神经网络;该网络包含特征的提取和特征连接两部分;该网络的思想是连接低层的卷积层,提高对特征的重复利用,并在第一层预测层之后增加上采样操作,连接低层特征,提高对特征的利用,在大尺度上进行目标的分类及定位使目标的检测更为精确。
本发明采用的所述卷积神经网络是一种密集连接架构,每一层卷积层都接收来自前面所有卷积层的输出,每一块中都有两层卷积层,其卷积核大小分别为1x1、3x3,且每个卷积层后都有一个激活函数leaky-ReLU;在连续几个块之后是一个大小为3x3,步长为2的卷积层,作用是降低图像分辨率,得到图像的深度特征;特征复用就是进行通道合并操作,使低层特征一直被使用,提高特征利用率,在上采样后将对于大小相同的低层特征进行通道合并,提升第二次预测的结果;神经网络的输入使需检测的图像,输出则是对图像中目标的分类及定位。
表1
Claims (5)
1.一种实时的视频目标检测方法,其特征在于,通过低层卷积层与高层卷积层的连接提高对图像特征的利用;然后,通过对第一层预测层进行上采样操作,得到尺寸更大的特征层;最后,将得到的上采样特征层与低层网络进行通道连接,增加第二层预测,使得算法对目标的检测更为精确;方法包括:
1)数据集来源于PASCAL VOC公共数据库,该数据库为图像识别和分类提供了一整套标准化的数据集;
2)用层数更多的卷积神经网络替代层数少的网络,通过对特征的重复利用,使训练的模型对物体的分类以及位置的预测更为精确;
3)通过卷积层的跨层连接,再通过上采样操作增加预测层得到目标的分类及位置;
4)通过连接上采样层和低层卷积层的特征得到了更为精确的目标分类和定位结果。
2.根据权利要求1所述的一种实时的视频目标检测方法,其特征在于,所述的目标为实时的视频目标,将该实时的视频目标检测视为一个模式的转化问题,即目标的分类为第一模式,目标的定位为第二模式;采用一个改进的卷积神经网络模拟第一模式和第二模式之间的映射关系。
3.根据权利要求1所述的一种实时的视频目标检测方法,其特征在于,所述用层数更多的卷积神经网络替代层数少的网络是采用一个改进的卷积神经网络模拟第一模式和第二模式之间的映射关系;用损失函数表示当前神经网络分类及定位结果图与标准图之间的误差;在训练过程中反复迭代误差损失函数,当损失函数尽可能小时,训练得到模型已能够有效提取对视频目标的分类与定位的映射规律,通过所学到的规律准确检测所述实时的视频目标;整个实时的视频目标检测过程由目标分类和目标定位两部分组成。
4.根据权利要求1或2或3所述的一种实时的视频目标检测方法,其特征在于,基于密集连接的所述卷积神经网络架构设计了一个能够有效提取图像特征的神经网络;该网络包含特征的提取和特征连接两部分;该网络的思想是连接低层的卷积层,提高对特征的重复利用,并在第一层预测层之后增加上采样操作,连接低层特征,提高对特征的利用,在大尺度上进行目标的分类及定位使目标的检测更为精确。
5.根据权利要求1或2或3所述的一种实时的视频目标检测方法,其特征在于,采用的所述卷积神经网络是一种密集连接架构,每一层卷积层都接收来自前面所有卷积层的输出,每一块中都有两层卷积层,其卷积核大小分别为1x1、3x3,且每个卷积层后都有一个激活函数leaky-ReLU;在连续几个块之后是一个大小为3x3,步长为2的卷积层,作用是降低图像分辨率,得到图像的深度特征;特征复用就是进行通道合并操作,使低层特征一直被使用,提高特征利用率,在上采样后将对于大小相同的低层特征进行通道合并,提升第二次预测的结果;神经网络的输入使需检测的图像,输出则是对图像中目标的分类及定位。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811588266.7A CN109685008A (zh) | 2018-12-25 | 2018-12-25 | 一种实时的视频目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811588266.7A CN109685008A (zh) | 2018-12-25 | 2018-12-25 | 一种实时的视频目标检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109685008A true CN109685008A (zh) | 2019-04-26 |
Family
ID=66189224
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811588266.7A Pending CN109685008A (zh) | 2018-12-25 | 2018-12-25 | 一种实时的视频目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109685008A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110991311A (zh) * | 2019-11-28 | 2020-04-10 | 江南大学 | 一种基于密集连接深度网络的目标检测方法 |
CN113688709A (zh) * | 2021-08-17 | 2021-11-23 | 长江大学 | 一种安全帽佩戴智能检测方法、***、终端及介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107316058A (zh) * | 2017-06-15 | 2017-11-03 | 国家新闻出版广电总局广播科学研究院 | 通过提高目标分类和定位准确度改善目标检测性能的方法 |
CN107423760A (zh) * | 2017-07-21 | 2017-12-01 | 西安电子科技大学 | 基于预分割和回归的深度学习目标检测方法 |
CN107563405A (zh) * | 2017-07-19 | 2018-01-09 | 同济大学 | 基于多分辨率神经网络的车库自动驾驶语义目标识别方法 |
CN107563381A (zh) * | 2017-09-12 | 2018-01-09 | 国家新闻出版广电总局广播科学研究院 | 基于全卷积网络的多特征融合的目标检测方法 |
CN107886117A (zh) * | 2017-10-30 | 2018-04-06 | 国家新闻出版广电总局广播科学研究院 | 基于多特征提取和多任务融合的目标检测算法 |
CN108509978A (zh) * | 2018-02-28 | 2018-09-07 | 中南大学 | 基于cnn的多级特征融合的多类目标检测方法及模型 |
-
2018
- 2018-12-25 CN CN201811588266.7A patent/CN109685008A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107316058A (zh) * | 2017-06-15 | 2017-11-03 | 国家新闻出版广电总局广播科学研究院 | 通过提高目标分类和定位准确度改善目标检测性能的方法 |
CN107563405A (zh) * | 2017-07-19 | 2018-01-09 | 同济大学 | 基于多分辨率神经网络的车库自动驾驶语义目标识别方法 |
CN107423760A (zh) * | 2017-07-21 | 2017-12-01 | 西安电子科技大学 | 基于预分割和回归的深度学习目标检测方法 |
CN107563381A (zh) * | 2017-09-12 | 2018-01-09 | 国家新闻出版广电总局广播科学研究院 | 基于全卷积网络的多特征融合的目标检测方法 |
CN107886117A (zh) * | 2017-10-30 | 2018-04-06 | 国家新闻出版广电总局广播科学研究院 | 基于多特征提取和多任务融合的目标检测算法 |
CN108509978A (zh) * | 2018-02-28 | 2018-09-07 | 中南大学 | 基于cnn的多级特征融合的多类目标检测方法及模型 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110991311A (zh) * | 2019-11-28 | 2020-04-10 | 江南大学 | 一种基于密集连接深度网络的目标检测方法 |
CN110991311B (zh) * | 2019-11-28 | 2021-09-24 | 江南大学 | 一种基于密集连接深度网络的目标检测方法 |
CN113688709A (zh) * | 2021-08-17 | 2021-11-23 | 长江大学 | 一种安全帽佩戴智能检测方法、***、终端及介质 |
CN113688709B (zh) * | 2021-08-17 | 2023-12-05 | 广东海洋大学 | 一种安全帽佩戴智能检测方法、***、终端及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Hu et al. | Detection of PCB surface defects with improved faster-RCNN and feature pyramid network | |
US10706332B2 (en) | Analog circuit fault mode classification method | |
CN106952250B (zh) | 一种基于Faster R-CNN网络的金属板带表面缺陷检测方法及装置 | |
Yuan et al. | Vision-based defect detection for mobile phone cover glass using deep neural networks | |
CN109711326A (zh) | 一种基于浅层残差网络的视频目标检测方法 | |
CN109767427A (zh) | 列车轨道扣件缺陷的检测方法 | |
CN109239102A (zh) | 一种基于cnn的柔性电路板外观缺陷检测方法 | |
US20230360390A1 (en) | Transmission line defect identification method based on saliency map and semantic-embedded feature pyramid | |
CN105608454B (zh) | 基于文字结构部件检测神经网络的文字检测方法及*** | |
CN109344905A (zh) | 一种基于集成学习的输电设备自动故障识别方法 | |
CN109584227A (zh) | 一种基于深度学习目标检测算法的焊点质量检测方法及其实现*** | |
CN107945153A (zh) | 一种基于深度学习的路面裂缝检测方法 | |
CN109446925A (zh) | 一种基于卷积神经网络的电力设备检测算法 | |
CN108830332A (zh) | 一种视觉车辆检测方法及*** | |
Bo et al. | Particle pollution estimation from images using convolutional neural network and weather features | |
CN109598287A (zh) | 基于深度卷积生成对抗网络样本生成的外观瑕疵检测方法 | |
CN105608446A (zh) | 一种视频流异常事件的检测方法及装置 | |
CN106934800A (zh) | 一种基于yolo9000网络的金属板带表面缺陷检测方法及装置 | |
CN110490842A (zh) | 一种基于深度学习的带钢表面缺陷检测方法 | |
CN103278511B (zh) | 基于多尺度角点特征提取的晶片缺陷检测方法 | |
CN106408030A (zh) | 基于中层语义属性和卷积神经网络的sar图像分类方法 | |
CN106874913A (zh) | 一种菜品检测方法 | |
CN106355579A (zh) | 烟条表面褶皱的缺陷检测方法 | |
CN110378232A (zh) | 改进的ssd双网络的考场考生位置快速检测方法 | |
CN109711377A (zh) | 标准化考场监控的单帧图像中考生定位和计数方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190426 |