CN116524410A - 基于混合高斯模型的深度学习融合场面目标检测方法 - Google Patents

基于混合高斯模型的深度学习融合场面目标检测方法 Download PDF

Info

Publication number
CN116524410A
CN116524410A CN202310551658.0A CN202310551658A CN116524410A CN 116524410 A CN116524410 A CN 116524410A CN 202310551658 A CN202310551658 A CN 202310551658A CN 116524410 A CN116524410 A CN 116524410A
Authority
CN
China
Prior art keywords
model
target
scene
gaussian
detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310551658.0A
Other languages
English (en)
Inventor
王林
严璐
刘雪
顾昕
吴越韬
程龙昊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing LES Information Technology Co. Ltd
Original Assignee
Nanjing LES Information Technology Co. Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing LES Information Technology Co. Ltd filed Critical Nanjing LES Information Technology Co. Ltd
Priority to CN202310551658.0A priority Critical patent/CN116524410A/zh
Publication of CN116524410A publication Critical patent/CN116524410A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/254Analysis of motion involving subtraction of images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/62Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/809Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20004Adaptive image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20224Image subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30232Surveillance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于混合高斯模型的深度学习融合场面目标检测方法,步骤如下:采用混合高斯模型对机场场面实时运行的监控视频帧序列进行连续适应,获取静态场面背景帧图像;采用RGB至YUV颜色空间转换,滤除静态场面前景图像中阴影部分,分离出运动目标;使混合高斯模型对场面运动目标检测灵敏度能够适应其具体应用的实时视频监控画面;判断所述YOLO基准检测模型是否符合检测召回率、检测准确率的指标要求;若不符合则继续判断直至符合指标要求;使用融合目标检测算法得到最终的检测结果。本发明将运动目标检测算法与深度学习方法结合,提高机场场面目标识别的准确性和鲁棒性,以实现精准获取场面目标并进行冲突预警管理的目的。

Description

基于混合高斯模型的深度学习融合场面目标检测方法
技术领域
本发明属于机场场面目标检测识别技术领域,具体涉及一种基于混合高斯模型的深度学习融合场面目标检测方法。
背景技术
随着国内民航市场的蓬勃发展,各机场的负载日益增加,场面上运行目标多种多样,对场面运行安全,冲突预警提出了更高的要求。对场面上目标进行检测识别是保障运行安全预防冲突的必要手段。
近年来基于视频图像的目标检测方法迅速发展,通过光学传感器获取场面上实时的视频序列,并对其中的运动目标进行识别,进而完成冲突预警,保障运行安全。与传统的场面目标主动监视手段相比,基于视频图像的目标检测方法具有高效、快速、成本低廉等特点。机场场面目标识别要求检测算法具备高鲁棒性,对场面上任何异常、动态和静态目标种类均需要准确识别。
现有技术对图像中运动目标提取主要分两种:一种是基于传统的计算机视觉方法,如帧差法、光流法、背景减除法等。传统方法从统计角度出发,得到图像序列或视频帧中的背景和运动前景,具有识别率高,目标识别不受种类限制等特点;另一种是基于深度学习的方法,其通过对预定场景的图像进行标注、数据集制作、训练,即可以得到高效、准确的目标检测模型。
上述现有技术对图像中运动目标提取存在如下缺陷:
传统的计算机视觉方法通常受到光照、阴影变化影响较大,存在较高的误检;而基于深度学习的方法只能对封闭集合的目标种类进行检测,对于未在数据集中出现的类别目标则无法检出。
发明内容
针对于上述现有技术的不足,本发明的目的在于提供一种基于混合高斯模型的深度学习融合场面目标检测方法,将运动目标检测算法与深度学习方法结合,提高机场场面目标识别的准确性和鲁棒性,以实现精准获取场面目标并进行冲突预警管理的目的。
为达到上述目的,本发明采用的技术方案如下:
本发明的一种基于混合高斯模型的深度学习融合场面目标检测方法,步骤如下:
1)采用混合高斯模型对机场场面实时运行的监控视频帧序列进行连续适应,获取静态场面背景帧图像;
2)采用RGB至YUV颜色空间转换,通过设定筛选方法,滤除静态场面前景图像中阴影部分,分离出运动目标;
3)根据YUV色彩空间中局部明度通道与场面运动目标的运动拟合关系,设定混合高斯模型帧差间隔n,使混合高斯模型对场面运动目标检测灵敏度能够适应其具体应用的实时视频监控画面;
4)使用混合高斯模型,对实时监控视频进行检测,检测出场面运动目标集合,添加标注信息,作为基于深度学习方法YOLO的基础训练集,训练得出YOLO基准检测模型,判断所述YOLO基准检测模型是否符合检测召回率、检测准确率的指标要求;若不符合则重复步骤4)直至符合指标要求;
5)使用融合目标检测算法得到最终的检测结果。
进一步地,所述步骤1)具体包括:采用混合高斯模型从机场场面监控视频帧序列的第一张图像开始,作为背景,对后续图像做连续适应,以得到准确的静态场面背景帧图像;混合高斯模型定义如下:
其中,表示随机变量x向量的概率密度函数,XT为图像矩阵,T为周期,BG为背景,FG为前景;/>表示第m个高斯分布的权重,满足总和为1;表示第m个随机变量x向量服从高斯分布,其均值为/>标准差为/>I表示对角线为1的单位矩阵;参数算法在周期T内的如下所示:
其中,α为更新系数,/>为更新率,即每周期更新1/T;/>为新的样本,m初始值为1,从第一张图像开始,作为背景并对后续图像做适应;步骤如下:
11)读取视频帧:从视频中读取每一个帧作为输入数据;
12)建立混合高斯模型:对于每个像素点,将RGB三个通道的值作为一个向量,用混合高斯模型对向量进行建模;在建模过程中,设置混合高斯模型中高斯分布的数量,以及初始化每个分布的均值、方差和权重;
13)更新混合高斯模型:对于当前帧中的每个像素点,计算其与每个高斯分布的距离,并选择距离最小的分布作为其类别;根据当前像素点的类别,更新对应的高斯分布的均值、方差和权重;
14)筛选静态背景:通过判断每个像素点的类别是否稳定,来筛选出视频的静态背景部分;设定一个阈值,当某个像素点的类别在连续的多帧中保持不变时,则认为属于静态背景;
15)生成背景图像:对于所有被筛选出的静态背景像素点,使用其在前几帧中的值的平均值或中位数作为背景图像的像素值。
进一步地,所述步骤2)具体包括:将静态场面的监控视频帧从RGB空间转换至YUV空间,分析阴影区域具备以下特征:a.阴影区域中的像素明度低于背景像素和目标像素区域的明度;b.阴影区域中的色度与背景像素色相等;c.阴影区域中的像素和背景区域像素边界之间的梯度差小,而目标区域与背景区域边界之间的梯度差大;
根据上述a、b、c三个特征,根据混合高斯模型分离生成静态背景图,即公式(1)中的BG分量;对当前帧与背景帧做差分计算:
FG=XT-BG (3)
得到前景图像FG,计算前景图像中明度通道、色度通道和梯度差,通过与阴影区和非阴影区的阈值进行比较,判断出阴影区域,结合边缘检测,消除阴影区域。
进一步地,所述步骤2)详细描述为以下步骤:
21)RGB至YUV转换:将每一个像素点的RGB值转换为对应的YUV值,其中Y表示亮度,U和V表示色度;
22)筛选阴影部分:根据场景特点和需求,设定阈值来筛选出图片中的阴影部分;使用基于阈值的二值化方法,将图像转换为黑白图,然后通过形态学操作对图像进行处理,把阴影部分标记为白色,非阴影部分标记为黑色;
23)过滤:将前景图像中被标记为阴影部分的像素点的值全部设为背景颜色或中值,从而删除阴影部分;
24)转换至RGB:将处理过的YUV图像转换至RGB图像,得到不含阴影部分的前景图像。
进一步地,所述步骤3)具体包括:设混合高斯模型使用帧差间隔为n,n>2,具体数值采用自适应算法,具体为:将图像从RGB空间转换为YUV空间,对运行场面图像进行初步网格划分,筛选出运行区域和非运行区域,且根据运行历史数据完成网格收敛合并;进一步对局部的、区域内的明度通道进行明度直方图统计,分析基于历史的目标运动导致的明度变化规律,拟合运动-明度分布直方曲线,根据拟合曲线计算混合高斯模型帧差间隔n,滤除由于局部的微小位移造成的误检测。
进一步地,所述步骤4)具体包括:
41)使用混合高斯模型检测出实时视频监控场景图像中的运动目标集合;
42)添加标注信息,将运动目标集合和对应的真实标注框保存,作为基础训练集;
43)使用基于深度学习方法的YOLO模型对基础训练集进行训练,得到YOLO基准检测模型;
44)对YOLO基准检测模型进行测试,评估其在一组测试数据集上的表现,包括召回率、检测准确率、mAP;若出现不符合要求指标,则进行调整;
45)如果YOLO基准检测模型不符合要求,通过增加训练数据量、调整模型参数、改变数据增强方式的方法来提高检测性能;继续进行训练和测试,直到满足要求为止。
进一步地,所述步骤5)具体包括:YOLO基准检测模型与混合高斯模型分别对实时视频监控图像进行目标检测,得到两个检测结果后进行融合处理,并对融合结果进行分类;根据分类结果,做相应处理,提高融合目标检测算法对场面目标的检测准确性和鲁棒性。
进一步地,所述步骤5)具体包括:
51)分别使用YOLO基准检测模型和混合高斯模型对实时视频监控图像中的运动目标进行检测,得到两个检测结果;
52)对两个检测结果进行融合;采用加权平均或投票的方式进行融合;
53)对融合结果进行分类,将检测得到的目标分为真实目标和假阳性目标;根据目标的大小、形状、颜色,结合位置和动作信息来进行分类;
54)针对假阳性目标,采用引入场景背景建模或负样本挖掘的方法进行进一步处理,以减少误检率;
55)针对真实目标,根据实际需求进行进一步处理,包括目标跟踪、行为分析;
56)评估融合结果的检测准确性和鲁棒性,包括召回率、准确率、F值、mAP;根据评估结果,逐步调整融合目标检测算法中YOLO基准检测模型和混合高斯模型的权重、阈值,以提高融合目标检测算法的性能和鲁棒性。
进一步地,所述融合结果包括:
重复目标:在混合高斯模型和YOLO基准检测模型中均检测出的目标,根据混合高斯模型原理可知,该目标是运动目标;
混合高斯模型中检出而YOLO基准检测模型中未检出的目标:该目标同是运动目标,且YOLO基准检测模型训练数据集中不存在或训练不足的目标;
YOLO基准检测模型中检出而混合高斯模型中未检出的目标:该目标是静止目标,进一步细分为:YOLO基准检测模型误检的静止目标;YOLO基准检测模型正确检出的静止目标。
本发明的有益效果:
本发明使用基于混合高斯模型的深度学习融合目标检测算法对全景视频进行目标检测提取,可以实现动静目标、开放集合目标检测,融合目标检测算法具有鲁棒性好、自适应性强、可根据工作历史数据优化升级等特点。
通过基于混合高斯模型的背景建模,可以有效地分离视频中的前景目标和背景,提高目标检测的准确性和鲁棒性。
通过深度学习融合目标检测算法,可以同时实现动静目标和开放集合目标检测,提高目标检测的准确性和适用性。同时,基于跟踪的方法可以提高目标检测的连续性和稳定性。
通过后处理包括目标分类等处理,可以进一步提高目标检测的准确性和可靠性。同时,可以根据工作历史数据对算法进行优化和升级,提高算法的自适应性和迭代能力。
附图说明
图1为本发明方法的原理图。
具体实施方式
为了便于本领域技术人员的理解,下面结合实施例与附图对本发明作进一步的说明,实施方式提及的内容并非对本发明的限定。
参照图1所示,本发明的一种基于混合高斯模型的深度学习融合场面目标检测方法,步骤如下:
1)采用混合高斯模型(Gaussian Mixture Model,GMM)对机场场面实时运行的监控视频帧序列进行连续适应,获取静态场面背景帧图像;具体包括:采用混合高斯模型(Gaussian Mixture Model,GMM)从机场场面监控视频帧序列的第一张图像开始,作为背景,对后续图像做连续适应,以得到准确的静态场面背景帧图像;混合高斯模型定义如下:
其中,表示随机变量x向量的概率密度函数,XT为图像矩阵,T为周期,BG为背景,FG为前景;/>表示第m个高斯分布的权重,满足总和为1;N(x)表示第m个随机变量x向量服从高斯分布(正态分布),其均值为/>标准差为/>I表示对角线为1的单位矩阵;参数算法在周期T内的如下所示:
其中,α为更新系数,/>为更新率,即每周期更新1/T;/>为新的样本,m初始值为1,从第一张图像开始,作为背景并对后续图像做适应;步骤如下:
11)读取视频帧:从视频中读取每一个帧作为输入数据(使用OpenCV等计算机视觉库来实现);
12)建立混合高斯模型:对于每个像素点,将RGB三个通道的值作为一个向量,用混合高斯模型对向量进行建模;在建模过程中,设置混合高斯模型中高斯分布的数量(一般设置为3-5个),以及初始化每个分布的均值、方差和权重;
13)更新混合高斯模型:对于当前帧中的每个像素点,计算其与每个高斯分布的距离,并选择距离最小的分布作为其类别;根据当前像素点的类别,更新对应的高斯分布的均值、方差和权重;
14)筛选静态背景:通过判断每个像素点的类别是否稳定,来筛选出视频的静态背景部分;设定一个阈值,当某个像素点的类别在连续的多帧中保持不变时,则认为属于静态背景;
15)生成背景图像:对于所有被筛选出的静态背景像素点,使用其在前几帧中的值的平均值或中位数作为背景图像的像素值。
2)采用RGB至YUV颜色空间转换,通过设定筛选方法,滤除静态场面前景图像中阴影部分,分离出运动目标;具体包括:将静态场面的监控视频帧从RGB空间转换至YUV空间,分析阴影区域具备以下特征:a.阴影区域中的像素明度低于背景像素和目标像素区域的明度;b.阴影区域中的色度与背景像素色相等(即局部的阴影区域和背景颜色相等);c.阴影区域中的像素和背景区域像素边界之间的梯度差小,而目标区域与背景区域边界之间的梯度差大;
根据上述a、b、c三个特征,根据混合高斯模型分离生成静态背景图,即公式(1)中的BG分量;对当前帧与背景帧做差分计算:
FG=XT-BG (3)
得到前景图像FG,计算前景图像中明度通道、色度通道和梯度差,通过与阴影区和非阴影区的阈值进行比较,判断出阴影区域,结合边缘检测,消除阴影区域。
其中,详细描述为以下步骤:
21)RGB至YUV转换:将每一个像素点的RGB值转换为对应的YUV值,其中Y表示亮度,U和V表示色度;
22)筛选阴影部分:根据场景特点和需求,设定阈值来筛选出图片中的阴影部分;使用基于阈值的二值化方法,将图像转换为黑白图,然后通过形态学操作(如膨胀、腐蚀等)对图像进行处理,把阴影部分标记为白色,非阴影部分标记为黑色;
23)过滤:将前景图像中被标记为阴影部分的像素点的值全部设为背景颜色或中值,从而删除阴影部分;
24)转换至RGB:将处理过的YUV图像转换至RGB图像,得到不含阴影部分的前景图像。
3)根据YUV色彩空间中局部明度通道与场面运动目标的运动拟合关系,设定混合高斯模型帧差间隔n,使混合高斯模型对场面运动目标检测灵敏度能够适应其具体应用的实时视频监控画面;
混合高斯模型由于依赖于帧差法实现前景和背景的减除,帧差间隔将会影响GMM方法的灵敏度,帧差间隔太小会将微小的噪声变化误检测为移动目标,而过大的帧差间隔则会降低对真实移动目标的检测灵敏度;因此选取适当的帧差间隔有助于提高混合高斯模型方法的检测鲁棒性。
具体包括:设混合高斯模型使用帧差间隔为n,n>2,具体数值采用自适应算法,具体为:将图像从RGB空间转换为YUV空间,对运行场面图像进行初步网格划分,筛选出运行区域和非运行区域,且根据运行历史数据完成网格收敛合并;进一步对局部的、区域内的明度通道(Y通道)进行明度直方图统计,分析基于历史的目标运动导致的明度变化规律,拟合运动-明度分布直方曲线,根据拟合曲线计算混合高斯模型帧差间隔n,滤除由于局部的微小位移造成的误检测。
4)使用混合高斯模型,对实时监控视频进行检测,检测出场面运动目标集合,添加标注信息,作为基于深度学习方法YOLO的基础训练集,训练得出YOLO基准检测模型,判断所述YOLO基准检测模型是否符合检测召回率、检测准确率的指标要求;若不符合则重复步骤4)直至符合指标要求;具体包括:
41)使用混合高斯模型检测出实时视频监控场景图像中的运动目标集合;
42)添加标注信息,将运动目标集合和对应的真实标注框保存,作为基础训练集;
43)使用基于深度学习方法的YOLO模型对基础训练集进行训练,得到YOLO基准检测模型;
44)对YOLO基准检测模型进行测试,评估其在一组测试数据集上的表现,包括召回率、检测准确率、mAP;若出现不符合要求指标,则进行调整;
45)如果YOLO基准检测模型不符合要求,通过增加训练数据量、调整模型参数、改变数据增强方式的方法来提高检测性能;继续进行训练和测试,直到满足要求为止。
5)使用融合目标检测算法得到最终的检测结果;具体包括:YOLO基准检测模型与混合高斯模型分别对实时视频监控图像进行目标检测,得到两个检测结果后进行融合处理,并对融合结果进行分类;根据分类结果,做相应处理,提高融合目标检测算法对场面目标的检测准确性和鲁棒性。
51)分别使用YOLO基准检测模型和混合高斯模型对实时视频监控图像中的运动目标进行检测,得到两个检测结果;
52)对两个检测结果进行融合;采用加权平均或投票的方式进行融合;
53)对融合结果进行分类,将检测得到的目标分为真实目标和假阳性目标;根据目标的大小、形状、颜色,结合位置和动作信息(如场景物体、人员等的位置、动作等)来进行分类;
54)针对假阳性目标,采用引入场景背景建模或负样本挖掘的方法进行进一步处理,以减少误检率;
55)针对真实目标,根据实际需求进行进一步处理,包括目标跟踪、行为分析;
56)评估融合结果的检测准确性和鲁棒性,包括召回率、准确率、F值、mAP;根据评估结果,逐步调整融合目标检测算法中YOLO基准检测模型和混合高斯模型的权重、阈值,以提高融合目标检测算法的性能和鲁棒性。
此外,在每一次迭代中,观察融合结果并对其进行分类;然后,对分类错误的样本进行进一步分析,重新测试并评估算法并继续优化直到满足所需的性能要求。
其中,所述融合结果包括:
重复目标:在混合高斯模型和YOLO基准检测模型中均检测出的目标,根据混合高斯模型原理可知,该目标是运动目标;
混合高斯模型中检出而YOLO基准检测模型中未检出的目标:该目标同是运动目标,且YOLO基准检测模型训练数据集中不存在或训练不足的目标;
YOLO基准检测模型中检出而混合高斯模型中未检出的目标:该目标是静止目标,进一步细分为:YOLO基准检测模型误检的静止目标;YOLO基准检测模型正确检出的静止目标。
本发明具体应用途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以作出若干改进,这些改进也应视为本发明的保护范围。

Claims (9)

1.一种基于混合高斯模型的深度学习融合场面目标检测方法,其特征在于,步骤如下:
1)采用混合高斯模型对机场场面实时运行的监控视频帧序列进行连续适应,获取静态场面背景帧图像;
2)采用RGB至YUV颜色空间转换,通过设定筛选方法,滤除静态场面前景图像中阴影部分,分离出运动目标;
3)根据YUV色彩空间中局部明度通道与场面运动目标的运动拟合关系,设定混合高斯模型帧差间隔n,使混合高斯模型对场面运动目标检测灵敏度能够适应其具体应用的实时视频监控画面;
4)使用混合高斯模型,对实时监控视频进行检测,检测出场面运动目标集合,添加标注信息,作为基于深度学习方法YOLO的基础训练集,训练得出YOLO基准检测模型,判断所述YOLO基准检测模型是否符合检测召回率、检测准确率的指标要求;若不符合则重复步骤4)直至符合指标要求;
5)使用融合目标检测算法得到最终的检测结果。
2.根据权利要求1所述的基于混合高斯模型的深度学习融合场面目标检测方法,其特征在于,所述步骤1)具体包括:采用混合高斯模型从机场场面监控视频帧序列的第一张图像开始,作为背景,对后续图像做连续适应,以得到准确的静态场面背景帧图像;混合高斯模型定义如下:
其中,表示随机变量x向量的概率密度函数,XT为图像矩阵,T为周期,BG为背景,FG为前景;/>表示第m个高斯分布的权重,满足总和为1;N(x)表示第m个随机变量x向量服从高斯分布,其均值为/>标准差为/>I表示对角线为1的单位矩阵;参数算法在周期T内的如下所示:
其中,α为更新系数,/>为更新率,即每周期更新1/T;/>为新的样本,m初始值为1,从第一张图像开始,作为背景并对后续图像做适应;步骤如下:
11)读取视频帧:从视频中读取每一个帧作为输入数据;
12)建立混合高斯模型:对于每个像素点,将RGB三个通道的值作为一个向量,用混合高斯模型对向量进行建模;在建模过程中,设置混合高斯模型中高斯分布的数量,以及初始化每个分布的均值、方差和权重;
13)更新混合高斯模型:对于当前帧中的每个像素点,计算其与每个高斯分布的距离,并选择距离最小的分布作为其类别;根据当前像素点的类别,更新对应的高斯分布的均值、方差和权重;
14)筛选静态背景:通过判断每个像素点的类别是否稳定,来筛选出视频的静态背景部分;设定一个阈值,当某个像素点的类别在连续的多帧中保持不变时,则认为属于静态背景;
15)生成背景图像:对于所有被筛选出的静态背景像素点,使用其在前几帧中的值的平均值或中位数作为背景图像的像素值。
3.根据权利要求2所述的基于混合高斯模型的深度学习融合场面目标检测方法,其特征在于,所述步骤2)具体包括:将静态场面的监控视频帧从RGB空间转换至YUV空间,分析阴影区域具备以下特征:a.阴影区域中的像素明度低于背景像素和目标像素区域的明度;b.阴影区域中的色度与背景像素色相等;c.阴影区域中的像素和背景区域像素边界之间的梯度差小,而目标区域与背景区域边界之间的梯度差大;
根据上述a、b、c三个特征,根据混合高斯模型分离生成静态背景图,即公式(1)中的BG分量;对当前帧与背景帧做差分计算:
FG=XT-BG (3)
得到前景图像FG,计算前景图像中明度通道、色度通道和梯度差,通过与阴影区和非阴影区的阈值进行比较,判断出阴影区域,结合边缘检测,消除阴影区域。
4.根据权利要求1所述的基于混合高斯模型的深度学习融合场面目标检测方法,其特征在于,所述步骤2)详细描述为以下步骤:
21)RGB至YUV转换:将每一个像素点的RGB值转换为对应的YUV值,其中Y表示亮度,U和V表示色度;
22)筛选阴影部分:根据场景特点和需求,设定阈值来筛选出图片中的阴影部分;使用基于阈值的二值化方法,将图像转换为黑白图,然后通过形态学操作对图像进行处理,把阴影部分标记为白色,非阴影部分标记为黑色;
23)过滤:将前景图像中被标记为阴影部分的像素点的值全部设为背景颜色或中值,从而删除阴影部分;
24)转换至RGB:将处理过的YUV图像转换至RGB图像,得到不含阴影部分的前景图像。
5.根据权利要求1所述的基于混合高斯模型的深度学习融合场面目标检测方法,其特征在于,所述步骤3)具体包括:设混合高斯模型使用帧差间隔为n,n>2,具体数值采用自适应算法,具体为:将图像从RGB空间转换为YUV空间,对运行场面图像进行初步网格划分,筛选出运行区域和非运行区域,且根据运行历史数据完成网格收敛合并;进一步对局部的、区域内的明度通道进行明度直方图统计,分析基于历史的目标运动导致的明度变化规律,拟合运动-明度分布直方曲线,根据拟合曲线计算混合高斯模型帧差间隔n,滤除由于局部的微小位移造成的误检测。
6.根据权利要求1所述的基于混合高斯模型的深度学习融合场面目标检测方法,其特征在于,所述步骤4)具体包括:
41)使用混合高斯模型检测出实时视频监控场景图像中的运动目标集合;
42)添加标注信息,将运动目标集合和对应的真实标注框保存,作为基础训练集;
43)使用基于深度学习方法的YOLO模型对基础训练集进行训练,得到YOLO基准检测模型;
44)对YOLO基准检测模型进行测试,评估其在一组测试数据集上的表现,包括召回率、检测准确率、mAP;若出现不符合要求指标,则进行调整;
45)如果YOLO基准检测模型不符合要求,通过增加训练数据量、调整模型参数、改变数据增强方式的方法来提高检测性能;继续进行训练和测试,直到满足要求为止。
7.根据权利要求1所述的基于混合高斯模型的深度学习融合场面目标检测方法,其特征在于,所述步骤5)具体包括:YOLO基准检测模型与混合高斯模型分别对实时视频监控图像进行目标检测,得到两个检测结果后进行融合处理,并对融合结果进行分类;根据分类结果,做相应处理,以提高融合目标检测算法对场面目标的检测准确性和鲁棒性。
8.根据权利要求1所述的基于混合高斯模型的深度学习融合场面目标检测方法,其特征在于,所述步骤5)具体包括:
51)分别使用YOLO基准检测模型和混合高斯模型对实时视频监控图像中的运动目标进行检测,得到两个检测结果;
52)对两个检测结果进行融合;采用加权平均或投票的方式进行融合;
53)对融合结果进行分类,将检测得到的目标分为真实目标和假阳性目标;根据目标的大小、形状、颜色,结合位置和动作信息来进行分类;
54)针对假阳性目标,采用引入场景背景建模或负样本挖掘的方法进行进一步处理,以减少误检率;
55)针对真实目标,根据实际需求进行进一步处理,包括目标跟踪、行为分析;
56)评估融合结果的检测准确性和鲁棒性,包括召回率、准确率、F值、mAP;根据评估结果,逐步调整融合目标检测算法中YOLO基准检测模型和混合高斯模型的权重、阈值,以提高融合目标检测算法的性能和鲁棒性。
9.根据权利要求8所述的基于混合高斯模型的深度学习融合场面目标检测方法,其特征在于,所述融合结果包括:
重复目标:在混合高斯模型和YOLO基准检测模型中均检测出的目标,根据混合高斯模型原理可知,该目标是运动目标;
混合高斯模型中检出而YOLO基准检测模型中未检出的目标:该目标同是运动目标,且YOLO基准检测模型训练数据集中不存在或训练不足的目标;
YOLO基准检测模型中检出而混合高斯模型中未检出的目标:该目标是静止目标,进一步细分为:YOLO基准检测模型误检的静止目标;YOLO基准检测模型正确检出的静止目标。
CN202310551658.0A 2023-05-16 2023-05-16 基于混合高斯模型的深度学习融合场面目标检测方法 Pending CN116524410A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310551658.0A CN116524410A (zh) 2023-05-16 2023-05-16 基于混合高斯模型的深度学习融合场面目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310551658.0A CN116524410A (zh) 2023-05-16 2023-05-16 基于混合高斯模型的深度学习融合场面目标检测方法

Publications (1)

Publication Number Publication Date
CN116524410A true CN116524410A (zh) 2023-08-01

Family

ID=87404522

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310551658.0A Pending CN116524410A (zh) 2023-05-16 2023-05-16 基于混合高斯模型的深度学习融合场面目标检测方法

Country Status (1)

Country Link
CN (1) CN116524410A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117771664A (zh) * 2024-01-03 2024-03-29 广州创一网络传媒有限公司 一种自适应投影面的互动游戏投影方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117771664A (zh) * 2024-01-03 2024-03-29 广州创一网络传媒有限公司 一种自适应投影面的互动游戏投影方法
CN117771664B (zh) * 2024-01-03 2024-06-07 广州创一网络传媒有限公司 一种自适应投影面的互动游戏投影方法

Similar Documents

Publication Publication Date Title
CN110796046B (zh) 基于卷积神经网络的智能钢渣检测方法和***
CN115082683B (zh) 一种基于图像处理的注塑缺陷检测方法
US20230289979A1 (en) A method for video moving object detection based on relative statistical characteristics of image pixels
CN113139521B (zh) 一种用于电力监控的行人越界标监测方法
CN105404847B (zh) 一种遗留物实时检测方法
CN101470809B (zh) 一种基于扩展混合高斯模型的运动目标检测方法
CN104978567B (zh) 基于场景分类的车辆检测方法
CN109255326B (zh) 一种基于多维信息特征融合的交通场景烟雾智能检测方法
CN103810703B (zh) 一种基于图像处理的隧道视频运动目标检测方法
CN109919053A (zh) 一种基于监控视频的深度学习车辆停车检测方法
CN110298297A (zh) 火焰识别方法和装置
CN105513053A (zh) 一种用于视频分析中背景建模方法
CN112241693A (zh) 基于YOLOv3实现的违规焊接动火图像识别方法
CN116524410A (zh) 基于混合高斯模型的深度学习融合场面目标检测方法
CN111274964B (zh) 一种基于无人机视觉显著性分析水面污染物的检测方法
CN112489055A (zh) 融合亮度-时序特征的卫星视频动态车辆目标提取方法
CN107038690A (zh) 一种基于多特征融合的运动阴影去除方法
Agrawal et al. ABGS Segmenter: pixel wise adaptive background subtraction and intensity ratio based shadow removal approach for moving object detection
CN111126195B (zh) 基于场景属性驱动和时空域显著性的异常行为分析方法
Cristani et al. A spatial sampling mechanism for effective background subtraction.
CN113221603A (zh) 一种检测监控设备被异物遮挡的方法及装置
CN111832337A (zh) 一种车牌识别方法及装置
CN115995097A (zh) 一种基于深度学习的安全头盔佩戴标准判断方法
CN111402185A (zh) 一种图像检测方法及装置
CN114694090A (zh) 一种基于改进PBAS算法与YOLOv5的校园异常行为检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination