CN112529931B - 一种前景分割的方法及*** - Google Patents

一种前景分割的方法及*** Download PDF

Info

Publication number
CN112529931B
CN112529931B CN202011539304.7A CN202011539304A CN112529931B CN 112529931 B CN112529931 B CN 112529931B CN 202011539304 A CN202011539304 A CN 202011539304A CN 112529931 B CN112529931 B CN 112529931B
Authority
CN
China
Prior art keywords
video frame
optical flow
segmentation
foreground segmentation
foreground
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011539304.7A
Other languages
English (en)
Other versions
CN112529931A (zh
Inventor
梁栋
魏宗琪
耿其祥
孙涵
张立言
刘宁钟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Aeronautics and Astronautics
Original Assignee
Nanjing University of Aeronautics and Astronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Aeronautics and Astronautics filed Critical Nanjing University of Aeronautics and Astronautics
Priority to CN202011539304.7A priority Critical patent/CN112529931B/zh
Publication of CN112529931A publication Critical patent/CN112529931A/zh
Application granted granted Critical
Publication of CN112529931B publication Critical patent/CN112529931B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/136Segmentation; Edge detection involving thresholding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种前景分割的方法及***。该方法包括:获取当前视频帧;获取当前时刻前的第一视频帧、第二视频帧和第三视频帧;根据当前视频帧、第一视频帧、第二视频帧和第三视频帧,生成分层光流图;向分层光流注意力模型输入当前视频帧和分层光流,得到前景分割矩阵;将前景分割矩阵进行可视化处理,得到分割结果。采用本发明的方法及***,能够在实现跨场景前景分割的同时,保证分割的精度。

Description

一种前景分割的方法及***
技术领域
本发明涉及场景分割技术领域,特别是涉及一种前景分割的方法及***。
背景技术
监控***通常与对象跟踪、重新识别和异常事件警报等多种任务集成在一起,而这些任务通常包括分割任务。视频前景分割算法是分割任务中的子任务,目的是识别场景中的运动目标(即前景),在监控***中起着重要作用。目前,前景分割的模型包括传统的背景差分模型和基于深度学***德斯)背景重构、使用KDE(Kernel Density Estimate,核密度估计)的前景分割和ViBe(visualbackground extractor,视频背景提取算法)模型,传统背景差分模型通过学习视频场景中的背景,然后通过差分的方式得到场景中的运动目标。这种方法无法获取未训练场景中背景,所以在跨场景前景分割任务中不能有很好的表现。
基于深度学习的分割模型包括DeepLabV3+(Deep Labelling V3+Model,深度标记模型V3+版)、PSPNet(Pyramid scene parsing network,金字塔场景解析网络)和STAM(Spatio-TemporalAttentionModel,时空注意力模型)。现代的语义或实例分割方法(即DeepLabV3+和PSPNet)通过为整个场景提供语义注释来进行前景分割。但是这种方法在跨场景前景分割任务中,为适应不同的场景需要进行大量的注释,而且需要对神经网络进行重新训练,否则前景(尤其是微小的前景)将被错误地分割。
另外,这种方法忽略了前景的运动属性,因此很难区分运动的前景。对此,STAM融合了光流信息,根据相邻视频帧的光流信息,使用端到端的模型直接得到前景的分割结果。然而,STAM虽然对前景的分割效果有了较大的提升,但模型的分割结果仅依赖于瞬时运动反映运动目标整体,分割后的结果存在孔洞问题,在指导跨场景前景分割时同样表现不足。
因此,如何提高跨场景前景分割的分割精度,是本领域技术人员亟待解决的问题。
发明内容
本发明的目的是提供一种前景分割的方法及***,能够在实现跨场景前景分割的同时,保证分割的精度。
为实现上述目的,本发明提供了如下方案:
一种前景分割的方法,包括:
获取当前视频帧;
获取当前时刻前的第一视频帧、第二视频帧和第三视频帧;
根据所述当前视频帧、所述第一视频帧、所述第二视频帧和所述第三视频帧,生成分层光流图;
向分层光流注意力模型输入所述当前视频帧和所述分层光流,得到前景分割矩阵;所述分层光流注意力模型是利用类内尺度损失函数,对视频帧编码器、光流解码器和解码器进行训练得到的;所述类内尺度损失函数是在焦点损失函数的基础上,乘以基于目标面积的损失调整参数得到的;
将所述前景分割矩阵进行可视化处理,得到分割结果。
可选的,所述根据所述当前视频帧、所述第一视频帧、所述第二视频帧和所述第三视频帧,生成分层光流图,具体包括:
确定所述当前视频帧相对于所述第一视频帧的光流,得到第一光流信息;
确定所述当前视频帧相对于所述第二视频帧的光流,得到第二光流信息;
确定所述当前视频帧相对于所述第三视频帧的光流,得到第三光流信息;
将所述第一光流信息输入空白图片的R通道,将所述第二光流信息输入空白图片的G通道,将所述第一光流信息输入空白图片的B通道,生成分层光流图。
可选的,在所述向分层光流注意力模型输入所述当前视频帧和所述分层光流,得到前景分割矩阵,之前还包括:
将所述当前视频帧和所述分层光流进行归一化处理。
可选的,所述分层光流注意力模型的训练步骤,具体包括:
将CDNet2014数据集作为训练集,利用所述类内尺度损失函数,对视频帧编码器、光流解码器和解码器进行训练,得到所述分层光流注意力模型。
可选的,对视频帧编码器、光流解码器和解码器进行一次训练的过程,包括:
在所述CDNet2014数据集中选取一组训练数据,所述训练数据包括视频帧,以及与所述视频帧对应的分层光流图和真值;
将选取的视频帧输入视频帧编码器,得到视频帧特征;
将选取的分层光流图输入光流编码器,得到分层光流特征;
将视频帧特征和所述分层光流特征输入所述解码器进行训练,得到前景分割矩阵;
根据所述真值和所述类内尺度损失函数,计算所述前景分割矩阵的损失并更新所述视频帧编码器、所述光流解码器和所述解码器的参数。
可选的,所述类内尺度损失的公式为:
式中,
其中,LossCIS为类内尺度损失函数,α为平衡因子,γ为难易因子,p为模型预测结果的概率值,y为真值,y=1表示前景,y=0表示背景,β为基于目标面积的损失调整参数,t为权重系数,fg为运动目标,s(fg)为场景真值中运动目标在场景中所占的比值。
可选的,所述将所述前景分割矩阵进行可视化处理,得到分割结果,具体包括:
将所述前景分割矩阵乘以255,得到扩展后的前景分割矩阵;
根据分割像素阈值,将所述扩展后的前景分割矩阵进行二值化处理,得到分割结果。
可选的,所述根据分割像素阈值,将所述扩展后的前景分割矩阵进行二值化处理,得到分割结果,具体包括:
将所述扩展后的前景分割矩阵中大于所述分割像素阈值的元素均更新为255,得到第一次更新后的前景分割矩阵;
将所述第一次更新后的前景分割矩阵中小于或者等于所述分割像素阈值的元素均更新为0,得到第二次更新后的前景分割矩阵;
将所述得到第二次更新后的前景分割矩阵中等于255的元素均识别为前景,将所述得到第二次更新后的前景分割矩阵中等于0的元素均识别为背景,得到分割结果。
可选的,所述分割像素阈值为15。
一种前景分割的***,所述***包括:
当前视频帧获取模块,用于获取当前视频帧;
第二视频帧获取模块,用于获取当前时刻前的第一视频帧、第二视频帧和第三视频帧;
分层光流图生成模块,用于根据所述当前视频帧、所述第一视频帧、所述第二视频帧和所述第三视频帧,生成分层光流图;
前景分割矩阵确定模块,用于向分层光流注意力模型输入所述当前视频帧和所述分层光流,得到前景分割矩阵;所述分层光流注意力模型是利用类内尺度损失函数,对视频帧编码器、光流解码器和解码器进行训练得到的;所述类内尺度损失函数是在焦点损失函数的基础上,乘以基于目标面积的损失调整参数得到的;
可视化处理模块,用于将所述前景分割矩阵进行可视化处理,得到分割结果。
与现有技术相比,本发明的有益效果是:
本发明提出了一种前景分割的方法及***,该方法在焦点损失函数的基础上,乘以基于目标面积的损失调整参数得到类内尺度损失函数,使用CDNet2014数据集和类内尺度损失函数,对视频帧编码器、光流解码器和解码器进行训练,得到分层光流注意力模型(Hierarchical Optical Flow Attention Model,HOFAM),向分层光流注意力模型中输入当前视频帧和分层光流,得到前景分割矩阵,对前景分割矩阵进行可视化处理,得到分割结果。本发明通过获取当前时刻前的多帧视频帧的光流信息,将视频信息的运动目标作为前景分割的关注点,在提高了小面积前景分割的精度的基础上,还简化了跨场景前景分割的步骤,改善了跨场景分割中存在的孔洞问题,提高了跨场景前景分割的精度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中所提供的前景分割的方流程图;
图2为本发明实施例中所提供中的运用分层光流信息与运用单层光流、双层光流的分割结果对比图;
图3为本发明实施例中所提供的不同场景下分层光流注意力模型与现有模型的可视化分割结果对比图;
图4为本发明实施例中所提供的不同场景下分层光流注意力模型与现有模型的可视化分割结果对比图;
图5为本发明实施例中所提供的使用焦点损失与回归损失函数的可视化结果对比图;
图6为本发明实施例中所提供的分层光流注意力模型结构示意图;
图7为本发明实施例中所提供的分层光流注意力模型训练流程图;
图8为本发明实施例中所提供的前景分割的***的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种前景分割的方法及***,能够在实现跨场景前景分割的同时,保证分割的精度。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
实施例
图1为本发明实施例中所提供的前景分割的方流程图,如图1所示,本发明提供了一种前景分割的方法,方法包括:
步骤101:获取当前视频帧。
步骤102:获取当前时刻前的第一视频帧、第二视频帧和第三视频帧。
步骤103:根据当前视频帧、第一视频帧、第二视频帧和第三视频帧,生成分层光流图。运用分层光流、单层光流、双层光流的分割结果对比如图2所示。具体的,将当前视频帧、第一视频帧、第二视频帧和第三视频帧输入selflow模型,得到分层光流图。
步骤103,具体包括:
确定当前视频帧相对于第一视频帧的光流,得到第一光流信息。
确定当前视频帧相对于第二视频帧的光流,得到第二光流信息。
确定当前视频帧相对于第三视频帧的光流,得到第三光流信息。
将第一光流信息输入空白图片的R通道,将第二光流信息输入空白图片的G通道,将第一光流信息输入空白图片的B通道,生成分层光流图。
步骤104:向分层光流注意力模型输入当前视频帧和分层光流,得到前景分割矩阵;分层光流注意力模型是利用类内尺度(Class-In Scale,CIS)损失函数,对视频帧编码器、光流解码器和解码器进行训练得到的;类内尺度损失函数是在焦点损失函数的基础上,乘以基于目标面积的损失调整参数得到的。不同场景下分层光流注意力模型与现有模型的可视化分割结果对比如图3-4所示。在步骤104之前还包括:将当前视频帧和分层光流图进行归一化处理。
分层光流注意力模型的训练步骤,具体包括:
将CDNet2014数据集作为训练集,利用类内尺度损失函数,对视频帧编码器、光流解码器和解码器进行训练,得到分层光流注意力模型。其中,CDNet2014数据集不仅是车辆相关的数据集,它还包含监控视频的多种场景(包括如场景抖动、动态背景和红外等多种场景),是前景分割中的主流数据集。CDNet2014数据集包括视频帧集、分层光流图集和真值集。
对视频帧编码器、光流解码器和解码器进行一次训练的过程,包括:在CDNet2014数据集中选取一组训练数据,训练数据包括视频帧,以及与视频帧对应的分层光流图和真值;将选取的视频帧输入视频帧编码器,得到视频帧特征;将选取的分层光流图输入光流编码器,得到分层光流特征;将视频帧特征和分层光流特征输入解码器进行训练,得到前景分割矩阵;根据真值和类内尺度损失函数,计算前景分割矩阵的损失并更新视频帧编码器、光流解码器和解码器的参数。
当迭代达到预设次数时停止训练,得到分层光流注意力模型。
在现有的前景分割的技术中,多使用回归损失(L1 Loss)和焦点损失(focalloss)函数对模型进行训练,使用焦点损失与回归损失函数的可视化结果对比如图5所示,在前景分割的技术中,使用焦点损失训练后的模型处理前景和背景类别之间的不平衡问题时的效果更好,焦点损失函数如下:式中,Lossfocal表示焦点损失。
但是,使用焦点损失训练后的模型仅对于大目标对象(面积大的前景)的分割有很好的效果,而对小目标对象(面积小的前景)进行分割时会存在缺陷,甚至导致小目标对象完全缺失。对此本发明提出了类内尺度损失,在训练过程中使用类内尺度损失作为指导真值图像和预测结果的损失函数,然后反向传播网络来训练模型。
具体的,所述类内尺度损失的公式为:
式中,
其中,LossCIS为类内尺度损失函数,α为平衡因子,γ为难易因子,p为模型预测结果的概率值,y为真值,y=1表示前景,y=0表示背景,β为基于目标面积的损失调整参数,t为权重系数,fg为运动目标,s(fg)为场景真值中运动目标在场景中所占的比值。前景目标面积越大,β越小,使得大目标的损失下调;前景目标面积越小,β越大,使得小目标的损失上调。
类内尺度损失函数以目标的尺度作为调节的参考,取调节的指数和50(50是对训练场景中进行多次采样获得的参数)的最小值,考虑了场景中无目标的情况。
图6为本发明实施例中所提供的分层光流注意力模型结构示意图,图7为本发明实施例中所提供的分层光流注意力模型训练流程图,如图6-7所示,分层光流求解过程如下:首先提取相对当前时刻T之前的第1帧τ1、第5帧τ2和第10帧τ3三帧视频帧,将视频帧分别与当前时刻T的视频帧(当前视频帧)求光流,得到具有不同运动特征的长短光流Op(τ1)、Op(τ2)和Op(τ3),然后将长短光流Op(τ1)、Op(τ2)和Op(τ3)对应输入同一张空白图片中的R通道、G和通道B中,得到分层光流图。
分层光流注意力模型(包括训练好的视频帧编码器、光流编码器和解码器)将归一化的当前视频帧输入到视频帧编码器,视频帧编码器对当前视频帧矩阵进行一系列卷积操作提取视频帧特征,然后将归一化的分层光流图输入到光流编码器,光流编码器对分层光流矩阵进行一系列的卷积运算提取需要的光流特征,将提取到视频帧特征和光流特征输入到解码器,解码器对视频帧特征和光流特征的进行解码卷积操作,解码器中的注意力模块将光流特征和视频帧特征结合得到的运动信息(即前景),并将运动信息在视频帧部分进行突出处理,输出视频帧端到端的前景分割的特征结果(前景分割矩阵)。前景分割矩阵为归一化的矩阵,前景分割结果为单通道图片(尺寸为256*256像素),从模型直接输出的特征结果到最后的分割结果(图片)还需要进行可视化处理。
步骤105:将前景分割矩阵进行可视化处理,得到分割结果。
步骤105,具体包括:将前景分割矩阵乘以255,得到扩展后的前景分割矩阵;根据分割像素阈值,将扩展后的前景分割矩阵进行二值化处理,得到分割结果。
其中,根据分割像素阈值,将扩展后的前景分割矩阵进行二值化处理,得到分割结果,具体包括:将扩展后的前景分割矩阵中大于分割像素阈值的元素均更新为255,得到第一次更新后的前景分割矩阵;将第一次更新后的前景分割矩阵中小于或者等于分割像素阈值的元素均更新为0,得到第二次更新后的前景分割矩阵;将得到第二次更新后的前景分割矩阵中等于255的元素均识别为前景,将得到第二次更新后的前景分割矩阵中等于0的元素均识别为背景,得到分割结果。分割像素阈值为15。
图8为本发明实施例中所提供的前景分割的***的结构示意图,如图8所示,本发明提供的前景分割的***,包括:
当前视频帧获取模块201,用于获取当前视频帧。
第二视频帧获取模块202,用于获取当前时刻前的第一视频帧、第二视频帧和第三视频帧。
分层光流图生成模块203,用于当前视频帧、第一视频帧、第二视频帧和第三视频帧,生成分层光流图。
分层光流图生成模块203,具体包括:
第一光流信息确定单元,用于确定当前视频帧相对于第一视频帧的光流,得到第一光流信息。
第二光流信息确定单元,用于确定当前视频帧相对于第二视频帧的光流,得到第二光流信息。
第三光流信息确定单元,用于确定当前视频帧相对于第三视频帧的光流,得到第三光流信息。
分层光流图生成单元,用于将第一光流信息输入空白图片的R通道,将第二光流信息输入空白图片的G通道,将第一光流信息输入空白图片的B通道,生成分层光流图。
前景分割矩阵确定模块204,用于向分层光流注意力模型输入当前视频帧和分层光流图,得到前景分割矩阵;分层光流注意力模型是利用类内尺度损失函数,对视频帧编码器、光流编码器和解码器训练得到的;类内尺度损失函数是在焦点损失函数的基础上,乘以基于目标面积的损失调整参数得到的。
前景分割矩阵确定模块204,具体包括,分层光流注意力模型的训练单元,用于将CDNet2014数据集作为训练集,利用类内尺度损失函数,对视频帧编码器、光流解码器和解码器进行训练,得到分层光流注意力模型。
分层光流注意力模型的训练单元对视频帧编码器、光流解码器和解码器进行一次训练的过程为:在CDNet2014数据集中选取一组训练数据,训练数据包括视频帧,以及与视频帧对应的分层光流图和真值;将选取的视频帧输入视频帧编码器,得到视频帧特征;将选取的分层光流图输入光流编码器,得到分层光流特征;将视频帧特征和分层光流特征输入解码器进行训练,得到前景分割矩阵;根据真值和类内尺度损失函数,计算前景分割矩阵的损失并更新视频帧编码器、光流解码器和解码器的参数。
采用如下公式计算类内尺度损失:
式中,
其中,LossCIS为类内尺度损失函数,α为平衡因子,γ为难易因子,p为模型预测结果的概率值,y为真值,y=1表示前景,y=0表示背景,β为基于目标面积的损失调整参数,t为权重系数,fg为运动目标,s(fg)为场景真值中运动目标在场景中所占的比值。
可视化处理模块205,用于将前景分割矩阵进行可视化处理,得到分割结果。
可视化处理模块205,具体包括:
前景分割矩阵扩展单元,用于将前景分割矩阵乘以255,得到扩展后的前景分割矩阵。
二值化处理单元,用于根据分割像素阈值,将扩展后的前景分割矩阵进行二值化处理,得到分割结果。
二值化处理单元,具体包括:
前景分割矩阵第一更新子单元,用于将扩展后的前景分割矩阵中大于分割像素阈值的元素均更新为255,得到第一次更新后的前景分割矩阵。
前景分割矩阵第二更新子单元,用于将第一次更新后的前景分割矩阵中小于或者等于分割像素阈值的元素均更新为0,得到第二次更新后的前景分割矩阵。
分割子单元,用于将得到第二次更新后的前景分割矩阵中等于255的元素均识别为前景,将得到第二次更新后的前景分割矩阵中等于0的元素均识别为背景,得到分割结果。其中,分割像素阈值为15。
此外,本发明提供的前景分割的***还包括:归一化处理模块,用于将当前视频帧和分层光流图进行归一化处理。
本发明提供的前景分割的方法及***,提出了类内尺度损失函数和分层光流注意力模型。第一,使用分层光流信息进行前景分割能够明显改善孔洞问题(由图2可知);第二,分层光流注意力模型在进行跨场景分割时,分割结果几乎接近于真值,与DeepLabV3+、PSPNet和STAM相比,表现出了良好的分割效果(由图3-4可知);第三,使用类内尺度损失函数训练模型,解决了现有技术中无法对小目标进行分割的问题,能够在实现跨场景前景分割的同时,保证分割的精度。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的***而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上,本说明书内容不应理解为对本发明的限制。

Claims (7)

1.一种前景分割的方法,其特征在于,所述方法包括:
获取当前视频帧;
获取当前时刻前的第一视频帧、第二视频帧和第三视频帧;
根据所述当前视频帧、所述第一视频帧、所述第二视频帧和所述第三视频帧,生成分层光流图;
向分层光流注意力模型输入所述当前视频帧和所述分层光流,得到前景分割矩阵;所述分层光流注意力模型是利用类内尺度损失函数,对视频帧编码器、光流解码器和解码器进行训练得到的;所述类内尺度损失函数是在焦点损失函数的基础上,乘以基于目标面积的损失调整参数得到的;
将所述前景分割矩阵进行可视化处理,得到分割结果;
所述分层光流注意力模型的训练步骤,具体包括:
将CDNet2014数据集作为训练集,利用所述类内尺度损失函数,对视频帧编码器、光流解码器和解码器进行训练,得到所述分层光流注意力模型;
对视频帧编码器、光流解码器和解码器进行一次训练的过程,包括:
在所述CDNet2014数据集中选取一组训练数据,所述训练数据包括视频帧,以及与所述视频帧对应的分层光流图和真值;
将选取的视频帧输入视频帧编码器,得到视频帧特征;
将选取的分层光流图输入光流编码器,得到分层光流特征;
将视频帧特征和所述分层光流特征输入所述解码器进行训练,得到前景分割矩阵;
根据所述真值和所述类内尺度损失函数,计算所述前景分割矩阵的损失并更新所述视频帧编码器、所述光流解码器和所述解码器的参数;
所述类内尺度损失的公式为:
式中,
其中,LossCIS为类内尺度损失函数,α为平衡因子,γ为难易因子,p为模型预测结果的概率值,y为真值,y=1表示前景,y=0表示背景,β为基于目标面积的损失调整参数,t为权重系数,fg为运动目标,s(fg)为场景真值中运动目标在场景中所占的比值。
2.根据权利要求1所述的前景分割的方法,其特征在于,所述根据所述当前视频帧、所述第一视频帧、所述第二视频帧和所述第三视频帧,生成分层光流图,具体包括:
确定所述当前视频帧相对于所述第一视频帧的光流,得到第一光流信息;
确定所述当前视频帧相对于所述第二视频帧的光流,得到第二光流信息;
确定所述当前视频帧相对于所述第三视频帧的光流,得到第三光流信息;
将所述第一光流信息输入空白图片的R通道,将所述第二光流信息输入空白图片的G通道,将所述第一光流信息输入空白图片的B通道,生成分层光流图。
3.根据权利要求1所述的前景分割的方法,其特征在于,在所述向分层光流注意力模型输入所述当前视频帧和所述分层光流,得到前景分割矩阵,之前还包括:
将所述当前视频帧和所述分层光流图进行归一化处理。
4.根据权利要求3所述的前景分割的方法,其特征在于,所述将所述前景分割矩阵进行可视化处理,得到分割结果,具体包括:
将所述前景分割矩阵乘以255,得到扩展后的前景分割矩阵;
根据分割像素阈值,将所述扩展后的前景分割矩阵进行二值化处理,得到分割结果。
5.根据权利要求4所述的前景分割的方法,其特征在于,所述根据分割像素阈值,将所述扩展后的前景分割矩阵进行二值化处理,得到分割结果,具体包括:
将所述扩展后的前景分割矩阵中大于所述分割像素阈值的元素均更新为255,得到第一次更新后的前景分割矩阵;
将所述第一次更新后的前景分割矩阵中小于或者等于所述分割像素阈值的元素均更新为0,得到第二次更新后的前景分割矩阵;
将所述得到第二次更新后的前景分割矩阵中等于255的元素均识别为前景,将所述得到第二次更新后的前景分割矩阵中等于0的元素均识别为背景,得到分割结果。
6.根据权利要求5所述的前景分割的方法,其特征在于,所述分割像素阈值为15。
7.一种前景分割的***,其特征在于,所述***应用如有权利要求1-6任一项所述的一种前景分割的方法,所述***包括:
当前视频帧获取模块,用于获取当前视频帧;
第二视频帧获取模块,用于获取当前时刻前的第一视频帧、第二视频帧和第三视频帧;
分层光流图生成模块,用于根据所述当前视频帧、所述第一视频帧、所述第二视频帧和所述第三视频帧,生成分层光流图;
前景分割矩阵确定模块,用于向分层光流注意力模型输入所述当前视频帧和所述分层光流,得到前景分割矩阵;所述分层光流注意力模型是利用类内尺度损失函数,对视频帧编码器、光流解码器和解码器进行训练得到的;所述类内尺度损失函数是在焦点损失函数的基础上,乘以基于目标面积的损失调整参数得到的;
可视化处理模块,用于将所述前景分割矩阵进行可视化处理,得到分割结果。
CN202011539304.7A 2020-12-23 2020-12-23 一种前景分割的方法及*** Active CN112529931B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011539304.7A CN112529931B (zh) 2020-12-23 2020-12-23 一种前景分割的方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011539304.7A CN112529931B (zh) 2020-12-23 2020-12-23 一种前景分割的方法及***

Publications (2)

Publication Number Publication Date
CN112529931A CN112529931A (zh) 2021-03-19
CN112529931B true CN112529931B (zh) 2024-04-12

Family

ID=74975909

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011539304.7A Active CN112529931B (zh) 2020-12-23 2020-12-23 一种前景分割的方法及***

Country Status (1)

Country Link
CN (1) CN112529931B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113744306B (zh) * 2021-06-08 2023-07-21 电子科技大学 基于时序内容感知注意力机制的视频目标分割方法
CN113505737B (zh) * 2021-07-26 2024-07-02 浙江大华技术股份有限公司 前景图像的确定方法及装置、存储介质、电子装置
CN117795284A (zh) 2022-07-29 2024-03-29 宁德时代新能源科技股份有限公司 测量方法和测量装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108280831A (zh) * 2018-02-02 2018-07-13 南昌航空大学 一种图像序列光流的获取方法及***
CN109766828A (zh) * 2019-01-08 2019-05-17 重庆同济同枥信息技术有限公司 一种车辆目标分割方法、装置及通信设备
CN110147763A (zh) * 2019-05-20 2019-08-20 哈尔滨工业大学 基于卷积神经网络的视频语义分割方法
CN110738682A (zh) * 2019-10-23 2020-01-31 南京航空航天大学 一种前景分割方法及***
CN110866938A (zh) * 2019-11-21 2020-03-06 北京理工大学 一种全自动视频运动目标分割方法
CN111489372A (zh) * 2020-03-11 2020-08-04 天津大学 基于级联卷积神经网络的视频前背景分离方法
CN111860162A (zh) * 2020-06-17 2020-10-30 上海交通大学 一种视频人群计数***及方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040032906A1 (en) * 2002-08-19 2004-02-19 Lillig Thomas M. Foreground segmentation for digital video

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108280831A (zh) * 2018-02-02 2018-07-13 南昌航空大学 一种图像序列光流的获取方法及***
CN109766828A (zh) * 2019-01-08 2019-05-17 重庆同济同枥信息技术有限公司 一种车辆目标分割方法、装置及通信设备
CN110147763A (zh) * 2019-05-20 2019-08-20 哈尔滨工业大学 基于卷积神经网络的视频语义分割方法
CN110738682A (zh) * 2019-10-23 2020-01-31 南京航空航天大学 一种前景分割方法及***
CN110866938A (zh) * 2019-11-21 2020-03-06 北京理工大学 一种全自动视频运动目标分割方法
CN111489372A (zh) * 2020-03-11 2020-08-04 天津大学 基于级联卷积神经网络的视频前背景分离方法
CN111860162A (zh) * 2020-06-17 2020-10-30 上海交通大学 一种视频人群计数***及方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
基于动态特征融合的智能车应用检测分割技术;舒鑫印;王萍;;计算机工程与设计;20201016(第10期);全文 *
基于时空感知级联神经网络的视频前背景分离;杨敬钰;师雯;李坤;宋晓林;岳焕景;;天津大学学报(自然科学与工程技术版);20200427(第06期);全文 *
基于深度学习的视频语义分割综述;韩利丽;孟朝晖;;计算机***应用;20191215(第12期);全文 *

Also Published As

Publication number Publication date
CN112529931A (zh) 2021-03-19

Similar Documents

Publication Publication Date Title
CN112529931B (zh) 一种前景分割的方法及***
CN111768388B (zh) 一种基于正样本参考的产品表面缺陷检测方法及***
CN111160407B (zh) 一种深度学习目标检测方法及***
CN107909638B (zh) 虚拟物体的渲染方法、介质、***和电子设备
CN110633610A (zh) 一种基于yolo的学员状态检测算法
CN110648310A (zh) 基于注意力机制的弱监督铸件缺陷识别方法
CN111914654B (zh) 一种文本版面分析方法、装置、设备和介质
CN114187311A (zh) 一种图像语义分割方法、装置、设备及存储介质
CN110020658B (zh) 一种基于多任务深度学习的显著目标检测方法
CN111382647B (zh) 一种图片处理方法、装置、设备及存储介质
CN112508099A (zh) 一种实时目标检测的方法和装置
CN114897738A (zh) 一种基于语义不一致性检测的图像盲修复方法
CN114708436B (zh) 语义分割模型的训练方法、语义分割方法、装置和介质
CN116030018A (zh) 用于门加工的来料合格检验***及方法
CN115240035A (zh) 半监督目标检测模型训练方法、装置、设备以及存储介质
CN113850135A (zh) 一种基于时间移位框架的动态手势识别方法及***
CN110147724B (zh) 用于检测视频中的文本区域的方法、装置、设备以及介质
CN116342474A (zh) 晶圆表面缺陷检测方法
CN114863182A (zh) 图像分类方法、图像分类模型的训练方法及装置
CN111612803B (zh) 一种基于图像清晰度的车辆图像语义分割方法
CN113807185A (zh) 一种数据处理方法和装置
CN113283396A (zh) 目标对象的类别检测方法、装置、计算机设备和存储介质
CN114596244A (zh) 基于视觉处理和多特征融合的红外图像识别方法及***
WO2023032665A1 (ja) ラベル生成方法、モデル生成方法、ラベル生成装置、ラベル生成プログラム、モデル生成装置、及びモデル生成プログラム
CN112396126B (zh) 一种基于检测主干与局部特征优化的目标检测方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant