CN113283283A - 基于掩码指导特征净化的非监督视频目标分割方法 - Google Patents
基于掩码指导特征净化的非监督视频目标分割方法 Download PDFInfo
- Publication number
- CN113283283A CN113283283A CN202110293552.6A CN202110293552A CN113283283A CN 113283283 A CN113283283 A CN 113283283A CN 202110293552 A CN202110293552 A CN 202110293552A CN 113283283 A CN113283283 A CN 113283283A
- Authority
- CN
- China
- Prior art keywords
- mask
- feature
- embedded
- segmentation
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 66
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000000746 purification Methods 0.000 title abstract description 16
- 238000012549 training Methods 0.000 claims abstract description 21
- 238000011176 pooling Methods 0.000 claims abstract description 7
- 230000004927 fusion Effects 0.000 claims abstract description 3
- 239000011159 matrix material Substances 0.000 claims description 10
- 238000010926 purge Methods 0.000 claims description 6
- 238000012360 testing method Methods 0.000 claims description 6
- 238000012935 Averaging Methods 0.000 claims description 4
- 230000002708 enhancing effect Effects 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 2
- 238000005259 measurement Methods 0.000 claims description 2
- 238000004140 cleaning Methods 0.000 claims 1
- 238000011012 sanitization Methods 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 5
- 238000013528 artificial neural network Methods 0.000 abstract description 4
- 230000007547 defect Effects 0.000 abstract description 4
- 230000008569 process Effects 0.000 description 11
- 230000014509 gene expression Effects 0.000 description 9
- 238000004458 analytical method Methods 0.000 description 7
- 241000282414 Homo sapiens Species 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 5
- 230000000007 visual effect Effects 0.000 description 5
- 238000011160 research Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000001149 cognitive effect Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 230000008904 neural response Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/49—Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于掩码指导的特征净化视频目标分割方法,属于特征学***均池化操作,得到全局目标特征。将其通过注意力传播操作得到经过前景增强后的嵌入特征并与嵌入特征进行拼接后,输入反馈解码器生成反馈重估计预测掩码。通过融合得到目标分割结果。本发明保证有意义信息能够输入到解码器中而无用信息被过滤,克服了中层特征忽视语意内容这一缺陷,使神经网络提取的特征在视频目标分割任务上取得了更加优秀的效果。
Description
技术领域
本发明涉及深度学习领域和视频目标分割领域,尤其是涉及到视频目标分割中的特征表达方法,该方法能够在视频目标分割数据集上得到更加准确的分割结果。
背景技术
随着多媒体和网络技术的发展,视频已经成为重要的多媒体信息载体。如何从海量的中视频提取有价值的信息,从而完成视频分析以及语意解析,已经成为计算机视觉领域的研究热点。出色的特征表达不仅能够表示视频场景的类别信息,而且能够获取视频的目标语意信息。随着海量的视频数据被采集,如何将视频分析与计算机视觉问题相结合,从而得到出色的特征表达能力是进行视频语意分析的重中之重。现有视频分析任务给社会与学术发展带来便利的同时,也带来了一定的挑战。例如如何有效在缺乏在线指导的情况下,对视频目标进行正确分割以提取视频中关键目标信息,从而应用于视频监控、跟踪领域。缺乏在线指导的非监督视频目标分割在过去一些年在相关领域取得了广泛的研究和长足的进展。目前大量互联网公司和研究机构纷纷投入巨资加入到了非监督视频目标分割任务中,通过上述相关方法完成该任务,这也意味着该任务已经成为了研究的主流。非监督视频目标分割任务具有很高的应用价值,在视频监控方面可以帮助筛选显著运动目标;在自动驾驶方面可以辅助驾驶;在生物医学方面可以帮助医生进行辅助治疗识别等工作。
人类具有出色的视觉自我视觉净化能力,其视觉净化机制在一般情况下会遵从预定义的视觉通路,而当反馈信息进入视觉通路时,能够自觉调整通过反馈信息指导的视觉语义信息。除此以外,认知心理学表明,感知语义和注意力信息能够调节神经响应,从而进一步调整从浅层到深层次的侧向连接。从而经过内部分析有选择性地在他们的视觉范围中关注不同目标部位来迭代地反复修正视觉信息,该能力可以视为人类的视觉净化能力。该感知机制能够通过没有外界指导的条件下,多次分析输入信息并对其进行重要性筛选,经过自我反馈修正信息对输入信号进行优先级别划分。在此情况下,优先级别高的信息会被优先处理,从而提升视觉信息处理的效果。其中获得自我反馈修正的方式有多种,针对于分割任务来说,人类通过不断聚焦重估计的过程利用历史注意信息指导后续认知特征的净化,逐步筛选出有价值特征进行后续分割。
非监督视频目标分割是计算机视觉中重要的一个基础问题,其目的旨在确定输入视频中主要目标所对应的掩码信息或者目标对应的语义信息。该任务主要面对的挑战在于视频中的遮挡问题以及复杂背景问题等。本方法主要解决在仅有训练集分割标签而缺少任何测试集先验的情况下,进行目标分割。为了完成上述目标,,相关工作通常使用孪生网络提取视频中相关性信息或者使用外部记忆机制来进行完成目标分割任务。但是这些方法首先都需要同时输入多帧的帮助当前帧进行分割,这在一定程度上使计算量加倍;此外这些方法通常都在整个图像上传播信息,而目标在大多数视频中都只占很小的区域,这也会一定程度造成背景扰乱前景的现象。
基于以上分析,两种对于真实场景的观测驱动本方法提出了本章模型:1)为了更好地分割图像中的主要目标,人类通常需要从底层到高层且从高层到底层地对语义进行解析。2)在视觉处理的过程中,人眼的聚焦过程可以看成从关注图像整体忽略背景而逐步专注于前景的过程。基于上述真实场景观察,本方法期望将图像自身的中间分割过程看成是得到最终精细分割结果过程中的一个精细语义选择算子,该精细选择算子得益于粗分割结果从而能够达到修正分割结果的效果。
发明内容
本发明的目的在于,针对上述已有前向神经网络对于视频表达能力的不足,提出了一种基于掩码指导的特征净化非监督视频目标分割方法。本发明将净化机制以一种端到端的方式概念化为三个连续的模块化方法来解决目标分割问题。该方法与现有方法的不同在于探索了分割掩码和中间特征表达之间的内在联系,从而保证有意义信息能够输入到解码器中而无用信息被过滤。以这种方式实现净化仿了“聚焦和净化”过程,克服了“堆叠不同类型的前向网络层造成的忽视语意内容和蕴涵在分割掩码中的任务指定因素”这一缺陷。本章提出的掩码指导的特征净化机制能够以迭代的方式帮助量化目标的中间特征表达,从而使模型能够基于历史的特征表达和任务目标选择关注的目标区域。
实现本发明方法的主要思路是:首先通过图像数据集及其对应目标分割结果构造训练图像数据集。将图像输入编码网络得到该图像对应的嵌入特征,将嵌入特征输入前向解码器生成前向预测掩码。随后使用前向预测掩码与嵌入特征对输入的两者进行掩码平均池化操作,得到初始预测指导目标的全局目标特征并将其上采样到与嵌入特征同样尺寸。将其通过使用注意力传播操作得到经过前景增强后的嵌入特征,与嵌入特征进行稠密比较操作,随后输入反馈解码器生成反馈重估计预测掩码,最后融合得到最终的目标分割结果。
根据上述主要思路,本发明方法的具体实现包括如下步骤,包括训练和测试两个阶段,训练阶段包括步骤1-6
步骤1:构造数据集
构造数据集,以视频帧为输入,视频帧对应分割掩码为训练目标,构造出训练视频对应的目标分割图像集;
步骤2:提取输入视频帧的嵌入特征和前向预测掩码
将视频帧输入特征编码网络,提取视频帧对应的嵌入特征,随后将该嵌入特征输入前向解码网络,解码得到该视频帧的前向预测掩码;
步骤3:使用掩码平均池化得到全局目标特征
将步骤2得到的前向预测掩码进行双线性插值操作缩放为与嵌入特征相同尺寸大小,随后对步骤2得到的嵌入特征与经过缩放后的前向预测解码进行哈达马乘积操作,计算特征对应每个通道非零区域的平均值并将其进行上采样操作到与嵌入特征相同尺寸,得到全局目标特征。
步骤4:通过注意力传播得到增强嵌入特征
使用步骤3的到的全局目标特征与步骤2得到的嵌入特征计算得到相似性矩阵。将该相似性矩阵与嵌入特征进行矩阵相乘操作,得到增强嵌入特征。
步骤5:嵌入特征与增强嵌入特征拼接融合并进行净化重估计
拼接嵌入特征与增强嵌入特征实现拼接,使用卷积操作将两者进行融合。随后将融合后的特征输入到净化重估计解码器,解码得到净化重估计掩码。
步骤6:计算分割损失,更新分割网络参数
将步骤2计算前向预测掩码和净化重估计掩码分别与分割目标计算损失,并方向传播更新分割网络权重。
实测阶段
步骤7:输出视频目标分割结果
针对输入视频帧将其输入分割网络,将步骤2得到的前向预测掩码与步骤5得到的净化重估计掩码进行融合,得到最终目标分割结果。
本发明与现有技术相比,具有以下明显的优势和有益效果:本发明提出了一种基于掩码指导的特征净化非监督视频目标分割方法,深度探索了分割掩码和中间特征表达之间的内在联系,从而保证有意义信息能够输入到解码器中而无用信息被过滤。以这种方式实现了目标聚焦和特征净化过程,克服了传统前向网络造成的中层特征忽视语意内容这一缺陷,进一步提升了神经网络针对视频目标分割任务的特征学习和表达能力,从而使得训练出神经网络提取的特征在视频目标分割任务上取得了更加优秀的效果。
附图说明
图1为本发明所涉及方法总流程框图;
图2为本发明所涉及算法总架构图;
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实例,并参照详细附图,对本发明进一步详细说明。但所描述的实施例子仅旨在便于对本发明的理解,而对其不起任何限定作用。图1是本发明的方法流程图,如图1所示,本方法包括以下几个步骤,训练阶段包括步骤1到步骤6,测试阶段包括步骤7。
步骤1:构造数据集
本发明所述方法实施过程中的数据库来源于公开视频目标分割标准数据集DAVIS2016。其中DAVIS-2016由50个类别对应的高质量视频序列组成,共有3455个稠密掩码标注的视频帧。其中30个类别作为训练,20个类别作为测试。构造训练集的视频帧和其对应的目标分割标注为其中It表示视频帧RGB图像,Yt表示It对应的分割标注。
步骤2:提取输入视频帧的嵌入特征和前向预测掩码
X=Encoder(I)
SF=σ(DF(X))
其中σ表示sigmoid函数。在实施过程中,编码器和前向预测解码器的选择没有限制,可以采用任意卷积神经网络结构,附表1、附表2仅作为具体实施选用结构。
步骤3:使用掩码平均池化得到全局目标特征
其中(i,j)表示空间位置的索引,表示指示函数。在该操作中,分子表示先将嵌入特征X和上采样后的前向预测掩码SFG进行哈达马乘积操作,得到预测前景特征并求和,与此同时背景区域对应的特征都为零;分母表示使用前景区域对应的面积。最后将得到的目标特征vF上采样到和深度网络特征X大小一致,将其看作为全局目标特征VFG。
步骤4:通过注意力传播得到增强嵌入特征
该过程明显增强了前景区域的同时,弱化了背景区域。相比于简单的拼接X和VFG,上述特征传播过程能够明显获得更好的前景位置信息。对于定义相似性矩阵P:
其中VFGXT表示X和VFG的点积操作。随后对点积后的结果使用因子进行缩放,其中c 为X和VFG的通道数。由于高维嵌入特征在通过矩阵相乘计算时会产生巨大的计算量,从而使得softmax的输出很容易位于很小的梯度区域中,所以使用该缩放因子解决以上问题。其中的 softmax操作规则化每一行,使和为1,从而保留特征的尺度不变形。
其中,Concat(.)为拼接操作。该操作旨在比较所有与X对应的空间位置信息。将XDC经过3*3 的卷积层实现稠密比较,得到特征向量XB,将其看作反馈指导传播增强特征。随后将XB输入净化解码器生成净化重估计掩码SB∈[0,1]1*h*w:
SB=σ(DB(XB))
其中σ表示sigmoid函数。本部分提出的净化解码器DB与前向解码器DF并不共享权重,可以采用任意卷积神经网络结构,附表2仅作为实施选用结构。
步骤6:计算分割损失,更新非监督视频目标分割网络参数
其中,log(.)为logarithmic函数;T为训练数据集视频帧数。
步骤7:测试阶段,输出视频目标分割结果
将输入视频帧输入由步骤6训练得到的非监督视频目标分割网络,分别得到步骤2和步骤 5分别得到前向预测掩码和净化重估计掩码,计算两者平均值,得到最终视频目标分割结果。
从附表3可以看出,以本发明提出的方法在视频目标分割数据集上有用比最新方法更好的分割效果。
表1
表2
表3
Claims (6)
1.基于掩码指导的特征净化非监督视频目标分割方法,其特征在于包括训练和测试两个阶段,
分割网络训练阶段包括:
步骤1:构造数据集
步骤2:提取输入视频帧的嵌入特征X和前向预测掩码SF;
步骤3:使用掩码平均池化得到全局目标特征VFG;
步骤6:计算分割损失,更新分割网络参数
分割网络实测阶段包括:
步骤7:分割网络训练完成后,重复步骤2-5,步骤2和步骤5分别得到前向预测掩码SF和净化重估计掩码SB,计算两者平均值,得到最终视频目标分割结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110293552.6A CN113283283A (zh) | 2021-03-18 | 2021-03-18 | 基于掩码指导特征净化的非监督视频目标分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110293552.6A CN113283283A (zh) | 2021-03-18 | 2021-03-18 | 基于掩码指导特征净化的非监督视频目标分割方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113283283A true CN113283283A (zh) | 2021-08-20 |
Family
ID=77276004
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110293552.6A Pending CN113283283A (zh) | 2021-03-18 | 2021-03-18 | 基于掩码指导特征净化的非监督视频目标分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113283283A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113963715A (zh) * | 2021-11-09 | 2022-01-21 | 清华大学 | 语音信号的分离方法、装置、电子设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109241834A (zh) * | 2018-07-27 | 2019-01-18 | 中山大学 | 一种基于隐变量的嵌入的群体行为识别方法 |
US20190311202A1 (en) * | 2018-04-10 | 2019-10-10 | Adobe Inc. | Video object segmentation by reference-guided mask propagation |
CN111241326A (zh) * | 2019-12-26 | 2020-06-05 | 同济大学 | 基于注意力金字塔图网络的图像视觉关系指代定位方法 |
CN111968150A (zh) * | 2020-08-19 | 2020-11-20 | 中国科学技术大学 | 一种基于全卷积神经网络的弱监督视频目标分割方法 |
-
2021
- 2021-03-18 CN CN202110293552.6A patent/CN113283283A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190311202A1 (en) * | 2018-04-10 | 2019-10-10 | Adobe Inc. | Video object segmentation by reference-guided mask propagation |
CN109241834A (zh) * | 2018-07-27 | 2019-01-18 | 中山大学 | 一种基于隐变量的嵌入的群体行为识别方法 |
CN111241326A (zh) * | 2019-12-26 | 2020-06-05 | 同济大学 | 基于注意力金字塔图网络的图像视觉关系指代定位方法 |
CN111968150A (zh) * | 2020-08-19 | 2020-11-20 | 中国科学技术大学 | 一种基于全卷积神经网络的弱监督视频目标分割方法 |
Non-Patent Citations (1)
Title |
---|
冉清;冯结青;: "人体前景的自动抠图算法", 计算机辅助设计与图形学学报, no. 02, 15 February 2020 (2020-02-15), pages 277 - 286 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113963715A (zh) * | 2021-11-09 | 2022-01-21 | 清华大学 | 语音信号的分离方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111784671A (zh) | 基于多尺度深度学习的病理图像病灶区域检测方法 | |
CN111583285B (zh) | 一种基于边缘关注策略的肝脏影像语义分割方法 | |
CN109255284B (zh) | 一种基于运动轨迹的3d卷积神经网络的行为识别方法 | |
CN113012172A (zh) | 一种基于AS-UNet的医学图像分割方法及*** | |
CN111523546A (zh) | 图像语义分割方法、***及计算机存储介质 | |
CN108229576B (zh) | 一种跨倍率病理图像特征学习方法 | |
CN111325750B (zh) | 一种基于多尺度融合u型链神经网络的医学图像分割方法 | |
CN110648331B (zh) | 用于医学图像分割的检测方法、医学图像分割方法及装置 | |
Wang et al. | Multiscale deep alternative neural network for large-scale video classification | |
CN112070685A (zh) | Hifu治疗***的动态软组织运动预测的方法 | |
Cheng et al. | DDU-Net: A dual dense U-structure network for medical image segmentation | |
CN116524307A (zh) | 一种基于扩散模型的自监督预训练方法 | |
Chen et al. | Double paths network with residual information distillation for improving lung CT image super resolution | |
CN113283283A (zh) | 基于掩码指导特征净化的非监督视频目标分割方法 | |
Wei et al. | Predicting atypical visual saliency for autism spectrum disorder via scale-adaptive inception module and discriminative region enhancement loss | |
CN117935289A (zh) | 一种基于分类器的扩散模型图形符号异常识别与校正方法 | |
CN114549394A (zh) | 一种基于深度学习的肿瘤病灶区域语义分割方法及*** | |
CN113538363A (zh) | 一种基于改进U-Net的肺部医学影像分割方法及装置 | |
CN117437423A (zh) | 基于sam协同学习和跨层特征聚合增强的弱监督医学图像分割方法及装置 | |
CN116958693A (zh) | 图像分析方法、装置、设备、存储介质和程序产品 | |
CN116543146A (zh) | 一种基于窗口自注意与多尺度机制的图像密集描述方法 | |
CN113469962B (zh) | 一种面向癌症病变检测的特征提取和图文融合方法及*** | |
CN113298827B (zh) | 一种基于DP-Net网络的图像分割方法 | |
CN114820636A (zh) | 一种三维医学图像分割模型及其训练方法和应用 | |
CN112116626B (zh) | 一种基于柔性卷积的单目标跟踪方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |