CN111062395A - 一种实时的视频语义分割方法 - Google Patents

一种实时的视频语义分割方法 Download PDF

Info

Publication number
CN111062395A
CN111062395A CN201911185021.4A CN201911185021A CN111062395A CN 111062395 A CN111062395 A CN 111062395A CN 201911185021 A CN201911185021 A CN 201911185021A CN 111062395 A CN111062395 A CN 111062395A
Authority
CN
China
Prior art keywords
semantic segmentation
key frame
training
layer
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911185021.4A
Other languages
English (en)
Other versions
CN111062395B (zh
Inventor
赵三元
吴俊蓉
文宗正
黄科乐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN201911185021.4A priority Critical patent/CN111062395B/zh
Publication of CN111062395A publication Critical patent/CN111062395A/zh
Application granted granted Critical
Publication of CN111062395B publication Critical patent/CN111062395B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于计算机视觉领域,涉及一种实时的视频语义分割方法。该方法包括如下步骤:步骤1:选择训练和测试数据集;步骤2:构建基于图像的骨干网络;步骤3:使用训练数据集对骨干网络进行预训练;步骤4:构建整体的视频语义分割模型;步骤5:在训练数据集上对整体视频语义分割模型进行训练;步骤6:输入测试集的视频帧,在已训练好的视频语义分割模型中进行前向传播,端到端地输出预测的语义分割结果。本发明方法推理速度快,能够满足实时性的要求;准确率高,能够准确实现视频语义分割,具有很强地实用性。

Description

一种实时的视频语义分割方法
技术领域
本发明属于计算机视觉领域,涉及一种实时的视频语义分割方法。
背景技术
语义分割是计算机视觉领域的一项基本任务,其目的在于为给定图像中的每一个像素预测一个语义标签。受到深度学习的启发,这项任务拥有了崭新的发展方向,特别是全卷积网络的提出,使图像语义分割效果达到了里程碑般的新高度。而由于视频信息比图像信息多一个时间维度并且存在大量冗余信息,视频语义分割往往更加复杂。
直接将基于图像的语义分割方法来分割视频中的每一帧非常耗时,并且无法充分利用帧间的相关性,因此无法得到满意的性能。现存的视频语义分割方法可以根据如何利用时间信息来大致分类,主要包括采用3D卷积来编码运动和结构特征的方法、采用循环神经网络来汇总逐帧信息的方法、采用CRF来建模空间和时间上下文的方法以及采用独立的网络来计算光流并传播特征的方法。然而基于3D卷积的方法可以看作一种信息聚合的方式,将整个视频段的信息作为输入,处理效率不高,基于循环神经网络的方法也存在类似的缺点。而由于CRF的推理复杂,因此基于CRF的方法需要高昂的计算成本。基于光流的方法难以实现精确的光流估计,费时并且总是存在未对准的情况。大部分现存方法处理视频帧速度慢,无法达到实时,而实时的速度在很多视频语义分割的实际应用中是必要的,比如自动驾驶和智能监控等。
综上所述,目前的视频语义分割方法需要充分利用帧间一致性,减少相邻视频帧之间的信息冗余并进一步节省推理时间。
发明内容
本发明的目的是为了解决现有技术中的视频语义分割推理速度慢的问题,提供一种实时的视频语义分割方法。
本发明的工作原理和过程为:为了解决现有问题,首先提出了一种轻量级、高效、实时的基于图像的网络作为整体视频语义分割方法的强大骨干网洛。骨干网络采用编码器-解码器体系结构,在编码器中提出了残差双分支深度可分离卷积模块(RDDS模块),以有效地捕获细节信息并有效地减少计算量。为了实现特征传播,采用关键帧选择机制并提出一个独特的整体注意力模块来指示非关键帧与其先前关键帧之间的空间相关性。更具体地说,使用我们提出的基于注意力的特征传播架构来构建实时全卷积网络。首先,根据固定关键帧选择机制将输入帧分为关键帧和非关键帧。对于关键帧,采用整个骨干网络来多层次地提取丰富的空间信息以进行特征传播。非关键帧无需浪费大量时间来通过整个骨干网提取冗余特征,而只需通过骨干网的低层网络提取低层特征,保留空间细节,然后融合该低层特征与传播得到的乘上注意力权重的前一个关键帧的高层特征。为了有效地实现传播,本发明提出了一种基于注意力的方法:以非关键帧及其对应关键帧的低级特征图为输入,通过计算特征图的任意两个位置之间的空间相似度来获得整体注意力图A,A中每个位置的值都表示关键帧与非关键帧对应位置之间的相关性。由于整体注意力图集成了两帧之间的每个像素相关性,因此可以将其视为捕获帧间一致性信息的空间转换指导。通过将注意力权重应用于相应关键帧的高层特征来获得预测的非关键帧的高层特征,然后,将其与非关键帧的低级功能相融合,以补充先前关键帧中不存在的新信息,从而增强了处理复杂且不断变化的场景的能力。所提出的模型是可导的和可端到端训练的。
本发明的目的是通过以下技术方案实现的。
一种实时的视频语义分割方法,包括如下步骤:
步骤1、选择训练和测试数据集;
步骤2、构建基于图像的骨干网络;
步骤3、使用训练数据集对骨干网络进行预训练;
步骤4、构建整体的视频语义分割模型;
步骤5、在训练数据集上对整体视频语义分割模型进行训练;
步骤6、输入测试集的视频帧,在已训练好的视频语义分割模型中进行前向传播,端到端地输出预测的语义分割结果。
步骤2中所述的基于图像的骨干网络采用编码器-解码器架构。编码器包含残差双分支深度可分离卷积模块(RDDS模块)和下采样模块,其中残差双分支深度可分离卷积模块包含两个对称分支,每个分支包含1个深度可分离卷积层、1个深度可分离扩张卷积层、3个批量标准化(BatchNormalization)层、1个线性整流函数(ReLU)激活层和1个丢弃(dropout)层,两个分支结果连接(Concat)之后再经过一个1×1卷积核的卷积层以及一个ReLU激活层。下采样模块由一个最大池化层和一个3×3卷积核的卷积层Concat后构成。解码器包含一个1×1卷积核的卷积层和一个8倍双线性上采样层。
步骤3包括:
步骤3.1:对训练数据集中的图像进行预处理和数据增强,将图像重定义大小为固定数值,使用水平翻转、平移和颜色(包括亮度、饱和度和对比度)变化的数据增强方式;
步骤3.2:对整个图像语义分割模型进行初始化;
步骤3.3:记训练过程中模型预测的语义分割结果与标注图像的交叉熵损失为loss。
步骤4所述的整体的视频语义分割模型是基于关键帧选择机制,首先以第二个下采样层为界,把骨干网络的编码器部分分成低层网络和高层网络两部分。如果当前输入的视频帧是关键帧,则使用整个骨干网络进行计算,并得到低层特征图Flk和高层特征图Fhk;如果当前输入是非关键帧,则只使用编码器的低层网络计算非关键帧得到特征图Fln,然后使用整体注意力模块来实现特征传播,把Fln和前一关键帧的Flk作为输入通过矩阵乘法计算得到整体注意力图A,再将前一关键帧的Fhk与A相乘得到预测的当前非关键帧的高层特征图Fhn,将Fhn与Fln相加来补充细节信息。两种情况下最终都需要通过解码器得到最终的语义分割结果。
步骤5包括:
步骤5.1、对训练数据集中的图像进行预处理和数据增强,将图像重定义大小为固定数值,使用水平翻转、平移和颜色(包括亮度、饱和度和对比度)变化的数据增强方式;
步骤5.2、加载骨干网络预训练好的模型参数,对整个视频语义分割模型进行初始化,每次输入一个关键帧-非关键帧图像对,每个连续视频片段包含1个关键帧和n个非关键帧;
步骤5.3、记训练过程中模型对非关键帧预测的语义分割结果与标注图像的交叉熵损失为loss。
对于步骤3和步骤5,根据loss使用随机剃度下降算法进行误差反向传播,用多项式学习策略,更新模型参数,得到训练好的语义分割模型。多项式学习策略中,学习率lr设置为:
Figure BDA0002292180050000041
其中,baselr为初始学习率,步骤3设置为5e-4,步骤5设置为3e-3;power设置化0.9。
有益效果
本发明与现有技术相比,其显著优点是:
(1)本发明方法推理速度快,能够满足实时性的要求;
(2)本发明方法准确率高,能够准确实现视频语义分割,具有实用性。
附图说明
图1为本发明的流程图;
图2为本发明的骨干网络结构图;
图3为本发明的残差双分支深度可分离卷积模块结构图;
图4为本发明的下采样模块结构图;
图5为本发明的视频语义分割模型结构图;
图6为本发明的整体注意力模块结构图;
图7为本发明在Cityscapes数据集上的部分实例。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例与附图,对本发明作进一步详细说明。
下面,将具体结合一个最优选的实施例,来对本发明进行更加清楚、完整的说明。
如图1所示,本发明的实时视频语义分割方法,包括如下步骤:
步骤1、选择训练和测试数据集;本实施例中以Cityscapes数据集的20类(其中1类为背景)场景类别为基准,训练骨干网络时使用Cityscapes(单帧图像)和Cityscapessequence(连续视频帧)数据集,训练整体视频语义分割模型时仅使用Cityscapessequence数据集,测试时都使用Cityscapes测试数据集。
步骤2、构建基于图像的骨干网络。
如图2所示,所述骨干网络采用编码器-解码器架构。编码器包含残差双分支深度可分离卷积模块(RDDS模块)和下采样模块,解码器包含一个1×1卷积核的卷积层和一个8倍双线性上采样层。
如图3所示,所述RDDS模块包含两个对称分支,每个分支包含1个深度可分离卷积层、1个深度可分离扩张卷积层、3个批量标准化(BatchNormalization)层、1个线性整流函数(ReLU)激活层和1个丢弃(dropout)层,两个分支结果连接(Concat)之后再经过一个1×1卷积核的卷积层以及一个ReLU激活层。RDDS模块能够有效地捕获细节信息并有效地减少计算量。
如图4所示,所述下采样模块用于进行下采样操作提取特征,由一个最大池化层和一个3×3卷积核的卷积层Concat后构成。
骨干网络的具体网络结构如表1所示:
表1 RDDS模块网络结构
Figure BDA0002292180050000051
步骤3、使用Cityscapes和Cityscapes sequence训练数据集对骨干网络进行预训练。
步骤3的过程为:
步骤3.1、对训练数据集中的图像进行预处理和数据增强,将图像重定义大小为固定数值,使用水平翻转、平移和颜色(包括亮度、饱和度和对比度)变化的数据增强方式;
步骤3.2、对整个图像语义分割模型进行初始化;
步骤3.3、记训练过程中模型预测的语义分割结果与标注图像的交叉熵损失为loss。
步骤4、构建整体的视频语义分割模型。
如图5所示,整体的视频语义分割模型基于关键帧选择机制,首先以第二个下采样层为界,把骨干网络的编码器部分分成低层网络和高层网络两部分。如果当前输入的视频帧是关键帧,则使用整个骨干网络进行计算,并得到低层特征图Flk和高层特征图Fhk;如果当前输入是非关键帧,则只使用编码器的低层网络计算非关键帧得到特征图Fln,然后使用整体注意力模块来实现特征传播,把Fln和前一关键帧的Flk作为输入通过矩阵乘法计算得到整体注意力图A,再将前一关键帧的Fhk与A相乘得到预测的当前非关键帧的高层特征图Fhn,将Fhn与Fln相加来补充细节信息。两种情况下最终都需要通过解码器得到最终的语义分割结果。
如图6所示,为了深入挖掘关键帧和非关键帧的低层特征图之间的空间相关性并实现特征传播,我们设计了整体注意力模块,通过该模块计算得到的注意力图隐式地包含了帧间一致性信息,可以视为特征传播的指导信息。整体注意力模块中的计算过程如下:
(1)通过骨干网络编码器第二个下采样模块计算后,得到关键帧和非关键帧低层特征图
Figure BDA0002292180050000061
将两者通道数减少,将Flk转置后与Fln做矩阵乘法得到图
Figure BDA0002292180050000062
(N=H×W);
(2)然后我们将A’输入两个并行分支以获得最大的点对点响应,分别在通道维度上对A’进行平均池化和最大池化,然后将两个分支的结果Concat起来以获得通道数为2的最大响应注意力图。
(3)最后,我们使用5×5卷积层将通道数减少为1,然后使用Sigmoid激活层将值限制为[-1,1],最终得到注意力图
Figure BDA0002292180050000071
步骤5、在Cityscapes sequence训练数据集上对整体视频语义分割模型进行训练。
步骤5的过程为:
步骤5.1、对训练数据集中的图像进行预处理和数据增强,将图像重定义大小为固定数值,使用水平翻转、平移和颜色(包括亮度、饱和度和对比度)变化的数据增强方式;
步骤5.2、加载骨干网络预训练好的模型参数,对整个视频语义分割模型进行初始化,每次输入一个关键帧-非关键帧图像对,每个连续视频片段包含1个关键帧和n个非关键帧;
步骤5.3、记训练过程中模型对非关键帧预测的语义分割结果与标注图像的交叉熵损失为loss。
对于步骤3和步骤5,根据loss使用随机剃度下降算法进行误差反向传播,用多项式学习策略,更新模型参数,得到训练好的语义分割模型。多项式学习策略中,学习率lr设置为:
Figure BDA0002292180050000072
其中,baselr为初始学习率,步骤3设置为5e-4,步骤5设置为3e-3;power设置化0.9。
步骤6、输入测试集的视频帧,在已训练好的视频语义分割模型中进行前向传播,端到端地输出预测的语义分割结果。
表2展示了本视频语义分割方法与其他最先进方法在准确率(mIoU)与推理速度上的比较,可见本方法在保持较高准确率的同时能够大幅度提升推理速度,当mIoU为60.6%时,推理速度可以达到131.6fps:
表2本视频语义分割方法与其他最先进方法的比较
Figure BDA0002292180050000073
图7展示了本发明在Cityscapes数据集上的部分实例。

Claims (6)

1.一种实时的视频语义分割方法,其特征在于,包括如下步骤:
步骤1、选择训练和测试数据集;
步骤2、构建基于图像的骨干网络;
步骤3、使用训练数据集对骨干网络进行预训练;
步骤4、构建整体的视频语义分割模型;
步骤5、在训练数据集上对整体视频语义分割模型进行训练;
步骤6、输入测试集的视频帧,在已训练好的视频语义分割模型中进行前向传播,端到端地输出预测的语义分割结果。
2.根据权利要求1所述的一种实时的视频语义分割方法,其特征在于:步骤2所述骨干网络采用编码器-解码器架构;编码器包含残差双分支深度可分离卷积模块和下采样模块,其中残差双分支深度可分离卷积模块包含两个对称分支,每个分支包含1个深度可分离卷积层、1个深度可分离扩张卷积层、3个批量标准化层、1个线性整流函数激活层和1个丢弃层,两个分支结果连接之后再经过一个1×1卷积核的卷积层以及一个线性整流函数激活层。下采样模块由一个最大池化层和一个3×3卷积核的卷积层连接后构成;解码器包含一个1×1卷积核的卷积层和一个8倍双线性上采样层。
3.根据权利要求1所述的一种实时的视频语义分割方法,其特征在于:步骤3包括:
步骤3.1:对训练数据集中的图像进行预处理和数据增强,将图像重定义大小为固定数值,使用水平翻转、平移和颜色(包括亮度、饱和度和对比度)变化的数据增强方式;
步骤3.2:对整个图像语义分割模型进行初始化;
步骤3.3:记训练过程中模型预测的语义分割结果与标注图像的交叉熵损失为loss。
4.根据权利要求1所述的一种实时的视频语义分割方法,其特征在于,步骤4所述整体的视频语义分割模型基于关键帧选择机制;首先以第二个下采样层为界,把骨干网络的编码器部分分成低层网络和高层网络两部分;如果当前输入的视频帧是关键帧,则使用整个骨干网络进行计算,并得到低层特征图Flk和高层特征图Fhk;如果当前输入是非关键帧,则只使用编码器的低层网络计算非关键帧得到特征图Fln,然后使用整体注意力模块来实现特征传播,把Fln和前一关键帧的Flk作为输入通过矩阵乘法计算得到整体注意力图A,再将前一关键帧的Fhk与A相乘得到预测的当前非关键帧的高层特征图Fhn,将Fhn与Fln相加来补充细节信息;两种情况下最终都需要通过解码器得到最终的语义分割结果。
5.根据权利要求1所述的一种实时的视频语义分割方法,其特征在于,步骤5包括:
步骤5.1:对训练数据集中的图像进行预处理和数据增强,将图像重定义大小为固定数值,使用水平翻转、平移和颜色(包括亮度、饱和度和对比度)变化的数据增强方式;
步骤5.2:加载骨干网络预训练好的模型参数,对整个视频语义分割模型进行初始化,每次输入一个关键帧-非关键帧图像对,每个连续视频片段包含1个关键帧和n个非关键帧;
步骤5.3:记训练过程中模型对非关键帧预测的语义分割结果与标注图像的交叉熵损失为loss。
6.根据权利要求1所述的一种实时的视频语义分割方法,其特征在于,对于步骤3和步骤5,根据loss使用随机剃度下降算法进行误差反向传播,用多项式学习策略,更新模型参数,得到训练好的语义分割模型;多项式学习策略中,学习率lr设置为:
Figure FDA0002292180040000021
其中,baselr为初始学习率,步骤3设置为5e-4,步骤5设置为3e-3;power设置为0.9。
CN201911185021.4A 2019-11-27 2019-11-27 一种实时的视频语义分割方法 Active CN111062395B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911185021.4A CN111062395B (zh) 2019-11-27 2019-11-27 一种实时的视频语义分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911185021.4A CN111062395B (zh) 2019-11-27 2019-11-27 一种实时的视频语义分割方法

Publications (2)

Publication Number Publication Date
CN111062395A true CN111062395A (zh) 2020-04-24
CN111062395B CN111062395B (zh) 2020-12-18

Family

ID=70299046

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911185021.4A Active CN111062395B (zh) 2019-11-27 2019-11-27 一种实时的视频语义分割方法

Country Status (1)

Country Link
CN (1) CN111062395B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112364822A (zh) * 2020-11-30 2021-02-12 重庆电子工程职业学院 一种自动驾驶视频语义分割***及方法
CN112651421A (zh) * 2020-09-04 2021-04-13 江苏濠汉信息技术有限公司 一种红外热成像输电线路防外破监测***及其建模方法
CN112862839A (zh) * 2021-02-24 2021-05-28 清华大学 一种地图要素语义分割鲁棒性增强方法和***
CN113177478A (zh) * 2021-04-29 2021-07-27 西华大学 一种基于迁移学习的短视频语义标注方法
CN113505680A (zh) * 2021-07-02 2021-10-15 兰州理工大学 基于内容的高时长复杂场景视频不良内容检测方法
CN113658189A (zh) * 2021-09-01 2021-11-16 北京航空航天大学 一种跨尺度特征融合的实时语义分割方法和***
CN116246075A (zh) * 2023-05-12 2023-06-09 武汉纺织大学 一种动态信息与静态信息结合的视频语义分割方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180082127A1 (en) * 2014-12-19 2018-03-22 Amazon Technologies, Inc. Video segmentation techniques
CN108229336A (zh) * 2017-12-13 2018-06-29 北京市商汤科技开发有限公司 视频识别及训练方法和装置、电子设备、程序和介质
CN108235116A (zh) * 2017-12-27 2018-06-29 北京市商汤科技开发有限公司 特征传播方法和装置、电子设备、程序和介质
CN109241972A (zh) * 2018-08-20 2019-01-18 电子科技大学 基于深度学习的图像语义分割方法
CN109919044A (zh) * 2019-02-18 2019-06-21 清华大学 基于预测进行特征传播的视频语义分割方法及装置
CN110147763A (zh) * 2019-05-20 2019-08-20 哈尔滨工业大学 基于卷积神经网络的视频语义分割方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180082127A1 (en) * 2014-12-19 2018-03-22 Amazon Technologies, Inc. Video segmentation techniques
CN108229336A (zh) * 2017-12-13 2018-06-29 北京市商汤科技开发有限公司 视频识别及训练方法和装置、电子设备、程序和介质
CN108235116A (zh) * 2017-12-27 2018-06-29 北京市商汤科技开发有限公司 特征传播方法和装置、电子设备、程序和介质
CN109241972A (zh) * 2018-08-20 2019-01-18 电子科技大学 基于深度学习的图像语义分割方法
CN109919044A (zh) * 2019-02-18 2019-06-21 清华大学 基于预测进行特征传播的视频语义分割方法及装置
CN110147763A (zh) * 2019-05-20 2019-08-20 哈尔滨工业大学 基于卷积神经网络的视频语义分割方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
YU WANG 等: "LEDNET: A LIGHTWEIGHT ENCODER-DECODER NETWORK FOR REAL-TIME SEMANTIC SEGMENTATION", 《ICIP2019》 *
YULE LI 等: "Low-Latency Video Semantic Segmentation", 《2018 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 *
王文冠 等: "视觉注意力检测综述", 《软件学报》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112651421A (zh) * 2020-09-04 2021-04-13 江苏濠汉信息技术有限公司 一种红外热成像输电线路防外破监测***及其建模方法
CN112651421B (zh) * 2020-09-04 2024-05-28 江苏濠汉信息技术有限公司 一种红外热成像输电线路防外破监测***及其建模方法
CN112364822A (zh) * 2020-11-30 2021-02-12 重庆电子工程职业学院 一种自动驾驶视频语义分割***及方法
CN112364822B (zh) * 2020-11-30 2022-08-19 重庆电子工程职业学院 一种自动驾驶视频语义分割***及方法
CN112862839A (zh) * 2021-02-24 2021-05-28 清华大学 一种地图要素语义分割鲁棒性增强方法和***
CN113177478A (zh) * 2021-04-29 2021-07-27 西华大学 一种基于迁移学习的短视频语义标注方法
CN113505680A (zh) * 2021-07-02 2021-10-15 兰州理工大学 基于内容的高时长复杂场景视频不良内容检测方法
CN113658189A (zh) * 2021-09-01 2021-11-16 北京航空航天大学 一种跨尺度特征融合的实时语义分割方法和***
CN113658189B (zh) * 2021-09-01 2022-03-11 北京航空航天大学 一种跨尺度特征融合的实时语义分割方法和***
CN116246075A (zh) * 2023-05-12 2023-06-09 武汉纺织大学 一种动态信息与静态信息结合的视频语义分割方法
CN116246075B (zh) * 2023-05-12 2023-07-21 武汉纺织大学 一种动态信息与静态信息结合的视频语义分割方法

Also Published As

Publication number Publication date
CN111062395B (zh) 2020-12-18

Similar Documents

Publication Publication Date Title
CN111062395B (zh) 一种实时的视频语义分割方法
CN112634276B (zh) 一种基于多尺度视觉特征提取的轻量级语义分割方法
CN110322446B (zh) 一种基于相似性空间对齐的域自适应语义分割方法
CN112699847B (zh) 基于深度学习的人脸特征点检测方法
CN110276354B (zh) 一种高分辨率街景图片语义分割训练与实时分割方法
CN111079532A (zh) 一种基于文本自编码器的视频内容描述方法
CN110569851B (zh) 门控多层融合的实时语义分割方法
CN111652081B (zh) 一种基于光流特征融合的视频语义分割方法
CN111832453B (zh) 基于双路深度神经网络的无人驾驶场景实时语义分割方法
CN111563507A (zh) 一种基于卷积神经网络的室内场景语义分割方法
CN113066089B (zh) 一种基于注意力引导机制的实时图像语义分割方法
CN114565770A (zh) 基于边缘辅助计算和掩模注意力的图像分割方法及***
CN113554032A (zh) 基于高度感知的多路并行网络的遥感图像分割方法
CN113870160A (zh) 一种基于变换器神经网络的点云数据处理方法
CN115830575A (zh) 一种基于Transformer与跨维度注意力的交通标志检测方法
CN116486080A (zh) 一种基于深度学习的轻量化图像语义分割方法
CN115496919A (zh) 基于窗口掩码策略的混合卷积-变压器架构及自监督方法
CN115995002B (zh) 一种网络构建方法及城市场景实时语义分割方法
CN110942463B (zh) 一种基于生成对抗网络的视频目标分割方法
CN113096133A (zh) 一种基于注意力机制的语义分割网络的构建方法
CN115909465A (zh) 人脸定位检测方法、图像处理设备以及可读存储介质
CN116310324A (zh) 一种基于语义分割的金字塔跨层融合解码器
CN116452472A (zh) 基于语义知识引导的低照度图像增强方法
CN114494284B (zh) 一种基于显式监督区域关系的场景解析模型及方法
CN115424012A (zh) 一种基于上下文信息的轻量图像语义分割方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant