CN116246075A - 一种动态信息与静态信息结合的视频语义分割方法 - Google Patents
一种动态信息与静态信息结合的视频语义分割方法 Download PDFInfo
- Publication number
- CN116246075A CN116246075A CN202310536770.7A CN202310536770A CN116246075A CN 116246075 A CN116246075 A CN 116246075A CN 202310536770 A CN202310536770 A CN 202310536770A CN 116246075 A CN116246075 A CN 116246075A
- Authority
- CN
- China
- Prior art keywords
- time sequence
- feature
- characteristic
- layer
- multiplied
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 61
- 230000003068 static effect Effects 0.000 title claims abstract description 41
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000012549 training Methods 0.000 claims abstract description 6
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 66
- 238000010586 diagram Methods 0.000 claims description 54
- 230000006870 function Effects 0.000 claims description 17
- 239000011159 matrix material Substances 0.000 claims description 17
- 230000004913 activation Effects 0.000 claims description 12
- 238000010606 normalization Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 5
- 230000008859 change Effects 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 abstract description 2
- 206010063385 Intellectualisation Diseases 0.000 abstract 1
- 230000004927 fusion Effects 0.000 abstract 1
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4038—Image mosaicing, e.g. composing plane images from plane sub-images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/13—Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2200/00—Indexing scheme for image data processing or generation, in general
- G06T2200/32—Indexing scheme for image data processing or generation, in general involving image mosaicing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Medical Informatics (AREA)
- Computational Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Algebra (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本发明公开了一种动态信息与静态信息结合的视频语义分割方法,所述的视频语义分割方法包含如下步骤:首先构建动静态信息融合的视频语义分割网络,接着设计损失函数,通过在视频语义分割数据集上训练得到视频语义分割模型,最后使用模型实现对视频的智能分割。本发明通过改进视频语义分割模型和损失函数提高了视频分割的平均交并比,提供了一种高精确度的视频语义分割网络构建策略,为视频分割的智能化提供的参考,大大节省了人工成本。
Description
技术领域
本发明涉及视频语义分割领域,并且更具体地,涉及一种动态信息与静态信息结合的视频语义分割方法。
背景技术
随着视频数量的迅速增长,如何分析和理解视频的内容就更加重要,视频语义分割作为内容理解的其中一个重要步骤,如何提高语义分割的准确性也是亟待解决的问题,相关技术中,视频语义分割所使用的信息较为单一,而视频识别场景通常较为复杂,单模态信息覆盖的场景较少,降低了语义分割的准确性。
公开号为CN113139502A的中国专利公开了“一种视频语义分割方法、装置、电子设备及存储介质”,提出通过多模态图片信息提升图像分割的准确度,其在二分类领域确实已经足够了,但是推广到多分类领域仅通过多模态图像来分割,分割精度是远远不够的。
发明内容
针对现有技术的以上缺陷或者改进需求,本发明提供了一种动态信息与静态信息结合的视频语义分割方法,其目的在于实现对视频的有效分割,提高视频语义分割的准确度。
为实验上述目的,按照本发明的一个方面,提供了一种动态信息与静态信息结合的视频语义分割方法,包括以下步骤:
步骤1,构建动态信息与静态信息结合的视频语义分割网络架构;
所述视频语义分割网络架构设置了3个参考系,分别用于处理当前时刻T的视频帧,时刻T-1的视频帧和时刻T-2的视频帧;每一个参考系都使用时序特征编码器来提取特征,并通过一个卷积层输出对应参考系的特征图;将第二个参考系的输出特征图与第三个参考系的输出特征图拼接,送入位置学习模块学习位置信息得到动态信息特征图,然后将动态信息特征图与第一个参考系的输出特征图经过位置学习模块学习后得到的静态信息特征图相加得到具有动态信息与静态信息的特征表示,然后将这个具有动态信息与静态信息的特征表示送入位置学习模块进行学习后送入解码器进行特征解码,最后求每一个对应像素点类别预测最大值的下标得到最终的预测掩码;
步骤2,设计损失函数,在数据集上训练得到视频语义分割模型;
步骤3,使用视频语义分割模型,实现对视频的智能分割。
进一步的,所述时序特征编码器分为四层时序特征编码层,其中前两层是由时序特征残差块组成,后两层是由时序特征随机丢弃残差块组成;
其中,第一层和第二层时序特征编码层分别由K1个和K2个时序特征残差块组成,第三层和第四层时序特征编码层分别由K3个和K4个时序特征随机丢弃残差块组成;
时序特征残差块由卷积层,层归一化层,深度卷积层,激活层和卷积层组成,输入时序特征残差块的特征图依次经过这些层,然后再通过残差分支与输入时序特征残差块的特征图进行特征图相加操作输出特征图;时序特征随机丢弃残差块由卷积层,层归一化层,激活层,卷积层和随机丢弃层组成,输入时序特征随机丢弃残差块的特征图依次经过前四层,然后通过残差分支与输入时序特征随机丢弃残差块的特征图进行特征图相加操作,再经过一个随机丢弃层后输出特征图;
进一步的,激活层使用的是RELU激活函数,随机丢弃层采用的是Drop path操作。
进一步的,时序特征编码器的前两层时序特征编码层中的第一个时序特征残差块的第一个5×5卷积层,设置步长为2用来缩小特征图的高宽,此时在时序特征残差块的残差分支使用一个2×2卷积层用来缩小特征图的高宽来保持特征图相加时的特征图的大小一致性,其他的时序特征残差块不进行此操作;时序特征编码器的后两层时序特征编码层中的第一个时序特征随机丢弃残差块的第一个7×7卷积层,设置步长为2用来缩小特征图的高宽,此时在时序特征残差块的残差分支使用一个2×2卷积层用来缩小特征图的高宽来保持特征图相加时的特征图的大小一致性,其他的时序特征随机丢弃残差块不进行此操作。
进一步的,位置学习模块的具体处理过程如下;
当特征图输入到位置学习模块后,会被分成三条支路同时进行特征图变形操作,将维度为C×H×W的特征图后两维进行合并维度变成C×(H×W),然后第一条支路会进行维度变换将第一维和第二维进行维度调换特征图维度变成 (H×W) ×C,再进行第一条支路和第二条支路的矩阵乘法并将得到的矩阵与第三条支路上的矩阵进行矩阵乘法,这两次操作先得到一个(H×W) ×(H×W) 矩阵,然后得到C×(H×W)矩阵,将矩阵变形得到C×H×W的张量;最后,先进行1×1卷积得到1×H×W,然后再将这个特征图与输入位置学习模块之前的特征图进行对应位置的相加,得到最终的输出结果。
进一步的,第一个参考系的时序特征编码器输出的特征图通过一个5×5卷积来提取特征,输出第一个参考系的特征图;第二个参考系的时序特征编码器输出的特征图通过一个7×7卷积来提取特征,输出第二个参考系的特征图。第三个参考系的时序特征编码器输出的特征图通过一个11×11卷积来提取特征,输出第三个参考系的特征图。
进一步的,所述步骤2中设计的损失函数为位置加权损失函数Lp由两部分损失L1和L2组成,L1和L2具体公式如下:
公式L1和L2中C是像素的类别数量,N是表示掩码中的像素数量,yij表示第i个像素对于第j种类别的真实标签,pij表示第i个像素的第j个类别的预测概率,αj是对不同的类别j设置不同的权重,wi是位置权重,为不同位置的像素分配不同的权重,ε是一个极小值,用于避免分母为0的情况;L1和L2组成位置加权损失函数Lp的公式如下:
其中,λ为损失权重用来控制后一部分损失的权重;|1- L2|是对1- L2部分求绝对值。
进一步的,αj的取值由分割对象决定,容易分割的对象分配的权重比其他对象的权重小;wi的取值由像素在图像中所处的位置决定,在图像中部的像素的位置权重比图像边缘的像素的位置权重大。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
(1)通过改进网络结构加深网络的深度并在网络的深层加入随机丢弃层,可防止网络过拟合提高网络的学习能力和泛化性。
(2)设计了一个损失函数可以同时关注像素级的预测和对象边缘信息的预测情况。
(3)设计了一个位置学习模块,通过矩阵乘法和卷积来学习特征图中位置的相关性,并对特征图赋予位置权重,增加网络对动态信息和静态信息的敏感度,提升分割的准确度。
附图说明
图1 本发明实施例提供的一种动态信息与静态信息结合的视频语义分割方法的技术方案流程图。
图2本发明实施例提供的一种动态信息与静态信息结合的视频语义分割方法的时序特征残差块结构示意图。
图3本发明实施例提供的一种动态信息与静态信息结合的视频语义分割方法的时序特征随机丢弃残差块结构示意图。
图4本发明实施例提供的一种动态信息与静态信息结合的视频语义分割方法的位置学习模块结构示意图。
图5本发明实施例提供的一种动态信息与静态信息结合的视频语义分割方法的网络框架示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明提供的一种动态信息与静态信息结合的视频语义分割方法的技术方案,请参见附图1,图1是实施用例提供的一种动态信息与静态信息结合的视频语义分割方法的技术方案流程图,具体包含如下步骤:
(1)构建动态信息与静态信息结合的视频语义分割网络架构;
具体的,动态信息与静态信息结合的视频语义分割网络结构,请参见附图5,图5是实施用例提供的一种基于动态信息与静态信息结合的视频语义分割方法的网络框架示意图。
首先,网络设置了3个参考系,分别用于处理当前时刻T的视频帧,时刻T-1的视频帧和时刻T-2的视频帧。而在特殊情况下如当前时刻T的视频帧是第一帧时,那么时刻T-1和时刻T-2的参考系使用当前时刻T的视频帧,而如当前时刻T的视频帧是第二帧时,那么时刻T-1和时刻T-2的参考系使用时刻T-1的视频帧。
其次,网络的每一个参考系都使用了时序特征编码器来提取特征,这里3个参考系的时序特征编码器的结构是相同的。第一个参考系的时序特征编码器输出的特征图通过一个5×5卷积来提取特征,输出第一个参考系的特征图。第二个参考系的时序特征编码器输出的特征图通过一个7×7卷积来提取特征,输出第二个参考系的特征图。第三个参考系的时序特征编码器输出的特征图通过一个11×11卷积来提取特征,输出第三个参考系的特征图。通过使用不同尺度的卷积来整合不同时刻视频帧的信息,时刻越远的话使用的卷积核越大,因为需要分割的对象与当前时刻的差异较大,需要更大的卷积核来进行特征表示。
最后,将第二个参考系的输出特征图与第三个参考系的输出特征图拼接,送入位置学习模块学习位置信息得到动态信息特征图,这里的位置学习模块,请参见附图4,图4是实施用例提供的一种基于动态信息与静态信息结合的视频语义分割方法的位置学习模块结构示意图,将动态信息特征图与第一个参考系的输出特征图经过位置学习模型学习后得到的静态信息特征图相加得到具有动态信息与静态信息的特征表示,然后将这个具有动态信息与静态信息的特征表示送入位置学习模块进行学习后送入解码器进行特征解码,最后求每一个对应像素点类别预测最大值的下标得到最终的预测掩码。
这里使用的解码器为视频分割领域常用的两阶段特征图解码结构。
具体的,时序特征编码器是由两种残差块组成,这两种残差块分别是时序特征残差块和时序特征随机丢弃残差块,请参见附图2和附图3,图2是实施用例提供的一种基于动态信息与静态信息结合的视频语义分割方法的时序特征残差块结构示意图,图3是实施用例提供的一种基于动态信息与静态信息结合的视频语义分割方法的时序特征随机丢弃残差块结构示意图。时序特征编码器可以分为四层时序特征编码层,其中前两层是由时序特征残差块组成,后两层是由时序特征随机丢弃残差块组成。
其中,第一层和第二层时序特征编码层分别由4个和6个时序特征残差块组成,第三层和第四层时序特征编码层分别由9个和15个时序特征随机丢弃残差块组成,上述数值是通过实验确定的最好参数。
具体的,位置学习模块的具体操作:当特征图输入到位置学习模块后,会被分成三条支路同时进行特征图变形操作,将维度为C×H×W的特征图后两维进行合并维度变成C×(H×W),然后第一条支路会进行维度变换将第一维和第二维进行维度调换特征图维度变成(H×W) ×C,再进行第一条支路和第二条支路的矩阵乘法并将得到的矩阵与第三条支路上的矩阵进行矩阵乘法,这两次操作先得到一个(H×W) ×(H×W) 矩阵,然后得到C×(H×W)矩阵,将矩阵变形得到C×H×W的张量。最后,先进行1×1卷积得到1×H×W,然后再将这个特征图与输入位置学习模块之前的特征图进行对应位置的相加,得到最终的输出结果。
具体的,时序特征残差块和时序随机丢弃残差块的具体构成。时序特征残差块由5×5卷积层,层归一化层,3×3深度卷积层,激活层和1×1卷积层组成,输入时序特征残差块的特征图依次经过这些层,然后再通过残差分支与输入时序特征残差块的特征图进行特征图相加操作输出特征图。时序特征随机丢弃残差块由7×7卷积层,层归一化层,激活层,1×1卷积层和随机丢弃层组成,输入时序特征随机丢弃残差块的特征图依次经过前四层,然后通过残差分支与输入时序特征随机丢弃残差块的特征图进行特征图相加操作,再经过一个随机丢弃层后输出特征图。这里的激活层使用的是RELU激活函数,随机丢弃层采用的是Drop path操作。
具体的,时序特征编码器中两种残差块的具体设置。时序特征编码器的前两层时序特征编码层中的第一个时序特征残差块的第一个5×5卷积层,设置步长为2用来缩小特征图的高宽,此时在时序特征残差块的残差分支会使用一个2×2卷积层用来缩小特征图的高宽来保持特征图相加时的特征图的大小一致性,其他的时序特征残差块不进行此操作,这里这样设置的原因是:特征编码层的步长设置成2才可以缩小特征图的大小,其他特征编码层只需要学习特征,不需要缩小特征图大小。时序特征编码器的后两层时序特征编码层中的第一个时序特征随机丢弃残差块的第一个7×7卷积层,设置步长为2用来缩小特征图的高宽,此时在时序特征残差块的残差分支会使用一个2×2卷积层用来缩小特征图的高宽来保持特征图相加时的特征图的大小一致性,其他的时序特征随机丢弃残差块不进行此操作。
(2)设计损失函数,在城市景观数据集上训练得到视频语义分割模型,其中城市景观数据集有19种分类,图片的标签以单通道图像来存储图片中的像素值范围是0到18,每一种类别对应一种像素值实现像素维度上的分类,常称为掩码图;
具体的,所述步骤2中设计的损失函数为位置加权损失数Lp由两部分损失L1和L2组成,L1和L2具体公式如下:
公式L1和L2中C是像素的类别数量,N是表示掩码中的像素数量,yij表示第i个像素对于第j种类别的真实标签,pij表示第i个像素的第j个类别的预测概率,αj是对不同的类别j设置不同的权重,根据实验效果对容易分割的对象如背景和人等分配较低的权重,而对其他的类别分配较大一些权重,通常这两种权重的比值是9:10,wi是位置权重,为不同位置的像素分配不同的权重,其中在图像中部的位置权重比图像边缘的权重大,分别为1.1和1,ε是一个极小值通常设置为0.0004,用于避免分母为0的情况。L1和L2组成位置加权损失函数Lp的公式如下:
其中,λ为损失权重用来控制后一部分损失的权重,通常设置为0.8。|1- L2|是对1- L2部分求绝对值,这部分损失表示在L2尽可能小的同时保持1- L2也尽可能小,可以使网络训练更加关注于边界像素分割的准确性。位置加权损失函数Lp进行这样的组合可以使网络训练即关注整体的分割情况,也关注边缘信息的分割情况。
(3)使用视频语义分割模型,实现对视频的智能分割。
本发明提供一种动态信息与静态信息结合的视频语义分割方法,可以通过改进网络结果,设计损失函数,实现对视频高效分割,解决的视频分割需要人工实现的问题,提供了高准确性的视频分割网络构建策略。在城市景观数据集上相对于现有的视频语义分割先进方法在平均交并比指标上有0.8%的提升。
本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (8)
1.一种动态信息与静态信息结合的视频语义分割方法,其特征在于,包括以下步骤:
步骤1,构建动态信息与静态信息结合的视频语义分割网络架构;
所述视频语义分割网络架构设置了3个参考系,分别用于处理当前时刻T的视频帧,时刻T-1的视频帧和时刻T-2的视频帧;每一个参考系都使用时序特征编码器来提取特征,并通过一个卷积层输出对应参考系的特征图;之后将第二个参考系的输出特征图与第三个参考系的输出特征图拼接,送入位置学习模块学习位置信息得到动态信息特征图,然后将动态信息特征图与第一个参考系的输出特征图经过位置学习模块学习后得到的静态信息特征图相加得到具有动态信息与静态信息的特征表示,然后将这个具有动态信息与静态信息的特征表示送入位置学习模块进行学习后送入解码器进行特征解码,最后求每一个对应像素点类别预测最大值的下标得到最终的预测掩码;
步骤2,设计损失函数,在数据集上训练得到视频语义分割模型;
步骤3,使用视频语义分割模型,实现对视频的智能分割。
2.如权利要求1所述的一种动态信息与静态信息结合的视频语义分割方法,其特征在于:所述时序特征编码器分为四层时序特征编码层,其中前两层是由时序特征残差块组成,后两层是由时序特征随机丢弃残差块组成;
其中,第一层和第二层时序特征编码层分别由K1个和K2个时序特征残差块组成,第三层和第四层时序特征编码层分别由K3个和K4个时序特征随机丢弃残差块组成;
时序特征残差块由卷积层,层归一化层,深度卷积层,激活层和卷积层组成,输入时序特征残差块的特征图依次经过这些层,然后再通过残差分支与输入时序特征残差块的特征图进行特征图相加操作输出特征图;时序特征随机丢弃残差块由卷积层,层归一化层,激活层,卷积层和随机丢弃层组成,输入时序特征随机丢弃残差块的特征图依次经过前四层,然后通过残差分支与输入时序特征随机丢弃残差块的特征图进行特征图相加操作,再经过一个随机丢弃层后输出特征图。
3.如权利要求2所述的一种动态信息与静态信息结合的视频语义分割方法,其特征在于:激活层使用的是RELU激活函数,随机丢弃层采用的是Drop path操作。
4.如权利要求2所述的一种动态信息与静态信息结合的视频语义分割方法,其特征在于:时序特征编码器的前两层时序特征编码层中的第一个时序特征残差块的第一个5×5卷积层,设置步长为2用来缩小特征图的高宽,此时在时序特征残差块的残差分支使用一个2×2卷积层用来缩小特征图的高宽来保持特征图相加时的特征图的大小一致性,其他的时序特征残差块不进行此操作;时序特征编码器的后两层时序特征编码层中的第一个时序特征随机丢弃残差块的第一个7×7卷积层,设置步长为2用来缩小特征图的高宽,此时在时序特征残差块的残差分支使用一个2×2卷积层用来缩小特征图的高宽来保持特征图相加时的特征图的大小一致性,其他的时序特征随机丢弃残差块不进行此操作。
5.如权利要求1所述的一种动态信息与静态信息结合的视频语义分割方法,其特征在于:位置学习模块的具体处理过程如下;
当特征图输入到位置学习模块后,会被分成三条支路同时进行特征图变形操作,将维度为C×H×W的特征图后两维进行合并维度变成C×(H×W),然后第一条支路会进行维度变换将第一维和第二维进行维度调换特征图维度变成 (H×W) ×C,再进行第一条支路和第二条支路的矩阵乘法并将得到的矩阵与第三条支路上的矩阵进行矩阵乘法,这两次操作先得到一个(H×W) ×(H×W) 矩阵,然后得到C×(H×W)矩阵,将矩阵变形得到C×H×W的张量;最后,先进行1×1卷积得到1×H×W,然后再将这个特征图与输入位置学习模块之前的特征图进行对应位置的相加,得到最终的输出结果。
6.如权利要求1所述的一种动态信息与静态信息结合的视频语义分割方法,其特征在于:第一个参考系的时序特征编码器输出的特征图通过一个5×5卷积来提取特征,输出第一个参考系的特征图;第二个参考系的时序特征编码器输出的特征图通过一个7×7卷积来提取特征,输出第二个参考系的特征图;第三个参考系的时序特征编码器输出的特征图通过一个11×11卷积来提取特征,输出第三个参考系的特征图。
7.如权利要求1所述的一种动态信息与静态信息结合的视频语义分割方法,其特征在于:所述步骤2中设计的损失函数为位置加权损失函数Lp由两部分损失L1和L2组成,L1和L2具体公式如下:
公式L1和L2中C是像素的类别数量,N是表示掩码中的像素数量,yij表示第i个像素对于第j种类别的真实标签,pij表示第i个像素的第j个类别的预测概率,αj是对不同的类别j设置不同的权重,wi是位置权重,为不同位置的像素分配不同的权重,ε是一个极小值,用于避免分母为0的情况;L1和L2组成位置加权损失函数Lp的公式如下:
其中,λ为损失权重用来控制后一部分损失的权重;|1- L2|是对1- L2部分求绝对值。
8.如权利要求7所述的一种动态信息与静态信息结合的视频语义分割方法,其特征在于:αj的取值由分割对象决定,容易分割的对象分配的权重比其他对象的权重小;wi的取值由像素在图像中所处的位置决定,在图像中部的像素的位置权重比图像边缘的像素的位置权重大。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310536770.7A CN116246075B (zh) | 2023-05-12 | 2023-05-12 | 一种动态信息与静态信息结合的视频语义分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310536770.7A CN116246075B (zh) | 2023-05-12 | 2023-05-12 | 一种动态信息与静态信息结合的视频语义分割方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116246075A true CN116246075A (zh) | 2023-06-09 |
CN116246075B CN116246075B (zh) | 2023-07-21 |
Family
ID=86633542
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310536770.7A Active CN116246075B (zh) | 2023-05-12 | 2023-05-12 | 一种动态信息与静态信息结合的视频语义分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116246075B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200092552A1 (en) * | 2018-09-18 | 2020-03-19 | Google Llc | Receptive-Field-Conforming Convolutional Models for Video Coding |
CN111050219A (zh) * | 2018-10-12 | 2020-04-21 | 奥多比公司 | 用于定位视频内容中的目标对象的空间-时间记忆网络 |
CN111062395A (zh) * | 2019-11-27 | 2020-04-24 | 北京理工大学 | 一种实时的视频语义分割方法 |
CN111652899A (zh) * | 2020-05-29 | 2020-09-11 | 中国矿业大学 | 一种时空部件图的视频目标分割方法 |
CN113570610A (zh) * | 2021-07-26 | 2021-10-29 | 北京百度网讯科技有限公司 | 采用语义分割模型对视频进行目标分割的方法、装置 |
CN114596520A (zh) * | 2022-02-09 | 2022-06-07 | 天津大学 | 一种第一视角视频动作识别方法及装置 |
CN114663460A (zh) * | 2022-02-28 | 2022-06-24 | 华南农业大学 | 基于双流驱动编码器和特征记忆模块的视频分割方法及装置 |
CN114973071A (zh) * | 2022-05-11 | 2022-08-30 | 中国科学院软件研究所 | 基于长短期时序特征的无监督视频目标分割方法及*** |
US20230035475A1 (en) * | 2021-07-16 | 2023-02-02 | Huawei Technologies Co., Ltd. | Methods and systems for semantic segmentation of a point cloud |
-
2023
- 2023-05-12 CN CN202310536770.7A patent/CN116246075B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200092552A1 (en) * | 2018-09-18 | 2020-03-19 | Google Llc | Receptive-Field-Conforming Convolutional Models for Video Coding |
CN111050219A (zh) * | 2018-10-12 | 2020-04-21 | 奥多比公司 | 用于定位视频内容中的目标对象的空间-时间记忆网络 |
CN111062395A (zh) * | 2019-11-27 | 2020-04-24 | 北京理工大学 | 一种实时的视频语义分割方法 |
CN111652899A (zh) * | 2020-05-29 | 2020-09-11 | 中国矿业大学 | 一种时空部件图的视频目标分割方法 |
US20230035475A1 (en) * | 2021-07-16 | 2023-02-02 | Huawei Technologies Co., Ltd. | Methods and systems for semantic segmentation of a point cloud |
CN113570610A (zh) * | 2021-07-26 | 2021-10-29 | 北京百度网讯科技有限公司 | 采用语义分割模型对视频进行目标分割的方法、装置 |
CN114596520A (zh) * | 2022-02-09 | 2022-06-07 | 天津大学 | 一种第一视角视频动作识别方法及装置 |
CN114663460A (zh) * | 2022-02-28 | 2022-06-24 | 华南农业大学 | 基于双流驱动编码器和特征记忆模块的视频分割方法及装置 |
CN114973071A (zh) * | 2022-05-11 | 2022-08-30 | 中国科学院软件研究所 | 基于长短期时序特征的无监督视频目标分割方法及*** |
Non-Patent Citations (5)
Title |
---|
SIYUE YU: "Fast pixel-matching for video object segmentation", 《SIGNAL PROCESSING:IMAGE COMMUNICATION》, vol. 98, pages 3 - 5 * |
余锋: "基于多头软注意力图卷积网络的行人轨迹预测", 《计算机应用》, vol. 43, no. 03, pages 736 - 743 * |
余锋: "针对多姿态迁移的虚拟试衣算法研究", 《武汉纺织大学学报》, vol. 35, no. 01, pages 3 - 9 * |
景庄伟;管海燕;彭代峰;于永涛;: "基于深度神经网络的图像语义分割研究综述", 《计算机工程》, vol. 46, no. 10, pages 1 - 17 * |
王婷婷: "面向道路交通场景的行人智能检测方法研究", 《中国优秀硕士学位论文全文数据库(工程科技Ⅱ辑), no. 02, pages 034 - 1395 * |
Also Published As
Publication number | Publication date |
---|---|
CN116246075B (zh) | 2023-07-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106960206B (zh) | 字符识别方法和字符识别*** | |
CN113052210B (zh) | 一种基于卷积神经网络的快速低光照目标检测方法 | |
CN111368636B (zh) | 目标分类方法、装置、计算机设备和存储介质 | |
CN112801027B (zh) | 基于事件相机的车辆目标检测方法 | |
CN112634296A (zh) | 门机制引导边缘信息蒸馏的rgb-d图像语义分割方法及终端 | |
CN111738169A (zh) | 一种基于端对端网络模型的手写公式识别方法 | |
CN113870335A (zh) | 一种基于多尺度特征融合的单目深度估计方法 | |
CN114187311A (zh) | 一种图像语义分割方法、装置、设备及存储介质 | |
CN112084859A (zh) | 一种基于稠密边界块和注意力机制的建筑物分割方法 | |
CN111429468B (zh) | 细胞核分割方法、装置、设备及存储介质 | |
CN112766056A (zh) | 一种基于深度神经网络的弱光环境车道线检测方法、装置 | |
CN117197763A (zh) | 基于交叉注意引导特征对齐网络的道路裂缝检测方法和*** | |
CN117975418A (zh) | 一种基于改进rt-detr的交通标识检测方法 | |
CN113901924A (zh) | 一种文档表格的检测方法及装置 | |
CN113436198A (zh) | 一种协同图像超分辨率重建的遥感图像语义分割方法 | |
CN116246075B (zh) | 一种动态信息与静态信息结合的视频语义分割方法 | |
CN116258756B (zh) | 一种自监督单目深度估计方法及*** | |
CN112418229A (zh) | 一种基于深度学习的无人船海上场景图像实时分割方法 | |
CN116543162A (zh) | 基于特征差值与上下文感知一致性的图像分割方法及*** | |
CN116597339A (zh) | 基于掩码引导半密集对比学习的视频目标分割方法 | |
CN114120202B (zh) | 一种基于多尺度目标模型和特征融合的半监督视频目标分割方法 | |
CN115205518A (zh) | 一种基于YOLO v5s网络结构的目标检测方法及其*** | |
CN114782995A (zh) | 一种基于自注意力机制的人交互行为检测方法 | |
CN114648755A (zh) | 一种轻量级移动状态下工业货箱的文本检测方法 | |
CN113378598A (zh) | 一种基于深度学习的动态条码检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |