CN110796662A - 一种实时的语义视频分割方法 - Google Patents

一种实时的语义视频分割方法 Download PDF

Info

Publication number
CN110796662A
CN110796662A CN201910859421.2A CN201910859421A CN110796662A CN 110796662 A CN110796662 A CN 110796662A CN 201910859421 A CN201910859421 A CN 201910859421A CN 110796662 A CN110796662 A CN 110796662A
Authority
CN
China
Prior art keywords
frame
segmentation
video
current
semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910859421.2A
Other languages
English (en)
Other versions
CN110796662B (zh
Inventor
冯君逸
李颂元
李玺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201910859421.2A priority Critical patent/CN110796662B/zh
Publication of CN110796662A publication Critical patent/CN110796662A/zh
Application granted granted Critical
Publication of CN110796662B publication Critical patent/CN110796662B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种实时的语义视频分割方法,用于对视频的语义分割算法进行大幅加速。具体包括如下步骤:1)获取用于训练语义分割的多组数据集,并定义算法目标;2)训练轻量级的图像语义分割CNN模型;3)对原始视频进行解码,得到残差图、运动向量以及RGB图像;4)如果当前帧为I帧,则将其送至2)中得到的分割模型,得到完整的分割结果;5)如果当前帧为P帧,则利用运动向量将其前一帧的分割结果传递至当前,并利用残差图选择当前帧的子块进行矫正;6)如此重复步骤4)、5)至完成所有视频帧的分割。本发明充分利用了视频中相邻帧的相关性,基于压缩域信息的加速处理能够在快速完成复杂分割任务的同时保持较高的准确率,效率比常见分割方法提高十数倍。

Description

一种实时的语义视频分割方法
技术领域
本发明属于计算机视觉领域,特别地涉及一种实时的语义视频分割方法。
背景技术
语义视频分割,是将视频每一帧的每一个像素指定一个语义类别的计算机视觉任务。实时的语义视频分割,则对分割的速度提出一定的要求,一般是24帧每秒以上。当前先进的语义视频分割方法都是基于卷积神经网络(CNN)的机器学习方法,它们大体上又可以分为基于连续图像帧和直接基于视频的两类。第一类方法将视频看成图像帧的序列,它们通过缩小输入数据的尺度或者裁剪网络的方式,牺牲一点分割准确率换取实时的语义分割性能。这类方法没有挖掘视频所蕴含的帧间连贯性。第二类方法在视频上通过光流、3DCNN、RNN等技术提取帧间连贯特征,但是这些技术本身比较耗时,它们本身会成为语义视频分割的瓶颈。
实际上,现有的压缩视频本身就已经包含了帧间连贯信息,即运动向量(Mv)和残差信息(Res)。这个信息的获取是非常快速的,利用它们可以大大加快语义视频分割的速度。然而,压缩视频提供的帧间连贯信息与光流等技术相比噪声较大,如何利用压缩信息的同时,又保证分割准确,就成了本方法解决的关键问题。
发明内容
为解决上述问题,本发明的目的在于提供一种实时的语义视频分割方法。该方法基于深度神经网络,以图像语义分割模型为基础,进一步利用了视频中相邻图片帧之间的强相关性,利用视频压缩域中的多模态运动信息进行快速推断,从而实现实时的语义视频分割效果。
为实现上述目的,本发明的技术方案为:
一种实时的语义视频分割方法,其包括以下步骤:
S1.获取用于训练语义分割的多组视频,并定义算法目标;
S2.训练轻量级的图像语义分割CNN模型;
S3.对视频进行解码,得到残差图、运动向量、RGB图像;
S4.对于视频中的当前帧,如果当前帧为I帧,则将其RGB图像送至S2中经过训练后的图像语义分割CNN模型,得到完整的分割结果;
S5.对于视频中的当前帧,如果当前帧为P帧,则利用运动向量将其前一帧的分割结果传递至当前,并利用残差图选择当前帧的子块进行矫正;
S6.针对视频中的所有帧重复步骤S3和S4,至完成所有视频帧的分割。
进一步的,步骤S1中,对于所述的用于视频语义分割的每一个视频V,定义算法目标为:检测视频V中每一帧图像的所有像素的分类。
进一步的,步骤S2中,训练轻量级的图像语义分割CNN模型具体包括:
S21.利用单张图片的卷积神经网络φ对图像中每一个像素进行分类提取,经其处理后的图像I的分类预测结果为φ(I);
S22.根据预测和给定的分类标签计算交叉熵损失,来优化网络φ中参数。
进一步的,步骤S3中,使用MPEG-4视频编解码标准对视频进行编解码,设定图片组GOP参数g、B帧比率β;当前帧时刻为t,则解码过程如下:
S31.若当前第t帧为I帧,则直接解码得到其RGB图像I(t);
S32.若当前第t帧为P帧,则首先部分解码得到其运动向量Mv(t)与残差向量Res(t),再依据像素域的平移及补偿变换进一步解码得到RGB图像I(t)。
进一步的,步骤S4中,如果当前第t帧为I帧,则按照如下算法对其进行语义分割:
S41.将当前RGB图像I(t)送入S2中训练完毕的图像语义分割CNN模型进行预测,得到其语义分割结果F(t)=φ(I(t))。
进一步的,步骤S5中,如果当前第t帧为P帧,则按照如下算法对其进行语义分割:
S51.使用当前帧的运动向量Mv(t)对前一帧的分割结果F(t-1)进行像素域的平移,得到当前帧的分割结果:
F(t)[p]=F(t-1)[p-Mv(t)[p]]
其中:F(t)[p]表示经过平移后得到当前第t帧的分割结果F(t)中像素位置p处的值;p为像素坐标;Mv(t)[p]指当前第t帧的运动向量图Mv(t)中像素位置p处的值;
S52.利用当前帧的残差图Res(t),从当前帧的所有子区域Ri中选出残差值大于阈值的像素点最多的子区域,作为待重分割子区域R(t):
Figure BDA0002199246040000031
其中Ri表示第i个候选子区域;Res(t)[p]表示残差图Res(t)中像素位置p处的残差值;THR是人为设定的阈值;Indicator表示指示函数,若|Res(t)[p]|>THR成立则其值为1,否则为0;
S53.对S52中得到R(t)子区域送入S2中训练完毕的图像语义分割CNN模型进行重分割,得到该子区域新的语义分割结果FR(t):
FR(t)=φ(I(t)[R(t)])
其中I(t)[R(t)]表示R(t)子区域的RGB图像;
S54.根据S53得到的子区域分割结果更新当前帧中R(t)子区域的分割结果:
F(t)[R(t)]=FR(t)
其中F(t)[R(t)]表示当前第t帧中R(t)子区域的分割结果。
基于S5步骤的非关键帧分割算法效率比逐帧通过CNN进行分割处理的方法高很多,通过避免对相似图像进行冗余的特征提取,方法对P帧的处理速度比逐帧处理高数十倍。
本发明充分利用了视频中相邻帧的相关性,基于压缩域信息的加速处理能够在快速完成复杂分割任务的同时保持较高的准确率,效率比常见分割方法提高十数倍。
附图说明
图1为本发明的的流程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
相反,本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本发明有更好的了解,在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。
如图1所示,一种实时的语义视频分割方法,该方法的步骤如下:
S1.获取用于训练语义分割的多组视频,并定义算法目标。在本步骤中,对于用于视频语义分割的每一个视频V,定义算法目标为:检测视频V中每一帧图像的所有像素的分类。
S2.训练轻量级的图像语义分割CNN模型。在本步骤中,训练轻量级的图像语义分割CNN模型具体包括:
S21.利用单张图片的卷积神经网络φ对图像中每一个像素进行分类提取,经其处理后的图像I的分类预测结果为φ(I);
S22.根据预测和给定的分类标签计算交叉熵损失,来优化网络φ中参数。
S3.对视频进行解码,得到残差图、运动向量、RGB图像。本步骤中,使用MPEG-4视频编解码标准对视频进行编解码,设定图片组GOP参数g、B帧比率β;当前帧时刻为t,则解码过程需要区分当前帧为I帧还是P帧,各自的解码过程如下:
S31.若当前第t帧为I帧,则直接解码得到其RGB图像I(t);
S32.若当前第t帧为P帧,则首先部分解码得到其运动向量Mv(t)与残差向量Res(t),再依据像素域的平移及补偿变换进一步解码得到RGB图像I(t)。
S4.对于视频中的当前帧,如果当前帧为I帧,则将其RGB图像送至S2中经过训练后的图像语义分割CNN模型,得到完整的分割结果。
本步骤中,如果当前第t帧为I帧,则按照如下算法对其进行语义分割:
S41.将当前RGB图像I(t)送入S2中训练完毕的图像语义分割CNN模型进行预测,得到其语义分割结果F(t)=φ(I(t))。
S5.对于视频中的当前帧,如果当前帧为P帧,则利用运动向量将其前一帧的分割结果传递至当前,并利用残差图选择当前帧的子块进行矫正。
本步骤中,如果当前第t帧为P帧,则按照如下算法对其进行语义分割:
S51.使用当前帧的运动向量Mv(t)对前一帧的分割结果F(t-1)进行像素域的平移,得到当前帧的分割结果:
F(t)[p]=F(t-1)[p-Mv(t)[p]]
其中:F(t)[p]表示经过平移后得到当前第t帧的分割结果F(t)中像素位置p处的值;p为像素坐标;Mv(t)[p]指当前第t帧的运动向量图Mv(t)中像素位置p处的值;
S52.当前帧图像可以通过网格化处理,对图片的长和宽分别等分,形成若干子块,即子区域。利用当前帧的残差图Res(t),从当前帧的所有子区域Ri中选出残差值大于阈值的像素点最多的子区域,作为待重分割子区域R(t):
其中Ri表示第i个候选子区域;Res(t)[p]表示残差图Res(t)中像素位置p处的残差值;THR是人为设定的阈值;Indicator表示指示函数,若|Res(t)[p]|>THR成立则其值为1,否则为0;
S53.对S52中得到R(t)子区域,我们认为其相较前一帧变化较大,且难以通过运动向量描述这种变化,因此对其进行重分割。因此将该子区域的RGB图像送入S2中训练完毕的图像语义分割CNN模型进行重分割,得到该子区域新的语义分割结果FR(t):
FR(t)=φ(I(t)[R(t)])
其中I(t)[R(t)]表示R(t)子区域的RGB图像;
S54.根据S53得到的子区域分割结果更新当前帧中R(t)子区域的分割结果:
F(t)[R(t)]=FR(t)
其中F(t)[R(t)]表示当前第t帧中R(t)子区域的分割结果。除了R(t)子区域之外,其余的子区域分割结果保持不变。
基于上述步骤的非关键帧分割算法效率比逐帧通过CNN进行分割处理的方法高很多,通过避免对相似图像进行冗余的特征提取,方法对P帧的处理速度比逐帧处理高数十倍。
S6.针对视频中的所有帧重复步骤S3和S4,直至视频流处理结束即可完成对所有视频帧的语义分割。
上述实施例中,本发明的语义视频分割方法首先训练了一个静态图片的语义分割的卷积神经网络模型,在此基础上,利用视频前后帧之间的强相关性,充分探索了视频压缩域的运动信息,把特征提取及分类问题转化为相邻视频帧之间的像素移动问题,并基于压缩模型的原理对可能产生较大错误的子区域进行了精细分割,在达到高模型运行速度的同时维持了较高的准确率。
本方法具有非常强的泛化能力,其框架可以被应用于其他更多视频的像素域识别任务中,包括视频目标检测、视频实例分割、视频全景分割等。且该模型的速度不依赖于具体的CNN网络结构,对于高精度模型和轻量级模型均有数倍至数十倍的速度提升。
实施例
下面基于上述方法进行仿真实验,本实施例的实现方法如前所述,不再详细阐述具体的步骤,下面仅展示实验结果。
本实施例使用ICNet作为轻量级图像语义分割CNN模型。并在语义分割公开数据集Cityscapes上实施多次实验,其包含5000段视频短片段,证明了本方法可以明显地提升语义视频分割的效率,并保证准确性。算法中,设定图片组GOP参数g为12、B帧比率β设置为0。
将本发明的方法与传统逐帧通过CNN进行分割处理的方法进行了对比,从算法流程可见其区别主要在是否进行S3~S5的压缩域操作。两种方法的实施效果如表1所示。
表1本发明在Cityscapes数据集上的实施效果
Figure BDA0002199246040000081
由此可见,通过以上技术方案,本发明实施例基于深度学习技术发展了一种实时的语义视频分割方法。本发明可以充分利用视频压缩域中的运动信息,对视频中相邻帧的相关关系进行建模,进而将这种相关性用于减少冗余计算、从而大幅度加快视频语义分割的模型速度。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种实时的语义视频分割方法,其特征在于,包括以下步骤:
S1.获取用于训练语义分割的多组视频,并定义算法目标;
S2.训练轻量级的图像语义分割CNN模型;
S3.对视频进行解码,得到残差图、运动向量、RGB图像;
S4.对于视频中的当前帧,如果当前帧为I帧,则将其RGB图像送至S2中经过训练后的图像语义分割CNN模型,得到完整的分割结果;
S5.对于视频中的当前帧,如果当前帧为P帧,则利用运动向量将其前一帧的分割结果传递至当前,并利用残差图选择当前帧的子块进行矫正;
S6.针对视频中的所有帧重复步骤S3和S4,至完成所有视频帧的分割。
2.如权利要求1所述的实时的语义视频分割方法,其特征在于,步骤S1中,对于所述的用于视频语义分割的每一个视频V,定义算法目标为:检测视频V中每一帧图像的所有像素的分类。
3.如权利要求2所述的实时的语义视频分割方法,其特征在于,步骤S2中,训练轻量级的图像语义分割CNN模型具体包括:
S21.利用单张图片的卷积神经网络φ对图像中每一个像素进行分类提取,经其处理后的图像I的分类预测结果为φ(I);
S22.根据预测和给定的分类标签计算交叉熵损失,来优化网络φ中参数。
4.如权利要求3所述的实时的语义视频分割方法,其特征在于,步骤S3中,使用MPEG-4视频编解码标准对视频进行编解码,设定图片组GOP参数g、B帧比率β;当前帧时刻为t,则解码过程如下:
S31.若当前第t帧为I帧,则直接解码得到其RGB图像I(t);
S32.若当前第t帧为P帧,则首先部分解码得到其运动向量Mv(t)与残差向量Res(t),再依据像素域的平移及补偿变换进一步解码得到RGB图像I(t)。
5.如权利要求4所述的实时的语义视频分割方法,其特征在于,步骤S4中,如果当前第t帧为I帧,则按照如下算法对其进行语义分割:
S41.将当前RGB图像I(t)送入S2中训练完毕的图像语义分割CNN模型进行预测,得到其语义分割结果F(t)=φ(I(t))。
6.如权利要求5所述的实时的语义视频分割方法,其特征在于,步骤S5中,如果当前第t帧为P帧,则按照如下算法对其进行语义分割:
S51.使用当前帧的运动向量Mv(t)对前一帧的分割结果F(t-1)进行像素域的平移,得到当前帧的分割结果:
F(t)[p]=F(t-1)[p-Mv(t)[p]]
其中:F(t)[p]表示经过平移后得到当前第t帧的分割结果F(t)中像素位置p处的值;p为像素坐标;Mv(t)[p]指当前第t帧的运动向量图Mv(t)中像素位置p处的值;
S52.利用当前帧的残差图Res(t),从当前帧的所有子区域Ri中选出残差值大于阈值的像素点最多的子区域,作为待重分割子区域R(t):
Figure FDA0002199246030000021
其中Ri表示第i个候选子区域;Res(t)[p]表示残差图Res(t)中像素位置p处的残差值;THR是人为设定的阈值;Indicator表示指示函数,若|Res(t)[p]|>THR成立则其值为1,否则为0;
S53.对S52中得到R(t)子区域送入S2中训练完毕的图像语义分割CNN模型进行重分割,得到该子区域新的语义分割结果FR(t):
FR(t)=φ(I(t)[R(t)])
其中I(t)[R(t)]表示R(t)子区域的RGB图像;
S54.根据S53得到的子区域分割结果更新当前帧中R(t)子区域的分割结果:
F(t)[R(t)]=FR(t)
其中F(t)[R(t)]表示当前第t帧中R(t)子区域的分割结果。
CN201910859421.2A 2019-09-11 2019-09-11 一种实时的语义视频分割方法 Active CN110796662B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910859421.2A CN110796662B (zh) 2019-09-11 2019-09-11 一种实时的语义视频分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910859421.2A CN110796662B (zh) 2019-09-11 2019-09-11 一种实时的语义视频分割方法

Publications (2)

Publication Number Publication Date
CN110796662A true CN110796662A (zh) 2020-02-14
CN110796662B CN110796662B (zh) 2022-04-19

Family

ID=69427102

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910859421.2A Active CN110796662B (zh) 2019-09-11 2019-09-11 一种实时的语义视频分割方法

Country Status (1)

Country Link
CN (1) CN110796662B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111985456A (zh) * 2020-09-10 2020-11-24 上海交通大学 视频实时识别分割及检测架构
CN112084949A (zh) * 2020-09-10 2020-12-15 上海交通大学 视频实时识别分割和检测方法及装置
CN112364822A (zh) * 2020-11-30 2021-02-12 重庆电子工程职业学院 一种自动驾驶视频语义分割***及方法
CN112990273A (zh) * 2021-02-18 2021-06-18 中国科学院自动化研究所 面向压缩域的视频敏感人物识别方法、***及设备
CN113486697A (zh) * 2021-04-16 2021-10-08 成都思晗科技股份有限公司 基于空基多模态图像融合的森林烟火监测方法
CN115294489A (zh) * 2022-06-22 2022-11-04 太原理工大学 一种灾害视频数据的语义分割方法和***
CN115713625A (zh) * 2022-11-18 2023-02-24 盐城众拓视觉创意有限公司 一种教学实录视频与课件背景的快速结合成片方法
WO2023154007A3 (zh) * 2022-02-11 2023-10-26 脸萌有限公司 视频的特征提取及切片方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120294530A1 (en) * 2010-01-22 2012-11-22 Malavika Bhaskaranand Method and apparatus for video object segmentation
US20130155228A1 (en) * 2011-12-19 2013-06-20 Industrial Technology Research Institute Moving object detection method and apparatus based on compressed domain
US20150256850A1 (en) * 2014-03-10 2015-09-10 Euclid Discoveries, Llc Continuous Block Tracking For Temporal Prediction In Video Encoding
CN108256511A (zh) * 2018-03-15 2018-07-06 太原理工大学 基于视频编码码流的人体运动检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120294530A1 (en) * 2010-01-22 2012-11-22 Malavika Bhaskaranand Method and apparatus for video object segmentation
US20130155228A1 (en) * 2011-12-19 2013-06-20 Industrial Technology Research Institute Moving object detection method and apparatus based on compressed domain
US20150256850A1 (en) * 2014-03-10 2015-09-10 Euclid Discoveries, Llc Continuous Block Tracking For Temporal Prediction In Video Encoding
CN108256511A (zh) * 2018-03-15 2018-07-06 太原理工大学 基于视频编码码流的人体运动检测方法

Non-Patent Citations (11)

* Cited by examiner, † Cited by third party
Title
FEDERICO PERAZZI ET AL: "《Learning Video Object Segmentation from Static Images》", 《2017 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 *
JAIN S ET AL: "《Fast Semantic Segmentation on Video Using Block Motion-Based Feature Interpolation》", 《15TH EUROPEAN CONFERENCE ON COMPUTER VISION (ECCV)》 *
XIZHOU ZHU ET AL: "《Towards High Performance Video Object Detection》", 《 2018 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 *
ZHENGTAO TAN ET AL: "《Real Time Compressed Video Object Segmentation》", 《2019 IEEE INTERNATIONAL CONFERENCE ON MULTIMEDIA AND EXPO (ICME)》 *
ZOUWU NING ET AL: "《Visual attention based video object segmentation in MPEG compressed domain》", 《2007 IET CONFERENCE ON WIRELESS, MOBILE AND SENSOR NETWORKS (CCWMSN07)》 *
冯杰: "《基于H.264压缩域的视频分割与特征提取方法研究》", 《中国优秀博硕士学位论文全文数据库(博士)信息科技辑》 *
孔祥鹏: "《基于H.264压缩域的运动对象分割提取方法研究》", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *
孙涛: "《基于压缩域的运动对象分割技术研究》", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *
杨高波 等: "《MPEG-4 框架下的视频对象分割及其关键技术分析》", 《通信学报》 *
陆宇: "《基于H.264压缩域的视频对象分割》", 《中国优秀博硕士学位论文全文数据库(博士)信息科技辑》 *
陈薇薇: "《MPEG-2压缩域运动矢量的致密化及运动对象分割算法研究》", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111985456A (zh) * 2020-09-10 2020-11-24 上海交通大学 视频实时识别分割及检测架构
CN112084949A (zh) * 2020-09-10 2020-12-15 上海交通大学 视频实时识别分割和检测方法及装置
CN112084949B (zh) * 2020-09-10 2022-07-19 上海交通大学 视频实时识别分割和检测方法及装置
CN112364822A (zh) * 2020-11-30 2021-02-12 重庆电子工程职业学院 一种自动驾驶视频语义分割***及方法
CN112990273A (zh) * 2021-02-18 2021-06-18 中国科学院自动化研究所 面向压缩域的视频敏感人物识别方法、***及设备
CN113486697A (zh) * 2021-04-16 2021-10-08 成都思晗科技股份有限公司 基于空基多模态图像融合的森林烟火监测方法
CN113486697B (zh) * 2021-04-16 2024-02-13 成都思晗科技股份有限公司 基于空基多模态图像融合的森林烟火监测方法
WO2023154007A3 (zh) * 2022-02-11 2023-10-26 脸萌有限公司 视频的特征提取及切片方法、装置、电子设备及存储介质
CN115294489A (zh) * 2022-06-22 2022-11-04 太原理工大学 一种灾害视频数据的语义分割方法和***
CN115713625A (zh) * 2022-11-18 2023-02-24 盐城众拓视觉创意有限公司 一种教学实录视频与课件背景的快速结合成片方法

Also Published As

Publication number Publication date
CN110796662B (zh) 2022-04-19

Similar Documents

Publication Publication Date Title
CN110796662B (zh) 一种实时的语义视频分割方法
Tu et al. Action-stage emphasized spatiotemporal VLAD for video action recognition
US11398037B2 (en) Method and apparatus for performing segmentation of an image
US8983178B2 (en) Apparatus and method for performing segment-based disparity decomposition
CN106331723B (zh) 一种基于运动区域分割的视频帧率上变换方法及***
Tan et al. Real time video object segmentation in compressed domain
CN108615241B (zh) 一种基于光流的快速人体姿态估计方法
CN111310594B (zh) 一种基于残差纠正的视频语义分割方法
JP2018507477A (ja) イメージに対する初期スーパーピクセルラベルマップの生成方法及び装置
CN108200432A (zh) 一种基于视频压缩域的目标跟踪技术
US7085434B2 (en) Sprite recognition in animated sequences
CN113920170A (zh) 结合场景上下文和行人社会关系的行人轨迹预测方法、***及存储介质
CN108764177B (zh) 一种基于低秩分解和表示联合学习的运动目标检测方法
Zhao et al. Transformer-based self-supervised monocular depth and visual odometry
Sheng et al. Vnvc: A versatile neural video coding framework for efficient human-machine vision
CN104202606B (zh) 一种基于hevc运动估计起始点确定方法
Zhang et al. Dyna-depthformer: Multi-frame transformer for self-supervised depth estimation in dynamic scenes
CN114283181B (zh) 一种基于样例的动态纹理迁移方法及***
CN111292357B (zh) 一种基于相关滤波的视频帧间快速运动估计方法
Jing et al. Video prediction: a step-by-step improvement of a video synthesis network
CN110853040B (zh) 一种基于超分辨率重建的图像协同分割方法
CN114419729A (zh) 一种基于轻量双流网络的行为识别方法
Nemcev et al. Modified EM-algorithm for motion field refinement in motion compensated frame interpoliation
Chu et al. A basis-background subtraction method using non-negative matrix factorization
CN114257756A (zh) 校正移动向量的视频处理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant