CN111008978B - 基于深度学习的视频场景分割方法 - Google Patents

基于深度学习的视频场景分割方法 Download PDF

Info

Publication number
CN111008978B
CN111008978B CN201911239331.XA CN201911239331A CN111008978B CN 111008978 B CN111008978 B CN 111008978B CN 201911239331 A CN201911239331 A CN 201911239331A CN 111008978 B CN111008978 B CN 111008978B
Authority
CN
China
Prior art keywords
frame
background
similarity
image
frames
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911239331.XA
Other languages
English (en)
Other versions
CN111008978A (zh
Inventor
代成
刘欣刚
李辰奇
倪铭昊
韩硕
曾昕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201911239331.XA priority Critical patent/CN111008978B/zh
Publication of CN111008978A publication Critical patent/CN111008978A/zh
Application granted granted Critical
Publication of CN111008978B publication Critical patent/CN111008978B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/136Segmentation; Edge detection involving thresholding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • G06T7/62Analysis of geometric attributes of area, perimeter, diameter or volume
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/751Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20021Dividing image into blocks, subimages or windows
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Geometry (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深度学习的视频场景分割方法,属于视频场景分割技术领域。本发明首先将待分割的视频数据转化为帧图像,再基于深度学习算法进行目标检测处理获取帧图像的背景候选框;并对帧图像进行关键背景候选框选取;基于关键背景候选框的位置信息,确定关键背景候选框所在的图像帧的相邻的后一图像帧上的对应所述位置信息的背景候选框;最后计算相邻图像帧的联合相似度相似度,若将联合相似度低于相似度阈值,则基于当前相邻帧的帧位置对待分割的一段视频数据进行视频分割。本发明可以在自动提取局部背景区域的情况下实现对视频背景信息进行相似度的判断,解决了传统算法中算法复杂度过高的问题,实现对复杂场景下背景分割。

Description

基于深度学习的视频场景分割方法
技术领域
本发明涉及视频场景分割技术领域,具体涉及一种基于深度学习的视频场景分割方法。
背景技术
随着多媒体技术的快速发展,视频作为重要的信息传输媒介广泛的应用于人们的日常生活中。近些年,视频数据量呈现了***式的增长,然而海量的视频数据在丰富人们的工作、学习、生活的同时,存储、管理和检索这些海量的视频数据成为高效使用这些数据的基础,尤其是在大数据时代,如何准确的进行视频的分类和检索目前也成了一个巨大的挑战。考虑到在视频检索研究中,视频场景分割对于更加灵活地、高效地标识视频数据具有重要的意义,因此准确的对场景进行分割开始受到研究人员的越来越多的关注。
场景分割的主要目标是准确的进行场景相似度进行检测,在有明显区分度的情况下进行视频的分割任务,但是传统的基于人工特征的算法存在着人工特征工程量大、计算复杂度高以及准确率低等问题,从而不能很好的满足现在实时分割的要求,因此,需要新的方法来更加智能化的解决视频背景分割的问题。
发明内容
本发明的发明目的在于:为了解决现有技术的不足,针对复杂场景下,海量数据提供一种更精确、更便捷的视频背景分割方法。
本发明的基于深度学习的视频场景分割方法,包括如下步骤:
步骤S1:图像预处理:将待分割的视频数据转化为帧图像;
例如固定间隔对待分割的视频数据(一段待分割的视频帧序列)进行帧图像采样,得到帧图像序列;
步骤S2:背景候选框识别:
基于预设的目标对象,采用目标检测算法Faster R-CNN对各帧图像进行目标检测处理,生成目标对象的候选框,并进行候选框坐标信息标注;
对候选框进行目标对象识别,筛选出不存在目标对象的候选框,作为帧图像的背景候选框;
步骤S3:对帧图像进行关键背景候选框选取:
步骤S31:筛除面积小于预置的面积阈值的背景候选框;
步骤S32:筛除重叠度高的背景候选框:当存在重叠的两个背景候选框的重叠度大于预置的重叠度阈值时,删除重叠的两个背景候选框中面积较小的一个;
其中,重叠度计算公式为:
Figure BDA0002305777480000021
其中Area表示面积,B-boxi和B-boxj分别表示存在重叠的两个背景候选框,i和j为背景候选框标识符;
将当前剩余的背景候选框作为关键背景候选框;
步骤S4:基于关键背景候选框的位置信息,确定关键背景候选框所在的图像帧的相邻的后一图像帧上的对应所述位置信息的背景候选框;
步骤S5:计算相邻图像帧的相似度:
将关键背景候选框或背景候选框所在的位置区域作为背景区域;
将步骤4得到的上一图像帧的关键背景候选框与相邻的后一图像帧上对应的背景候选框作为相邻图像帧的同一位置的背景区域的相似度计算对象;
对相似度计算对象分别计算结构相似度、直方图相似度;
设置每个背景区域的权重值wi为:
Figure BDA0002305777480000022
其中Ai表示第i个背景区域的面积;n表示帧图像包括的背景区域数量;
并根据公式
Figure BDA0002305777480000023
计算相邻图像帧的联合相似度similarity,其中
Figure BDA0002305777480000024
SSIMi、Histi分别表示相邻的两帧帧图像之间对应第i个背景区域的结构相似度和直方图相似度;
步骤S6:视频场景分割:
相邻图像帧的联合相似度similarity,若联合相似度similarity低于预置的相似度阈值,则基于当前相邻帧的帧位置对待分割的视频数据进行视频分割,从而将待分割视频数据分割成多段的子视频段,每段子视频段一类场景。
例如对于固定间隔采样得到的帧图像序列而言,帧图像序列中的相邻帧在原始视频数据并不相邻,该两帧之间包括一定数量的原始视频帧,只需要从该两帧之间任意选定一个分割位置即可,即将固定间隔采样得到的帧图像序列中的联合相似度similarity低于预置的相似度阈值相邻帧分割为不同类场景,该相邻帧的前一帧图像对应一类,后一帧图像对应另一类场景。
综上所述,由于采用了上述技术方案,本发明的有益效果是:
通过深度学习技术能够对复杂场景下的目标检测进行学习,得到局部背景候选框。再对相邻的帧图像进行候选框对应坐标进行标注,通过图像局部区域的结构相似度SSIM和直方图相似度Hist加权对比,能够降低算法的复杂度,同时基于深度学习的特征区域能够相对于传统的手工区域标注更具有普适性,并且能够获得更高的分割准确率。
附图说明
图1是实施例中的具体实现过程示意图;
图2是实例中的张量建模示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合实施方式和附图,对本发明作进一步地详细描述。
本发明的基于深度学习的视频场景分割方法,包括如下步骤:
S1:图像预处理,将视频数据转化为帧图像:即采用惯用的视频帧提取方式,完成视频到对应帧的转换,从而得到待处理的帧图像;
S2:背景区域识别,利用目标检测算法Faster R-CNN算法确定帧图像中的目标对象,进而确定帧图像的背景候选框:
首先采用CNN+RPN网络(卷积神经网络+区域生成网络),生成候选框,即候选区域框,并进行候选框坐标信息标注;
对候选框中的内容特征,进行分类回归,从而实现物体目标识别;
筛选出候选框中没有目标对象的候选框,得到帧图像的背景候选框(该背景候选框所在的位置区域即为背景区域)的坐标。
其中,Faster R-CNN算法具体可参考文献《Faster R-CNN:Towards Real-TimeObject Detection with Region Proposal Networks》。
S3:对于视频中的每一帧图像的关键背景候选框选取:
根据背景区域面积计算,并通过区域重叠检测函数进行量化,删除背景区域中的重叠部分和区域面积小的背景候选框,实现选出有效的背景候选框,即关键背景候选框;
S31:筛除面积小的背景候选框,当面积小于某一阈值,即可忽略,其中背景候选框的面积公式为:
Figure BDA0002305777480000031
其中,
Figure BDA0002305777480000032
Figure BDA0002305777480000033
表示第i个背景候选框的左右横坐标;
Figure BDA0002305777480000034
Figure BDA0002305777480000035
表示第i个背景候选框的上下纵坐标;Ai表示第i个背景候选框的面积;
S32:筛除重叠度高的背景候选框,当重叠度较高时,删除两者中面积较小的一方,重叠检测函数为:
Figure BDA0002305777480000041
其中,Area表示面积,B-boxi和B-boxj分别表示第i个和第j个背景候选框。
S4:背景候选框特征提取,根据坐标提取相邻帧对应区域的背景候选框;
提取关键背景候选框对应点的坐标,根据提取的对应点的坐标,找出相邻的后续一帧的对应的背景候选框;
S5:背景框相似度对比,对相邻帧对应的区域通过结构相似度SSIM和直方图相似度Hist联合算法实现对应背景区域进行加权完成相邻帧背景相似度对比。
参见图2,结构相似度SSIM的具体计算方式为:
SSIM(x,y)=L(x,y)×C(x,y)×S(x,y)
其中,L(x,y),C(x,y)和S(x,y)函数分别表示两图像的亮度,对比度,结构对比,SSIM(x,y)为两图像的结构相似度。
L(x,y),C(x,y)和S(x,y)的具体计算公式如下:
(1)
Figure BDA0002305777480000042
其中,ux,uy分别表示图像x,y的像素的平均值,
Figure BDA0002305777480000043
xi表示图像x的第i个像素值,N表示像素点数;uy与ux的计算方式相同,C1为常数,用来避免分母为0,通常取值C1=(K1×L),K1=0.01,L=255。
(2)
Figure BDA0002305777480000044
其中,σx,σy分别表示图像x,y的像素标准差,
Figure BDA0002305777480000045
其中,μx表示图像x的像素均值,C2=(K2×L)2,K1=0.03,L=255。
(3)
Figure BDA0002305777480000046
其中,σxy表示图像x,y的像像素的协方差,且
Figure BDA0002305777480000047
μy表示图像y的像素均值,
Figure BDA0002305777480000048
直方图相似度Hist的具体计算公式为:
Figure BDA0002305777480000051
其中,
Figure BDA0002305777480000052
分别表示图像x,y的直方图的第i个数值,N为直方图包含的所有数值的个数。
结构性相似SSIM和直方图相似Hist的联合处理时,首先设置每个背景框的权重值,再计算所有背景框的两种相似度的加权平均,再结合的两者的加权平均得到最终的相似度度量值,即联合相似度:
每个背景框的权重值wi为:
Figure BDA0002305777480000053
其中Ai表示第i个背景框的面积。
联合相似度similarity为:
Figure BDA0002305777480000054
其中
Figure BDA0002305777480000055
SSIMi、Histi分别表示相邻的两帧帧图像之间对应第i个背景框的结构和直方图相似度。
S6:视频场景分割。
根据场景相似度对比的结果,如果相似度低于门限值,说明相似帧(相邻帧)图像之间的关系不大,不属于一类场景,基于当前相邻帧的帧位置对视频进行分割,即分割成为不同段落镜头。
实施例
基于本发明的视频场景分割方法,应用到基于视频处理的应用中,实现一种基于改进型Faster R-CNN网络的视频分割算法中,参见图1,其具体实现过程如下:
S1:图像预处理,将视频数据转化为帧图像;本具体实施方式中,处理的视频长度大多在1.5分钟到3分钟之内的短视频文件,按每秒24帧计算,大约有2160-4320帧。为了减少计算量,提高计算速度,本实施例以5帧为宽度,等间隔对视频帧进行采样。这样,单个视频的帧数将会降至432-864,且也能确保原视频的连续性,避免了内容变化过大导致信息丢失。
S2:目标识别,利用Faster R-CNN算法标示出视频中目标对象;
其中,Faster R-CNN模型主要有4个部分构成。
第一步,卷积层会对于输入的图片帧进行特征提取;
第二步,提取出的特征图将进入RPN(Region Proposal Network)网络,来生成300个候选区域框;
第三步,候选区域框将会经过RoI(Region 0f Interest)池化,转化为固定长度的特征;
最后,对于每个候选区域框进行回归和分类,输出候选区域内的物体和该区域的精确坐标。
本实施例中,采用VGG-16的CNN模型来进行特征提取,并用图像分类数据集VOC2007进行训练,可以分辨出21类物体。如果区域框内存在物体,则被视为前景并去除。然后在剩下的区域框内,挑选出一定数量的区域框作为背景候选区域框(背景框),本实施例中挑选出20个。
S3:关键背景区域选取,根据背景区域面积计算,并通过区域重叠检测函数进行量化,删除背景区域中的重叠部分和区域面积小的背景框,选出有效的背景框;经过实验验证,当区域面积大于800时,背景区域框分布效果最佳,因此小于800被视为小区域。同时,如果两区域重叠面积大于较小区域面积的70%,则去除面积较小区域。
S4:候选框区域特征提取,根据坐标提取相邻帧对应区域的背景区域,在相邻两帧图像上,对这些区域进行切割;
S5:背景框相似度对比,对相邻帧对应的区域通过结构相似度SSIM和直方图相似度Hist联合算法实现对应背景区域进行加权完成相邻帧背景相似度对比。在相邻两帧中,每个对应背景区域都进行一次SSIM和直方图相似计算。然后根据区域面积占比,赋予各区域权重值,并将两种指标分别进行加权相加,得到两图像总的SSIM和直方图相似度。最后通过调和平均方法,实现两种相似度的联合得到新的相似度指标,来进行场景变化判断以及分割。
本发明的基于背景区域相似度的视频场景分割算法,使用了深度学***均值达到了80.4%,而在不使用深度学习的情况下,当前方法仅有64.8%。其他三类视频由于场景较为简单,该算法结果准确率较高,电影类视频达到93.7%,新闻类达到93.0%,日常生活类甚至高达98.1%。而若不使用深度学习模型,识别率分别仅为70.5%、71.4%和80.0%。通过实验结果可知,利用深度学习选取背景内容,再进行相似度比较的视频分割方法,可以有效提高简单视频分段的准确率,具有非常良好的应用前景。
以上所述,仅为本发明的具体实施方式,本说明书中所公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换;所公开的所有特征、或所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以任何方式组合。

Claims (4)

1.基于深度学习的视频场景分割方法,其特征在于,包括下列步骤:
步骤S1:图像预处理:将待分割的视频数据转化为帧图像;
步骤S2:背景候选框识别:
利用目标检测算法Faster R-CNN算法确定帧图像中的目标对象,进而确定帧图像的背景候选框:
首先采用CNN+RPN网络(卷积神经网络+区域生成网络),生成候选框,即候选区域框,并进行候选框坐标信息标注;
对候选框中的内容特征,进行分类回归,从而实现物体目标识别;
筛选出候选框中没有目标对象的候选框,得到帧图像的背景候选框的坐标;
步骤S3:对帧图像进行关键背景候选框选取:
步骤S31:筛除面积小于预置的面积阈值的背景候选框;
步骤S32:筛除重叠度高的背景候选框:当存在重叠的两个背景候选框的重叠度大于预置的重叠度阈值时,删除重叠的两个背景候选框中面积较小的一个;
其中,重叠度计算公式为:
Figure FDA0003777297870000011
其中Area表示面积,B-boxi和B-boxj分别表示存在重叠的两个背景候选框,i和j为背景候选框标识符;
将当前剩余的背景候选框作为关键背景候选框;
步骤S4:基于关键背景候选框的位置信息,确定关键背景候选框所在的图像帧的相邻的后一图像帧上的对应所述位置信息的背景候选框;
步骤S5:计算相邻图像帧的相似度:
将关键背景候选框或背景候选框所在的位置区域作为背景区域;
将步骤4得到的上一图像帧的关键背景候选框与相邻的后一图像帧上对应的背景候选框作为相邻图像帧的同一位置的背景区域的相似度计算对象;
对相似度计算对象分别计算结构相似度、直方图相似度;
设置每个背景区域的权重值wi为:
Figure FDA0003777297870000012
其中Ai表示第i个背景区域的面积;n表示帧图像包括的背景区域数量;
并根据公式
Figure FDA0003777297870000013
计算相邻图像帧的联合相似度similarity,其中
Figure FDA0003777297870000021
SSIMi、Histi分别表示相邻的两帧帧图像之间对应第i个背景区域的结构相似度和直方图相似度;
步骤S6:视频场景分割:
相邻图像帧的联合相似度similarity,若联合相似度similarity低于预置的相似度阈值,则基于当前相邻帧的帧位置对待分割的视频数据进行视频分割。
2.如权利要求1所述的方法,其特征在于,步骤S1中,基于固定间隔对待分割的一段视频数据进行帧图像采样,得到帧图像序列。
3.如权利要求1所述的方法,其特征在于,面积阈值设置为800。
4.如权利要求1所述的方法,其特征在于,重叠度阈值设置为70%。
CN201911239331.XA 2019-12-06 2019-12-06 基于深度学习的视频场景分割方法 Active CN111008978B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911239331.XA CN111008978B (zh) 2019-12-06 2019-12-06 基于深度学习的视频场景分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911239331.XA CN111008978B (zh) 2019-12-06 2019-12-06 基于深度学习的视频场景分割方法

Publications (2)

Publication Number Publication Date
CN111008978A CN111008978A (zh) 2020-04-14
CN111008978B true CN111008978B (zh) 2022-10-14

Family

ID=70114962

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911239331.XA Active CN111008978B (zh) 2019-12-06 2019-12-06 基于深度学习的视频场景分割方法

Country Status (1)

Country Link
CN (1) CN111008978B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111950425B (zh) * 2020-08-06 2024-05-10 北京达佳互联信息技术有限公司 对象获取方法、装置、客户端、服务器、***和存储介质
CN112689200B (zh) * 2020-12-15 2022-11-11 万兴科技集团股份有限公司 视频编辑方法、电子设备及存储介质
CN112601068B (zh) * 2020-12-15 2023-01-24 山东浪潮科学研究院有限公司 视频数据增广方法、装置及计算机可读介质
CN113709584A (zh) * 2021-03-05 2021-11-26 腾讯科技(北京)有限公司 视频划分方法、装置、服务器、终端及存储介质
CN113923378B (zh) * 2021-09-29 2024-03-19 北京字跳网络技术有限公司 视频处理方法、装置、设备及存储介质
CN114372994B (zh) * 2022-01-10 2022-07-22 北京中电兴发科技有限公司 视频浓缩中背景图像的生成方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7020351B1 (en) * 1999-10-08 2006-03-28 Sarnoff Corporation Method and apparatus for enhancing and indexing video and audio signals
CN104867161A (zh) * 2015-05-14 2015-08-26 国家电网公司 一种视频处理方法及装置
CN108537134A (zh) * 2018-03-16 2018-09-14 北京交通大学 一种视频语义场景分割及标注方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6404925B1 (en) * 1999-03-11 2002-06-11 Fuji Xerox Co., Ltd. Methods and apparatuses for segmenting an audio-visual recording using image similarity searching and audio speaker recognition
CN100495438C (zh) * 2007-02-09 2009-06-03 南京大学 一种基于视频监控的运动目标检测与识别方法
CN101577824B (zh) * 2009-06-12 2011-01-19 西安理工大学 基于邻近i帧dc图像相似度的压缩域关键帧提取方法
CN102129688B (zh) * 2011-02-24 2012-09-05 哈尔滨工业大学 一种针对复杂背景的运动目标检测方法
CN103400155A (zh) * 2013-06-28 2013-11-20 西安交通大学 基于图半监督学习的色***检测方法
CN106683086B (zh) * 2016-12-23 2018-02-27 深圳市大唐盛世智能科技有限公司 一种智能视频监控的背景建模方法和装置
CN106875406B (zh) * 2017-01-24 2020-04-14 北京航空航天大学 图像引导的视频语义对象分割方法及装置
CN107563345B (zh) * 2017-09-19 2020-05-22 桂林安维科技有限公司 一种基于时空显著性区域检测的人体行为分析方法
CN110175591B (zh) * 2019-05-31 2021-06-22 中科软科技股份有限公司 一种获取视频相似度的方法及***
CN110427807B (zh) * 2019-06-21 2022-11-15 诸暨思阔信息科技有限公司 一种时序事件动作检测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7020351B1 (en) * 1999-10-08 2006-03-28 Sarnoff Corporation Method and apparatus for enhancing and indexing video and audio signals
CN104867161A (zh) * 2015-05-14 2015-08-26 国家电网公司 一种视频处理方法及装置
CN108537134A (zh) * 2018-03-16 2018-09-14 北京交通大学 一种视频语义场景分割及标注方法

Also Published As

Publication number Publication date
CN111008978A (zh) 2020-04-14

Similar Documents

Publication Publication Date Title
CN111008978B (zh) 基于深度学习的视频场景分割方法
CN108562589B (zh) 一种对磁路材料表面缺陷进行检测的方法
CN108846446B (zh) 基于多路径密集特征融合全卷积网络的目标检测方法
CN109086777B (zh) 一种基于全局像素特征的显著图精细化方法
CN113112519A (zh) 基于感兴趣目标分布的关键帧筛选方法
Asha et al. Content based video retrieval using SURF descriptor
Li et al. A review of deep learning methods for pixel-level crack detection
CN108647703B (zh) 一种基于显著性的分类图像库的类型判断方法
CN115240024A (zh) 一种联合自监督学习和半监督学习的地外图片分割方法和***
CN105825201A (zh) 视频监控中的运动目标跟踪方法
Yang et al. Edge computing-based real-time passenger counting using a compact convolutional neural network
CN108664968B (zh) 一种基于文本选取模型的无监督文本定位方法
CN110765314A (zh) 一种视频语义结构化提取与标注的方法
CN106066887B (zh) 一种广告序列图像快速检索和分析方法
Li et al. An efficient self-learning people counting system
CN114758135A (zh) 一种基于注意力机制的无监督图像语义分割方法
Bchir et al. Region-based image retrieval using relevance feature weights
Liu et al. [Retracted] Mean Shift Fusion Color Histogram Algorithm for Nonrigid Complex Target Tracking in Sports Video
Yu et al. Automatic image captioning system using integration of N-cut and color-based segmentation method
Zhu et al. [Retracted] Basketball Object Extraction Method Based on Image Segmentation Algorithm
Chatur et al. A simple review on content based video images retrieval
CN110580503A (zh) 一种基于ai的双光谱目标自动识别方法
CN109800818A (zh) 一种图像语义自动标注及检索方法及***
Mu et al. Automatic video object segmentation using graph cut
Hao et al. Video summarization based on sparse subspace clustering with automatically estimated number of clusters

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant