CN103065300B - 一种视频标注方法和装置 - Google Patents

一种视频标注方法和装置 Download PDF

Info

Publication number
CN103065300B
CN103065300B CN201210566985.5A CN201210566985A CN103065300B CN 103065300 B CN103065300 B CN 103065300B CN 201210566985 A CN201210566985 A CN 201210566985A CN 103065300 B CN103065300 B CN 103065300B
Authority
CN
China
Prior art keywords
sample
mark
video
key frame
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201210566985.5A
Other languages
English (en)
Other versions
CN103065300A (zh
Inventor
秦兴德
吴金勇
王一科
王军
钟翔宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Security and Surveillance Technology PRC Inc
Original Assignee
China Security and Surveillance Technology PRC Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Security and Surveillance Technology PRC Inc filed Critical China Security and Surveillance Technology PRC Inc
Priority to CN201210566985.5A priority Critical patent/CN103065300B/zh
Publication of CN103065300A publication Critical patent/CN103065300A/zh
Application granted granted Critical
Publication of CN103065300B publication Critical patent/CN103065300B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种视频标注方法和装置,属于视频处理领域,该方法包括:对视频进行镜头分割;提取分割的每个镜头内的关键帧集合;提取每个关键帧集合的相关底层特征向量;利用半监督核密度估计算法对每个未标注样本进行类别标注;对未标注样本所对应的关键帧进行类别标注。采用本发明的实施例,通过采用图像的多种底层特征组合的特征向量表示关键帧,减少了图像信息损失,并利用半监督核密度估计算法对每个未标注样本进行类别标注,将未标注数据引入到核密度估计中去,综合运用了标注样本和未标注样本的特征信息,提高了视频标注的效率和核密度估计的精确性。

Description

一种视频标注方法和装置
技术领域
本发明涉及视频处理和机器学习领域,特别涉及一种视频标注方法和装置。
背景技术
随着计算机和网络技术的发展,使得普通用户可以接触越来越多的视频数据。视频数据提供了大量有用的信息,其内容比其他形式的数据更加丰富、直观和生动。一方面,丰富的视频数据包含的海量信息是其它媒体无法比拟的;但在另一方面,其日益庞大的数据量、非结构化的数据形式和内容的多义性,又为方便的用户交互操作设置了障碍,影响了它发挥更大的作用。
为了挖掘大型视频集中潜在价值,用户需要能够有效地检索到所需要的视频片段。视频标注,是将文本和视频语义内容联系起来的技术,是一种很好的减少语义差距的方式并可以用于视频检索的中间步骤,使得用户可以通过输入视频的关键帧或语义信息进行检索。
在实际应用中,对大量视频进行标注是比较困难的,首先使用人工的方法去标注一个视频集需要耗费大量的时间和精力,用户往往没有足够的耐性来完成整个样本集的标注;其次,使用低级别的特征向量来提取能够表达视频内容的语义非常困难。
如何对尽量少的样本进行人工标注及多种形式的底层特征,并获得较好的视频标注性能成为视频标注的一个关键问题。由于机器学习理论相对成熟,可以为视频标注提供理论分析的依据和各种可能的解决方案,因此一般认为它是解决视频标注问题比较适合的方法。目前,视频标注的研究主要集中于如何利用学习方法并结合视频的特点来提高标注的准确性。许多机器学习方法如支持向量机(Support Vector Machines,简称SVM)、贝叶斯分类、随机森林(RandomForest)等集中考虑了标注样本的信息,而大量的未标注样本所包含的信息被浪费。
发明内容
为克服现有技术中处理标注数据少而未标注数量大量存在,以及单一特征表达信息少的不足,本发明提供一种视频标注方法和装置,将未标注数据引入到核密度估计中去,综合运用了标注样本和未标注样本的特征信息,提高了视频标注的效率和核密度估计的精确性。
本发明解决上述技术问题所采用的技术方案如下:
根据本发明的一个方面,提供的一种视频标注方法包括以下步骤:
对视频进行镜头分割;
提取分割的每个镜头内的关键帧集合;
提取每个关键帧集合的相关底层特征向量;
利用半监督核密度估计算法对每个未标注样本进行类别标注;
对未标注样本所对应的关键帧进行类别标注;
其中,提取每个关键帧集合的相关底层特征向量进一步包括以下步骤:
对图像的HSV颜色空间进行分层,将颜色空间划分为72种颜色;
对图像进行3×3区域划分;
对每一个分割块提取图像的72维颜色直方图、9维颜色矩、3维边缘分布直方图和3维Tamura纹理特征,得到207维底层特征向量。
优选地,上述对视频进行镜头分割包括以下步骤:
如果视频是压缩视频,则进行视频解码,以获得原始帧;
如果图像的颜色空间不是HSV颜色空间,则将图像的RGB颜色空间转换为HSV颜色空间;
利用基于像素域的镜头检测法进行镜头分割。
优选地,上述提取分割的每个镜头内的关键帧包括以下步骤:
计算同一镜头内所有相邻帧的帧间距离,选择所有与上一相邻帧距离差大于自适应阈值的帧作为关键帧。
优选地,上述利用半监督核密度估计算法对每个未标注样本进行类别标注包括以下步骤:
初始化标注样本后验概率;
计算样本的核密度;
计算未标注样本的后验概率;
确定未标注样本的所属类别。
优选地,初始化标注样本后验概率采用以下公式进行:
P ( C k | x j ) = l k Σ k = 1 K l k , j ∈ L
其中,j、k均属于自然数,lk为标注为类别k的样本数,表示所有样本的标注类别数,Ck为第k类的样本集合,P(Ck|xj)表示给定样本xj属于类别Ck的条件概率的初始化后验概率。
优选地,计算未标注样本的后验概率采用以下公式进行:
P ^ ( C k | x j ) = Σ i = 1 n P ( C k | x i ) κ ( x j - x i ) Σ i = 1 n κ ( x j - x i )
其中,k为标注样本类型数量,n为样本总数量,xi为标注样本,xj为未标注样本,表示未标注样本xj属于类别Ck的条件概率的后验概率估计值,P(Ck|xj)表示给定样本xj属于类别Ck的条件概率的初始化后验概率;κ(xj-xi)表示未标注样本xj的核密度;
相应地,
确定未标注样本的所属类别为:选择未标注样本的后验概率最大值对应的类别为该样本的所属类别。
根据本发明的另一个方面,提供的一种视频标注装置包括镜头分割模块、关键帧集合提取模块、特征提取模块、半监督核密度估计模块和样本标注模块,其中:
镜头分割模块,用于对视频进行镜头分割;
关键帧集合提取模块,用于提取分割的每个镜头内的关键帧集合;
特征提取模块,用于提取每个关键帧集合的相关底层特征向量;
半监督核密度估计模块:用于利用半监督核密度估计算法对每个未标注样本进行类别标注;
样本标注模块,用于对未标注样本所对应的关键帧进行类别标注;
其中,特征提取模块具体用于:对图像的HSV颜色空间进行分层,将颜色空间划分为72种颜色;对图像进行3×3区域划分;对每一个分割块提取图像的72维颜色直方图、9维颜色矩、3维边缘分布直方图和3维Tamura纹理特征,得到207维底层特征向量。
优选地,半监督核密度估计模块包括:第一计算单元、第二计算单元、第三计算单元和确定单元,其中:
第一计算单元,用于计算初始化标注样本后验概率;
第二计算单元,用于计算样本的核密度;
第三计算单元,用于计算未标注样本的后验概率;
确定单元,用于确定未标注样本的所属类别。
根据本发明的实施例,通过采用图像的多种底层特征组合的特征向量表示关键帧,减少了图像信息损失,并利用半监督核密度估计算法对每个未标注样本进行类别标注,将未标注数据引入到核密度估计中去,综合运用了标注样本和未标注样本的特征信息,提高了视频标注的效率和核密度估计的精确性,尤其适合大规模视频标注。
附图说明
图1为本发明实施例提供的一种视频标注方法的流程图;
图2为本发明优选实施例提供的一种镜头分割方法的流程图;
图3为本发明优选实施例提供的一种关键帧集合提取方法的流程图;
图4为本发明优选实施例提供的一种提取关键帧的特征向量的方法流程图;
图5为本发明优选实施例提供的图像区域划分示意图;
图6为本发明优选实施例提供的一种利用半监督核密度估计算法对每个未标注样本进行类别标注的方法流程图;
图7为本发明实施例提供的一种视频标注装置的模块结构图。
具体实施方式
为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白,以下结合附图和实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示是本发明实施例提供的一种视频标注方法流程图,该方法包括以下步骤:
S101、对视频进行镜头分割;
S102、提取每个分割镜头内的关键帧集合;
具体来说,通常同一个镜头中的各帧之间的内容有相当的冗余,因此可以选取反映一个镜头的主要信息内容的帧图像作为关键帧,用以简洁的表述镜头。在确定镜头的情况下,对镜头内的帧提取关键帧,其基本算法包括但不限于:计算同一镜头内所有相邻帧的帧间距离,找到与上一相邻帧距离差大于阈值的帧作为关键帧,如果距离差值小于距离差阈值则继续查找,直至所选的关键帧集合的相邻帧距离差均大于阈值。
S103、提取每个关键帧集合的相关底层特征向量;
对上述关键帧集合进行提取的相关底层特征向量包括但不限于颜色直方图、颜色矩、边缘分布直方图和纹理。
S104、利用半监督核密度估计算法对每个未标注样本进行类别标注;
S105、对未标注样本对应的关键帧进行类别标注。
下面对上述每个方法中各步骤的具体实现方式进行详细的描述:
请参阅图2,本发明优选实施例提供的一种镜头分割方法包括以下步骤:
S1011、如果是压缩视频,首先进行视频解码,以获得原始帧;
S1012、如果图像的颜色空间不是HSV颜色空间,则将图像的RGB颜色空间转换为HSV颜色空间,转换公式可以为:
H = arccos ( R - G ) + ( R - B ) 2 ( R - G ) * ( R - G ) + ( R - B ) * ( G - * B ) ( B ≤ G ) 2 π - arccos ( R - G ) + ( R - B ) 2 ( R - G ) * ( R - G ) + ( R - B ) * ( G - * B ) ( B > G ) - - - ( 1 )
S = max ( R , G , B ) - min ( R , G , B ) max ( R + G + B ) - - - ( 2 )
V = max ( R , G , B ) 255 - - - ( 3 )
其中,R表示红色、G表示绿色、B表示蓝色,H表示色调、S表示饱和度、V表示亮度。
S1013、利用基于像素域的镜头检测法进行镜头分割。
本步骤中,可以采用χ2直方图法进行视频镜头分割,将χ2与给定阈值τ比较,若χ2>τ,则镜头边界存在,χ2直方图计算公式为:
其中k为颜色层总数,H1(i)和H2(i)是两帧图像的第i层颜色直方图,阈值τ由所有视频相邻χ2直方图平均值确定。
当然,本实施例中也可以采用其他基于像素域的镜头检测法,如模板匹配法、基于边缘变化率的方法和基于模型的方法等。
请参阅图3,本发明优选实施例提供的一种关键帧集合提取方法包括以下步骤:
S1021、初始帧作为初始关键帧;
具体来说,读取视频镜头内的第一帧,并将这一帧作为镜头内的初始关键帧f1
S1022、计算后续帧与关键帧的相似度;
具体来说,可以依据相似度测量方法计算后续帧fj与第一帧的相似度;
S1023、判断相似度是否大于一个自适应阈值τ,如果是,则执行步骤S1024,否则返回步骤S1022;
S1024、将fj作为新的关键帧;
S1025、将fj输出到关键帧集合;
S1026、判断镜头是否结束,如果没有结束,则返回步骤S1022,否则执行步骤S1027;
S1027、结束流程。
上述自适应阈值τ的确定方法可以采用:
δ 2 = 1 T ( 1 T Σ i = 1 T [ s i - 1 T Σ i = 1 T s i ] 2 ) + 1 M - T - 1 ( 1 M - T - 1 Σ i = T + 1 M [ s i - 1 M - T - 1 Σ i = T + 1 M s i ] 2 ) - - - ( 5 )
其中,si为保存所有帧帧差结果的一维数组中的任意一个元素,M为一维数组的个数。对于所有的数组元素进行T分割,并针对所有分割计算δ2,找到最小的δ2,其所对应的T分割的数组sT即为其所用到的自适应阈值τ。
请参阅图4,本发明优选实施例提供的一种提取每个关键帧集合的相关底层特征向量包括以下步骤:
S1031、对图像的HSV颜色空间进行分层。
颜色空间分层有多种方式,本步骤中以将HSV颜色空间的色调H分成8份,饱和度S和亮度V分成3份,共得72种颜色为例,其分层公式为:
H = 0 if h ∈ [ 316,20 ] 1 if h ∈ [ 21,40 ] 2 if h ∈ [ 41,75 ] 3 if h ∈ [ 76,155 ] 4 if h ∈ [ 156,190 ] 5 if h ∈ [ 191,270 ] 6 if h ∈ [ 271,195 ] 7 if h ∈ [ 296,315 ] - - - ( 6 )
S = 0 if s ∈ [ 0,0.2 ] 1 if s ∈ [ 0.2,0.7 ] 2 if s ∈ [ 0.7,1 ] - - - ( 7 )
V = 0 if v ∈ [ 0,0.2 ] 1 if v ∈ [ 0.2,0.7 ] 2 if v ∈ [ 0.7,1 ] - - - ( 8 )
根据以上方法将颜色空间划分为72种颜色。
S1032、提取图像的颜色直方图。
本步骤中将对图像的HSV颜色空间进行分层得到的N种颜色中提取N维颜色直方图,其中,N为自然数。
S1033、对图像进行区域划分。
请参阅图5,本实施例中可以将图像分割为3×3区域,当然,还可以采用其他划分方式。
S1034、提取图像的颜色矩。
在图像分割的3×3区域(图5),每个区域提取颜色矩的一阶矩(均值u)、二阶矩(标准方差σ)、三阶矩(偏度s),共提取81维颜色矩,提取公式为:
u i = 1 N Σ j = 1 N p ij - - - ( 9 )
σ i = ( 1 N Σ j = 1 N ( p ij - u i ) 2 ) 1 / 2 - - - ( 10 )
s i = ( 1 N Σ j = 1 N ( p ij - u i ) 3 ) 1 / 3 - - - ( 11 )
其中N为第i帧图像的像素点总数,pij为第j个像素值。
S1035、对图像进行边缘检测,提取边缘分布直方图;
边缘分布直方图主要是用来统计图像或其中某一局部边缘的分布情况。边缘分布直方图一般是通过检测算法获得边缘信息,再对边缘分布的方向性按一定角度间隔进行统计。
目前Canny算子是公认最好的图像边缘检测算子之一,其优越性在于利用两个不同的阀值来检测强边缘和弱边缘,当一个弱边缘和一个强边缘连通时,在输出强边缘的同时输出弱边缘,否则弱边缘不会被输出,这样可以减少噪声对于边缘检测的干扰,同时又不会丢失弱边缘信息。
本实施例中可以利用Canny算子对图像进行边缘检测,对Canny算子边缘提取后的图像,对边缘方向以一定角度为范围进行划分(仍然采取3×3划分,如图5),形成一个若干级的边缘分布直方图,最后得到的27维边缘分布直方图进行归一化处理:
H[i]=H[i]/S    (12)
其中H[i]为边缘方向直方图,S为图像的面积。
S1036、提取图像的Tamura纹理;
Tamura纹理有六个视觉性质:粗细度(Coarseness)、对比度(Contrast)、方向性(Directionality)、线状性(Linelikeness)、规则性(Regularity)和粗糙度(Roughness),只使用前三个,后三个性质与前三个有较大的相关性,根据如图5的划分区域,提取27维Tamura纹理,其计算公式为:
Coarseness = 1 mn Σ i = 1 m Σ j = 1 n S best ( i , j ) - - - ( 13 )
其中i,j为宽度为m高度为n的图像的像素点的坐标,设E(包括水平、垂直两个方向)为像素点的平均强度差值,(x,y)代表所选图像区域,则使E达到最大的最佳尺寸Sbest由下面的公式联合确定:
Sbest(x,y)=2k
Ek=Emax=max(E1,E2,…,Eh)
Contrast = σ α 4 1 / 4 , α 4 = u 4 σ 4 - - - ( 14 )
其中σ为图像灰度的标准方差,α4是图像灰度值的峰度,u4是四阶矩均值。
Directionality = Σ p n p Σ φ ∈ w p ( φ - φ p ) 2 H D ( φ ) - - - ( 15 )
φ是梯度角度所在区间的最大值,np是每个区域内梯度角度大于给定阈值的像素数量,HD(φ)是所有像素的梯度向量数目构造的直方图,φp表示该直方图中的峰值位置,wp代表p所包含的量化值范围,p即为某个峰值。
需要说明地是,上述步骤S1032、S1033和S1034之间是没有执行顺序的。
S1037、输出图像的特征向量。
通过上述步骤最后得到有颜色直方图、颜色矩、边缘分布直方图和Taumura纹理组成的207维底层特征向量。
如图6所示是本发明优选实施例提供的一种利用半监督核密度估计算法对每个未标注样本进行类别标注的方法流程图。
在上述步骤S102所获得的关键帧集合中,使用特征向量代表关键帧,每个特征向量代表一个关键帧样本xi,设标注样本有K类,有l个标注样本L={x1,x2,…,xl}和u个未标注样本U={xl+1,…,xl+u},n=l+u,本实施例中使用一种扩展的核密度概率函数估计公式(16):
P ^ ( x | C k ) = Σ i = 1 n P ( C k | x i ) κ ( x - x i ) Σ i = 1 n P ( C k | x i ) - - - ( 16 )
其中,表示样本x属于类别Ck的概率(即样本的后验概率),P(Ck|xi)表示样本xi属于类别Ck的条件概率的初始化后验概率;k为标注样本类型数量,n为样本总数量,xi为标注样本,x为指定样本,κ(x-xi)表示指定样本x的核密度。
将上述公式中的样本x变量用具体的未标注样本xj代替,则未标注样本xj的后验概率为公式(17):
P ^ ( C k | x j ) = Σ i = 1 n P ( C k | x i ) κ ( x j - x i ) Σ i = 1 n κ ( x j - x i ) - - - ( 17 )
其中,k为标注样本类型数量,n为样本总数量,xi为标注样本,xj为未标注样本,表示未标注样本xj属于类别Ck的条件概率的后验概率估计值,P(Ck|xj)表示给定样本xj属于类别Ck的条件概率的初始化后验概率;κ(xj-xi)表示未标注样本xj的核密度。
该估计算法同时包含了标注样本和未标注样本的信息,大大提高了核密度估计的精确性。请参阅图6,利用半监督核密度估计算法对每个未标注样本进行类别标注包括以下步骤:
S1041、初始化标注样本后验概率P(Ck|xj);
本步骤中可以采用以下公式进行:
P ( C k | x j ) = l k Σ k = 1 K l k , j ∈ L - - - ( 18 )
其中lk为标注为类别k的样本数,表示所有样本的标注类别数,Ck为第k类的样本集合,j、k均属于自然数。
S1042、计算样本的核密度κ(xj-xi);
本步骤中可以采用多种方式计算核密度,举例而言,当采用高斯核时,可以利用下述公式进行:
κ ( x j - x i ) = 1 ( 2 π ) d / 2 σ d exp ( - | | x j - x i | | / 2 σ 2 ) - - - ( 19 )
其中,取d=1;xi为标注样本,xj为未标注样本,exp为自然数e,σ为所有样本的标准差。
当采用指数核时,按下述公式进行:
κ ( x j - x i ) = 1 ( 2 σ ) d exp ( - | | x j - x i | | / σ ) - - - ( 20 )
其中,取d=1;xi为标注样本,xj为未标注样本,exp为自然数e,σ为所有样本的标准差。
S1043、计算未标注样本xj的后验概率
本步骤具体采用上述公式(17)进行,具体参见上述说明,这里不重复。
S1044、确定未标注样本的所属类别;
具体来说,本步骤比较上述未标注样本xj的后验概率值,取最大值对应的类别为该样本的所属类别,以便对样本xj对应的关键帧进行类别标注。
如图7所示为本发明实施例提供的一种视频标注装置的模块结构图,图中,该装置包括镜头分割模块10、关键帧集合提取模块20、特征提取模块30、半监督核密度估计模块40和样本标注模块50,其中:
镜头分割模块10,用于对视频进行镜头分割;
关键帧集合提取模块20,用于提取每个镜头内的关键帧集合;
特征提取模块30,用于提取每个关键帧集合的相关底层特征向量;
半监督核密度估计模块40,用于利用半监督核密度估计算法对每个未标注样本进行类别标注;
样本标注模块50,用于对样本对应的关键帧进行类别标注。
优选地,该特征提取模块30具体用于提取每个关键帧集合的颜色直方图、颜色矩、边缘分布直方图和纹理特征的任意组合。
具体来说,半监督核密度估计模块包括40:第一计算单元401、第二计算单元402、第三计算单元403和确定单元404,其中:
第一计算单元401,用于初始化标注样本后验概率;
第二计算单元402,用于计算样本的核密度;
第三计算单元403,用于计算未标注样本的后验概率;
确定单元404,用于确定所述未标注样本的所属类别。
优选地,第一计算单元401具体用于采用上述公式(18)初始化标注样本后验概率;第二计算单元402具体用于采用上述公式(19)或者(20)计算样本的核密度;第三计算单元403具体采用公式(17)进行计算未标注样本的后验概率,确定单元404具体用于比较上述未标注样本的后验概率值,取最大值对应的类别为该样本的所属类别。
需要说明的是,上述方法实施例中的技术特征在本实施例中同样适用,这里不再重述。
本发明的实施例,通过采用图像的多种底层特征组合的特征向量表示关键帧,减少了图像信息损失,并利用半监督核密度估计算法对每个未标注样本进行类别标注,将未标注数据引入到核密度估计中去,综合运用了标注样本和未标注样本的特征信息,提高了视频标注的效率和核密度估计的精确性,尤其适合大规模视频标注,尤其适合大规模视频标注。
以上参照附图说明了本发明的优选实施例,并非因此局限本发明的权利范围。本领域技术人员不脱离本发明的范围和实质,可以有多种变型方案实现本发明,比如作为一个实施例的特征可用于另一实施例而得到又一实施例。凡在运用本发明的技术构思之内所作的任何修改、等同替换和改进,均应在本发明的权利范围之内。

Claims (8)

1.一种视频标注方法,其特征在于,该方法包括以下步骤:
对视频进行镜头分割;
提取所述分割的每个镜头内的关键帧集合;
提取所述每个关键帧集合的相关底层特征向量;
利用半监督核密度估计算法对每个未标注样本进行类别标注;
对未标注样本所对应的关键帧进行类别标注;
其中,所述提取所述每个关键帧集合的相关底层特征向量进一步包括以下步骤:
对图像的HSV颜色空间按以下公式进行分层,将颜色空间划分为72种颜色:
H = 0 if h ∈ [ 316,20 ] 1 if h ∈ [ 21,40 ] 2 if h ∈ [ 41,75 ] 3 if h ∈ [ 76,155 ] 4 if h ∈ [ 156,190 ] 5 if h ∈ [ 191,270 ] 6 if h ∈ [ 271,195 ] 7 if h ∈ [ 296,315 ]
S = 0 if s ∈ [ 0,0.2 ] 1 if s ∈ [ 0.2,0.7 ] 2 if s ∈ [ 0.7,1 ]
V = 0 if v ∈ [ 0,0.2 ] 1 if v ∈ [ 0.2,0.7 ] 2 if v ∈ [ 0.7,1 ]
其中,H表示色调,S表示饱和度,V表示亮度;
对图像进行3×3区域划分;
对每一个分割块提取图像的72维颜色直方图、9维颜色矩、3维边缘分布直方图和3维Tamura纹理特征,得到207维底层特征向量。
2.根据权利要求1所述的一种视频标注方法,其特征在于,所述对视频进行镜头分割包括以下步骤:
如果所述视频是压缩视频,则进行视频解码,以获得原始帧;
如果图像的颜色空间不是HSV颜色空间,则将图像的RGB颜色空间转换为HSV颜色空间;
利用基于像素域的镜头检测法进行镜头分割。
3.根据权利要求1所述的一种视频标注方法,其特征在于,所述提取分割的每个镜头内的关键帧包括以下步骤:
计算同一镜头内所有相邻帧的帧间距离,选择所有与上一相邻帧距离差大于自适应阈值的帧作为关键帧。
4.根据权利要求1所述的一种视频标注方法,其特征在于,所述利用半监督核密度估计算法对每个未标注样本进行类别标注包括以下步骤:
初始化标注样本后验概率;
计算样本的核密度;
计算未标注样本的后验概率;
确定所述未标注样本的所属类别。
5.根据权利要求4所述的一种视频标注方法,其特征在于,所述初始化标注样本后验概率采用以下公式进行:
P ( C k | x j ) = l k Σ k = 1 K l k , j ∈ L
其中,j、k均属于自然数,lk为标注为类别k的样本数,表示所有样本的标注类别数,Ck为第k类的样本集合,P(Ck|xj)表示给定样本xj属于类别Ck的条件概率的初始化后验概率。
6.根据权利要求4所述的一种视频标注方法,其特征在于,所述计算未标注样本的后验概率采用以下公式进行:
P ^ ( C k | x j ) = Σ i = 1 n P ( C k | x i ) κ ( x j - x i ) Σ i = 1 n κ ( x j - x i )
其中,k为标注样本类型数量,n为样本总数量,xi为标注样本,xj为未标注样本,表示未标注样本xj属于类别Ck的条件概率的后验概率估计值,P(Ck|xj)表示给定样本xj属于类别Ck的条件概率的初始化后验概率;κ(xj-xi)表示未标注样本xj的核密度;
相应地,
所述确定所述未标注样本的所属类别为:选择未标注样本的后验概率最大值对应的类别为该样本的所属类别。
7.一种视频标注装置,其特征在于,该装置包括镜头分割模块、关键帧集合提取模块、特征提取模块、半监督核密度估计模块和样本标注模块,其中:
镜头分割模块,用于对视频进行镜头分割;
关键帧集合提取模块,用于提取所述分割的每个镜头内的关键帧集合;
特征提取模块,用于提取所述每个关键帧集合的相关底层特征向量;
半监督核密度估计模块:用于利用半监督核密度估计算法对每个未标注样本进行类别标注;
样本标注模块,用于对未标注样本所对应的关键帧进行类别标注;
其中,所述特征提取模块具体用于:对图像的HSV颜色空间按以下公式进行分层,将颜色空间划分为72种颜色:
H = 0 if h ∈ [ 316,20 ] 1 if h ∈ [ 21,40 ] 2 if h ∈ [ 41,75 ] 3 if h ∈ [ 76,155 ] 4 if h ∈ [ 156,190 ] 5 if h ∈ [ 191,270 ] 6 if h ∈ [ 271,195 ] 7 if h ∈ [ 296,315 ]
S = 0 if s ∈ [ 0,0.2 ] 1 if s ∈ [ 0.2,0.7 ] 2 if s ∈ [ 0.7,1 ]
V = 0 if v ∈ [ 0,0.2 ] 1 if v ∈ [ 0.2,0.7 ] 2 if v ∈ [ 0.7,1 ]
其中,H表示色调,S表示饱和度,V表示亮度;
对图像进行3×3区域划分;对每一个分割块提取图像的72维颜色直方图、9维颜色矩、3维边缘分布直方图和3维Tamura纹理特征,得到207维底层特征向量。
8.根据权利要求7所述的一种视频标注装置,其特征在于,所述半监督核密度估计模块包括:第一计算单元、第二计算单元、第三计算单元和确定单元,其中:
第一计算单元,用于计算初始化标注样本后验概率;
第二计算单元,用于计算样本的核密度;
第三计算单元,用于计算未标注样本的后验概率;
确定单元,用于确定所述未标注样本的所属类别。
CN201210566985.5A 2012-12-24 2012-12-24 一种视频标注方法和装置 Expired - Fee Related CN103065300B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210566985.5A CN103065300B (zh) 2012-12-24 2012-12-24 一种视频标注方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210566985.5A CN103065300B (zh) 2012-12-24 2012-12-24 一种视频标注方法和装置

Publications (2)

Publication Number Publication Date
CN103065300A CN103065300A (zh) 2013-04-24
CN103065300B true CN103065300B (zh) 2015-03-25

Family

ID=48107917

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210566985.5A Expired - Fee Related CN103065300B (zh) 2012-12-24 2012-12-24 一种视频标注方法和装置

Country Status (1)

Country Link
CN (1) CN103065300B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103475935A (zh) * 2013-09-06 2013-12-25 北京锐安科技有限公司 一种视频片段的检索方法及装置
CN106339655A (zh) * 2015-07-06 2017-01-18 无锡天脉聚源传媒科技有限公司 一种视频镜头标注方法及装置
CN106603916A (zh) * 2016-12-14 2017-04-26 天脉聚源(北京)科技有限公司 一种关键帧检测方法及装置
CN106649855B (zh) * 2016-12-30 2019-06-21 中广热点云科技有限公司 一种视频标签的添加方法和添加***
CN106919652B (zh) * 2017-01-20 2018-04-06 东北石油大学 基于多源多视角直推式学习的短视频自动标注方法与***
CN107133569B (zh) * 2017-04-06 2020-06-16 同济大学 基于泛化多标记学习的监控视频多粒度标注方法
CN108475430B (zh) * 2017-04-10 2022-01-28 深圳市柔宇科技股份有限公司 图片质量评估方法及装置
TWI651662B (zh) * 2017-11-23 2019-02-21 財團法人資訊工業策進會 影像標註方法、電子裝置及非暫態電腦可讀取儲存媒體
CN108235116B (zh) * 2017-12-27 2020-06-16 北京市商汤科技开发有限公司 特征传播方法和装置、电子设备和介质
CN110913243B (zh) * 2018-09-14 2021-09-14 华为技术有限公司 一种视频审核的方法、装置和设备
CN110263645B (zh) * 2019-05-21 2021-02-19 新华智云科技有限公司 一种用于足球比赛视频中球队攻防判断的方法及***
CN110865756B (zh) * 2019-11-12 2022-07-15 苏州智加科技有限公司 图像标注方法、装置、设备及存储介质
CN113344932B (zh) * 2021-06-01 2022-05-03 电子科技大学 一种半监督的单目标视频分割方法
CN113506610A (zh) * 2021-07-08 2021-10-15 联仁健康医疗大数据科技股份有限公司 标注规范生成方法、装置、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1997114A (zh) * 2006-09-14 2007-07-11 浙江大学 一种基于轮廓时空特征的视频对象标注方法
CN101141633A (zh) * 2007-08-28 2008-03-12 湖南大学 一种复杂场景中的运动目标检测与跟踪方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1997114A (zh) * 2006-09-14 2007-07-11 浙江大学 一种基于轮廓时空特征的视频对象标注方法
CN101141633A (zh) * 2007-08-28 2008-03-12 湖南大学 一种复杂场景中的运动目标检测与跟踪方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于核密度的半监督学习算法在视频语义标注中的应用;游前慧;《中国优秀硕士论文》;20080630;第10页-第14页2.1节,第18页2.2.1节-19页2.2.2节,第36页-第38页3.4.2节,第46页 *

Also Published As

Publication number Publication date
CN103065300A (zh) 2013-04-24

Similar Documents

Publication Publication Date Title
CN103065300B (zh) 一种视频标注方法和装置
Scharfenberger et al. Statistical textural distinctiveness for salient region detection in natural images
Cimpoi et al. Deep filter banks for texture recognition and segmentation
Jia et al. Category-independent object-level saliency detection
Ravì et al. Semantic segmentation of images exploiting DCT based features and random forest
Han et al. Density-based multifeature background subtraction with support vector machine
Cimpoi et al. Deep convolutional filter banks for texture recognition and segmentation
CN109151501A (zh) 一种视频关键帧提取方法、装置、终端设备及存储介质
CN112153483B (zh) 信息植入区域的检测方法、装置及电子设备
US9626585B2 (en) Composition modeling for photo retrieval through geometric image segmentation
CN109522908A (zh) 基于区域标签融合的图像显著性检测方法
Varnousfaderani et al. Weighted color and texture sample selection for image matting
Hu et al. Robust subspace analysis for detecting visual attention regions in images
Daniilidis et al. Computer Vision--ECCV 2010: 11th European Conference on Computer Vision, Heraklion, Crete, Greece, September 5-11, 2010, Proceedings, Part V
CN103336835A (zh) 基于权值color-sift特征字典的图像检索方法
Wang et al. Learning to resize image
CN107967480A (zh) 一种基于标签语义的显著对象提取方法
Singh et al. A novel position prior using fusion of rule of thirds and image center for salient object detection
Zhao et al. Efficient image decolorization with a multimodal contrast-preserving measure
Zhong et al. Background subtraction driven seeds selection for moving objects segmentation and matting
Lu et al. Real-time video stylization using object flows
Zheng et al. Superpixel-based image recognition for food images
Riche et al. Bottom-up saliency models for still images: A practical review
Zhao et al. Iterative figure-ground discrimination
Zhou et al. Modeling perspective effects in photographic composition

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20150325

Termination date: 20171224

CF01 Termination of patent right due to non-payment of annual fee