CN103065300B

CN103065300B - 一种视频标注方法和装置

Info

Publication number: CN103065300B
Application number: CN201210566985.5A
Authority: CN
Inventors: 秦兴德; 吴金勇; 王一科; 王军; 钟翔宇
Original assignee: China Security and Surveillance Technology PRC Inc
Current assignee: China Security and Surveillance Technology PRC Inc
Priority date: 2012-12-24
Filing date: 2012-12-24
Publication date: 2015-03-25
Anticipated expiration: 2032-12-24
Also published as: CN103065300A

Abstract

本发明公开了一种视频标注方法和装置，属于视频处理领域，该方法包括:对视频进行镜头分割；提取分割的每个镜头内的关键帧集合；提取每个关键帧集合的相关底层特征向量；利用半监督核密度估计算法对每个未标注样本进行类别标注；对未标注样本所对应的关键帧进行类别标注。采用本发明的实施例，通过采用图像的多种底层特征组合的特征向量表示关键帧，减少了图像信息损失，并利用半监督核密度估计算法对每个未标注样本进行类别标注，将未标注数据引入到核密度估计中去，综合运用了标注样本和未标注样本的特征信息，提高了视频标注的效率和核密度估计的精确性。

Description

一种视频标注方法和装置

技术领域

本发明涉及视频处理和机器学习领域，特别涉及一种视频标注方法和装置。

背景技术

随着计算机和网络技术的发展，使得普通用户可以接触越来越多的视频数据。视频数据提供了大量有用的信息，其内容比其他形式的数据更加丰富、直观和生动。一方面，丰富的视频数据包含的海量信息是其它媒体无法比拟的；但在另一方面，其日益庞大的数据量、非结构化的数据形式和内容的多义性，又为方便的用户交互操作设置了障碍，影响了它发挥更大的作用。

为了挖掘大型视频集中潜在价值，用户需要能够有效地检索到所需要的视频片段。视频标注，是将文本和视频语义内容联系起来的技术，是一种很好的减少语义差距的方式并可以用于视频检索的中间步骤，使得用户可以通过输入视频的关键帧或语义信息进行检索。

在实际应用中，对大量视频进行标注是比较困难的，首先使用人工的方法去标注一个视频集需要耗费大量的时间和精力，用户往往没有足够的耐性来完成整个样本集的标注；其次，使用低级别的特征向量来提取能够表达视频内容的语义非常困难。

如何对尽量少的样本进行人工标注及多种形式的底层特征，并获得较好的视频标注性能成为视频标注的一个关键问题。由于机器学习理论相对成熟，可以为视频标注提供理论分析的依据和各种可能的解决方案，因此一般认为它是解决视频标注问题比较适合的方法。目前，视频标注的研究主要集中于如何利用学习方法并结合视频的特点来提高标注的准确性。许多机器学习方法如支持向量机(Support Vector Machines，简称SVM)、贝叶斯分类、随机森林(RandomForest)等集中考虑了标注样本的信息，而大量的未标注样本所包含的信息被浪费。

发明内容

为克服现有技术中处理标注数据少而未标注数量大量存在，以及单一特征表达信息少的不足，本发明提供一种视频标注方法和装置，将未标注数据引入到核密度估计中去，综合运用了标注样本和未标注样本的特征信息，提高了视频标注的效率和核密度估计的精确性。

本发明解决上述技术问题所采用的技术方案如下：

根据本发明的一个方面，提供的一种视频标注方法包括以下步骤：

对视频进行镜头分割；

提取分割的每个镜头内的关键帧集合；

提取每个关键帧集合的相关底层特征向量；

利用半监督核密度估计算法对每个未标注样本进行类别标注；

对未标注样本所对应的关键帧进行类别标注；

其中，提取每个关键帧集合的相关底层特征向量进一步包括以下步骤：

对图像的HSV颜色空间进行分层，将颜色空间划分为72种颜色；

对图像进行3×3区域划分；

对每一个分割块提取图像的72维颜色直方图、9维颜色矩、3维边缘分布直方图和3维Tamura纹理特征，得到207维底层特征向量。

优选地，上述对视频进行镜头分割包括以下步骤：

如果视频是压缩视频，则进行视频解码，以获得原始帧；

如果图像的颜色空间不是HSV颜色空间，则将图像的RGB颜色空间转换为HSV颜色空间；

利用基于像素域的镜头检测法进行镜头分割。

优选地，上述提取分割的每个镜头内的关键帧包括以下步骤：

计算同一镜头内所有相邻帧的帧间距离，选择所有与上一相邻帧距离差大于自适应阈值的帧作为关键帧。

优选地，上述利用半监督核密度估计算法对每个未标注样本进行类别标注包括以下步骤：

初始化标注样本后验概率；

计算样本的核密度；

计算未标注样本的后验概率；

确定未标注样本的所属类别。

优选地，初始化标注样本后验概率采用以下公式进行：

P (C_{k} | x_{j}) = \frac{l_{k}}{Σ_{k = 1}^{K} l_{k}}, j &Element; L

其中，j、k均属于自然数，l_k为标注为类别k的样本数，表示所有样本的标注类别数，C_k为第k类的样本集合，P(C_k|x_j)表示给定样本x_j属于类别C_k的条件概率的初始化后验概率。

优选地，计算未标注样本的后验概率采用以下公式进行：

\hat{P} (C_{k} | x_{j}) = \frac{Σ_{i = 1}^{n} P (C_{k} | x_{i}) κ (x_{j} - x_{i})}{Σ_{i = 1}^{n} κ (x_{j} - x_{i})}

其中，k为标注样本类型数量，n为样本总数量，x_i为标注样本，x_j为未标注样本，表示未标注样本x_j属于类别C_k的条件概率的后验概率估计值，P(C_k|x_j)表示给定样本x_j属于类别C_k的条件概率的初始化后验概率；κ(x_j-x_i)表示未标注样本x_j的核密度；

相应地，

确定未标注样本的所属类别为：选择未标注样本的后验概率最大值对应的类别为该样本的所属类别。

根据本发明的另一个方面，提供的一种视频标注装置包括镜头分割模块、关键帧集合提取模块、特征提取模块、半监督核密度估计模块和样本标注模块，其中：

镜头分割模块，用于对视频进行镜头分割；

关键帧集合提取模块，用于提取分割的每个镜头内的关键帧集合；

特征提取模块，用于提取每个关键帧集合的相关底层特征向量；

半监督核密度估计模块：用于利用半监督核密度估计算法对每个未标注样本进行类别标注；

样本标注模块，用于对未标注样本所对应的关键帧进行类别标注；

其中，特征提取模块具体用于：对图像的HSV颜色空间进行分层，将颜色空间划分为72种颜色；对图像进行3×3区域划分；对每一个分割块提取图像的72维颜色直方图、9维颜色矩、3维边缘分布直方图和3维Tamura纹理特征，得到207维底层特征向量。

优选地，半监督核密度估计模块包括：第一计算单元、第二计算单元、第三计算单元和确定单元，其中：

第一计算单元，用于计算初始化标注样本后验概率；

第二计算单元，用于计算样本的核密度；

第三计算单元，用于计算未标注样本的后验概率；

确定单元，用于确定未标注样本的所属类别。

根据本发明的实施例，通过采用图像的多种底层特征组合的特征向量表示关键帧，减少了图像信息损失，并利用半监督核密度估计算法对每个未标注样本进行类别标注，将未标注数据引入到核密度估计中去，综合运用了标注样本和未标注样本的特征信息，提高了视频标注的效率和核密度估计的精确性，尤其适合大规模视频标注。

附图说明

图1为本发明实施例提供的一种视频标注方法的流程图；

图2为本发明优选实施例提供的一种镜头分割方法的流程图；

图3为本发明优选实施例提供的一种关键帧集合提取方法的流程图；

图4为本发明优选实施例提供的一种提取关键帧的特征向量的方法流程图；

图5为本发明优选实施例提供的图像区域划分示意图；

图6为本发明优选实施例提供的一种利用半监督核密度估计算法对每个未标注样本进行类别标注的方法流程图；

图7为本发明实施例提供的一种视频标注装置的模块结构图。

具体实施方式

为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白，以下结合附图和实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示是本发明实施例提供的一种视频标注方法流程图，该方法包括以下步骤：

S101、对视频进行镜头分割；

S102、提取每个分割镜头内的关键帧集合；

具体来说，通常同一个镜头中的各帧之间的内容有相当的冗余，因此可以选取反映一个镜头的主要信息内容的帧图像作为关键帧，用以简洁的表述镜头。在确定镜头的情况下，对镜头内的帧提取关键帧，其基本算法包括但不限于：计算同一镜头内所有相邻帧的帧间距离，找到与上一相邻帧距离差大于阈值的帧作为关键帧，如果距离差值小于距离差阈值则继续查找，直至所选的关键帧集合的相邻帧距离差均大于阈值。

S103、提取每个关键帧集合的相关底层特征向量；

对上述关键帧集合进行提取的相关底层特征向量包括但不限于颜色直方图、颜色矩、边缘分布直方图和纹理。

S104、利用半监督核密度估计算法对每个未标注样本进行类别标注；

S105、对未标注样本对应的关键帧进行类别标注。

下面对上述每个方法中各步骤的具体实现方式进行详细的描述：

请参阅图2，本发明优选实施例提供的一种镜头分割方法包括以下步骤：

S1011、如果是压缩视频，首先进行视频解码，以获得原始帧；

S1012、如果图像的颜色空间不是HSV颜色空间，则将图像的RGB颜色空间转换为HSV颜色空间，转换公式可以为：

H = \{\begin{matrix} \arccos \frac{(R - G) + (R - B)}{2 \sqrt{(R - G) * (R - G) + (R - B) * (G - * B)}} (B \leq G) \\ 2 π - \arccos \frac{(R - G) + (R - B)}{2 \sqrt{(R - G) * (R - G) + (R - B) * (G - * B)}} (B > G) \end{matrix} - - - (1)

S = \frac{\max (R, G, B) - \min (R, G, B)}{\max (R + G + B)} - - - (2)

V = \frac{\max (R, G, B)}{255} - - - (3)

其中，R表示红色、G表示绿色、B表示蓝色，H表示色调、S表示饱和度、V表示亮度。

S1013、利用基于像素域的镜头检测法进行镜头分割。

本步骤中，可以采用χ²直方图法进行视频镜头分割，将χ²与给定阈值τ比较，若χ²＞τ，则镜头边界存在，χ²直方图计算公式为：

其中k为颜色层总数，H₁(i)和H₂(i)是两帧图像的第i层颜色直方图，阈值τ由所有视频相邻χ²直方图平均值确定。

当然，本实施例中也可以采用其他基于像素域的镜头检测法，如模板匹配法、基于边缘变化率的方法和基于模型的方法等。

请参阅图3，本发明优选实施例提供的一种关键帧集合提取方法包括以下步骤：

S1021、初始帧作为初始关键帧；

具体来说，读取视频镜头内的第一帧，并将这一帧作为镜头内的初始关键帧f₁；

S1022、计算后续帧与关键帧的相似度；

具体来说，可以依据相似度测量方法计算后续帧f_j与第一帧的相似度；

S1023、判断相似度是否大于一个自适应阈值τ，如果是，则执行步骤S1024，否则返回步骤S1022；

S1024、将f_j作为新的关键帧；

S1025、将f_j输出到关键帧集合；

S1026、判断镜头是否结束，如果没有结束，则返回步骤S1022，否则执行步骤S1027；

S1027、结束流程。

上述自适应阈值τ的确定方法可以采用：

δ^{2} = \frac{1}{T} (\frac{1}{T} Σ_{i = 1}^{T} {[s_{i} - \frac{1}{T} Σ_{i = 1}^{T} s_{i}]}^{2}) + \frac{1}{M - T - 1} (\frac{1}{M - T - 1} Σ_{i = T + 1}^{M} {[s_{i} - \frac{1}{M - T - 1} Σ_{i = T + 1}^{M} s_{i}]}^{2}) - - - (5)

其中，s_i为保存所有帧帧差结果的一维数组中的任意一个元素，M为一维数组的个数。对于所有的数组元素进行T分割，并针对所有分割计算δ²，找到最小的δ²，其所对应的T分割的数组s_T即为其所用到的自适应阈值τ。

请参阅图4，本发明优选实施例提供的一种提取每个关键帧集合的相关底层特征向量包括以下步骤：

S1031、对图像的HSV颜色空间进行分层。

颜色空间分层有多种方式，本步骤中以将HSV颜色空间的色调H分成8份，饱和度S和亮度V分成3份，共得72种颜色为例，其分层公式为：

H = \{\begin{matrix} 0 & if & h &Element; [316,20] \\ 1 & if & h &Element; [21,40] \\ 2 & if & h &Element; [41,75] \\ 3 & if & h &Element; [76,155] \\ 4 & if & h &Element; [156,190] \\ 5 & if & h &Element; [191,270] \\ 6 & if & h &Element; [271,195] \\ 7 & if & h &Element; [296,315] \end{matrix} - - - (6)

S = \{\begin{matrix} 0 & if & s &Element; [0,0.2] \\ 1 & if & s &Element; [0.2,0.7] \\ 2 & if & s &Element; [0.7,1] \end{matrix} - - - (7)

V = \{\begin{matrix} 0 & if & v &Element; [0,0.2] \\ 1 & if & v &Element; [0.2,0.7] \\ 2 & if & v &Element; [0.7,1] \end{matrix} - - - (8)

根据以上方法将颜色空间划分为72种颜色。

S1032、提取图像的颜色直方图。

本步骤中将对图像的HSV颜色空间进行分层得到的N种颜色中提取N维颜色直方图，其中，N为自然数。

S1033、对图像进行区域划分。

请参阅图5，本实施例中可以将图像分割为3×3区域，当然，还可以采用其他划分方式。

S1034、提取图像的颜色矩。

在图像分割的3×3区域(图5)，每个区域提取颜色矩的一阶矩(均值u)、二阶矩(标准方差σ)、三阶矩(偏度s)，共提取81维颜色矩，提取公式为：

u_{i} = \frac{1}{N} Σ_{j = 1}^{N} p_{ij} - - - (9)

σ_{i} = {(\frac{1}{N} Σ_{j = 1}^{N} {(p_{ij} - u_{i})}^{2})}^{1 / 2} - - - (10)

s_{i} = {(\frac{1}{N} Σ_{j = 1}^{N} {(p_{ij} - u_{i})}^{3})}^{1 / 3} - - - (11)

其中N为第i帧图像的像素点总数，p_ij为第j个像素值。

S1035、对图像进行边缘检测，提取边缘分布直方图；

边缘分布直方图主要是用来统计图像或其中某一局部边缘的分布情况。边缘分布直方图一般是通过检测算法获得边缘信息，再对边缘分布的方向性按一定角度间隔进行统计。

目前Canny算子是公认最好的图像边缘检测算子之一，其优越性在于利用两个不同的阀值来检测强边缘和弱边缘，当一个弱边缘和一个强边缘连通时，在输出强边缘的同时输出弱边缘，否则弱边缘不会被输出，这样可以减少噪声对于边缘检测的干扰，同时又不会丢失弱边缘信息。

本实施例中可以利用Canny算子对图像进行边缘检测，对Canny算子边缘提取后的图像，对边缘方向以一定角度为范围进行划分(仍然采取3×3划分，如图5)，形成一个若干级的边缘分布直方图，最后得到的27维边缘分布直方图进行归一化处理:

H[i]＝H[i]/S (12)

其中H[i]为边缘方向直方图，S为图像的面积。

S1036、提取图像的Tamura纹理；

Tamura纹理有六个视觉性质:粗细度(Coarseness)、对比度(Contrast)、方向性(Directionality)、线状性(Linelikeness)、规则性(Regularity)和粗糙度(Roughness)，只使用前三个，后三个性质与前三个有较大的相关性，根据如图5的划分区域，提取27维Tamura纹理，其计算公式为：

Coarseness = \frac{1}{mn} Σ_{i = 1}^{m} Σ_{j = 1}^{n} S_{best} (i, j) - - - (13)

其中i,j为宽度为m高度为n的图像的像素点的坐标，设E(包括水平、垂直两个方向)为像素点的平均强度差值，(x,y)代表所选图像区域，则使E达到最大的最佳尺寸S_best由下面的公式联合确定：

S_best(x,y)＝2^k

E_k＝E_max＝max(E₁,E₂,…,E_h)

Contrast = \frac{σ}{α_{4}^{1 / 4}}, α_{4} = \frac{u_{4}}{σ^{4}} - - - (14)

其中σ为图像灰度的标准方差，α₄是图像灰度值的峰度，u₄是四阶矩均值。

Directionality = Σ_{p}^{n_{p}} \underset{φ &Element; w_{p}}{Σ} {(φ - φ_{p})}^{2} H_{D} (φ) - - - (15)

φ是梯度角度所在区间的最大值，n_p是每个区域内梯度角度大于给定阈值的像素数量，H_D(φ)是所有像素的梯度向量数目构造的直方图，φ_p表示该直方图中的峰值位置，w_p代表p所包含的量化值范围，p即为某个峰值。

需要说明地是，上述步骤S1032、S1033和S1034之间是没有执行顺序的。

S1037、输出图像的特征向量。

通过上述步骤最后得到有颜色直方图、颜色矩、边缘分布直方图和Taumura纹理组成的207维底层特征向量。

如图6所示是本发明优选实施例提供的一种利用半监督核密度估计算法对每个未标注样本进行类别标注的方法流程图。

在上述步骤S102所获得的关键帧集合中，使用特征向量代表关键帧，每个特征向量代表一个关键帧样本x_i，设标注样本有K类，有l个标注样本L＝{x₁,x₂,…,x_l}和u个未标注样本U＝{x_l+1,…,x_l+u}，n＝l+u，本实施例中使用一种扩展的核密度概率函数估计公式(16)：

\hat{P} (x | C_{k}) = \frac{Σ_{i = 1}^{n} P (C_{k} | x_{i}) κ (x - x_{i})}{Σ_{i = 1}^{n} P (C_{k} | x_{i})} - - - (16)

其中，表示样本x属于类别C_k的概率(即样本的后验概率)，P(C_k|x_i)表示样本x_i属于类别C_k的条件概率的初始化后验概率；k为标注样本类型数量，n为样本总数量，x_i为标注样本，x为指定样本，κ(x-x_i)表示指定样本x的核密度。

将上述公式中的样本x变量用具体的未标注样本x_j代替，则未标注样本x_j的后验概率为公式(17)：

\hat{P} (C_{k} | x_{j}) = \frac{Σ_{i = 1}^{n} P (C_{k} | x_{i}) κ (x_{j} - x_{i})}{Σ_{i = 1}^{n} κ (x_{j} - x_{i})} - - - (17)

其中，k为标注样本类型数量，n为样本总数量，x_i为标注样本，x_j为未标注样本，表示未标注样本x_j属于类别C_k的条件概率的后验概率估计值，P(C_k|x_j)表示给定样本x_j属于类别C_k的条件概率的初始化后验概率；κ(x_j-x_i)表示未标注样本x_j的核密度。

该估计算法同时包含了标注样本和未标注样本的信息，大大提高了核密度估计的精确性。请参阅图6，利用半监督核密度估计算法对每个未标注样本进行类别标注包括以下步骤：

S1041、初始化标注样本后验概率P(C_k|x_j)；

本步骤中可以采用以下公式进行：

P (C_{k} | x_{j}) = \frac{l_{k}}{Σ_{k = 1}^{K} l_{k}}, j &Element; L - - - (18)

其中l_k为标注为类别k的样本数，表示所有样本的标注类别数，C_k为第k类的样本集合，j、k均属于自然数。

S1042、计算样本的核密度κ(x_j-x_i)；

本步骤中可以采用多种方式计算核密度，举例而言，当采用高斯核时，可以利用下述公式进行：

κ (x_{j} - x_{i}) = \frac{1}{{(2 π)}^{d / 2} σ^{d}} \exp (- | | x_{j} - x_{i} | | / {2 σ}^{2}) - - - (19)

其中，取d＝1；x_i为标注样本，x_j为未标注样本，exp为自然数e，σ为所有样本的标准差。

当采用指数核时，按下述公式进行：

κ (x_{j} - x_{i}) = \frac{1}{{(2 σ)}^{d}} \exp (- | | x_{j} - x_{i} | | / σ) - - - (20)

S1043、计算未标注样本x_j的后验概率

本步骤具体采用上述公式(17)进行，具体参见上述说明，这里不重复。

S1044、确定未标注样本的所属类别；

具体来说，本步骤比较上述未标注样本x_j的后验概率值，取最大值对应的类别为该样本的所属类别，以便对样本x_j对应的关键帧进行类别标注。

如图7所示为本发明实施例提供的一种视频标注装置的模块结构图，图中，该装置包括镜头分割模块10、关键帧集合提取模块20、特征提取模块30、半监督核密度估计模块40和样本标注模块50，其中：

镜头分割模块10，用于对视频进行镜头分割；

关键帧集合提取模块20，用于提取每个镜头内的关键帧集合；

特征提取模块30，用于提取每个关键帧集合的相关底层特征向量；

半监督核密度估计模块40，用于利用半监督核密度估计算法对每个未标注样本进行类别标注；

样本标注模块50，用于对样本对应的关键帧进行类别标注。

优选地，该特征提取模块30具体用于提取每个关键帧集合的颜色直方图、颜色矩、边缘分布直方图和纹理特征的任意组合。

具体来说，半监督核密度估计模块包括40：第一计算单元401、第二计算单元402、第三计算单元403和确定单元404，其中：

第一计算单元401，用于初始化标注样本后验概率；

第二计算单元402，用于计算样本的核密度；

第三计算单元403，用于计算未标注样本的后验概率；

确定单元404，用于确定所述未标注样本的所属类别。

优选地，第一计算单元401具体用于采用上述公式(18)初始化标注样本后验概率；第二计算单元402具体用于采用上述公式(19)或者(20)计算样本的核密度；第三计算单元403具体采用公式(17)进行计算未标注样本的后验概率，确定单元404具体用于比较上述未标注样本的后验概率值，取最大值对应的类别为该样本的所属类别。

需要说明的是，上述方法实施例中的技术特征在本实施例中同样适用，这里不再重述。

本发明的实施例，通过采用图像的多种底层特征组合的特征向量表示关键帧，减少了图像信息损失，并利用半监督核密度估计算法对每个未标注样本进行类别标注，将未标注数据引入到核密度估计中去，综合运用了标注样本和未标注样本的特征信息，提高了视频标注的效率和核密度估计的精确性，尤其适合大规模视频标注，尤其适合大规模视频标注。

以上参照附图说明了本发明的优选实施例，并非因此局限本发明的权利范围。本领域技术人员不脱离本发明的范围和实质，可以有多种变型方案实现本发明，比如作为一个实施例的特征可用于另一实施例而得到又一实施例。凡在运用本发明的技术构思之内所作的任何修改、等同替换和改进，均应在本发明的权利范围之内。

Claims

1.一种视频标注方法，其特征在于，该方法包括以下步骤：

对视频进行镜头分割；

提取所述分割的每个镜头内的关键帧集合；

提取所述每个关键帧集合的相关底层特征向量；

对未标注样本所对应的关键帧进行类别标注；

其中，所述提取所述每个关键帧集合的相关底层特征向量进一步包括以下步骤：

对图像的HSV颜色空间按以下公式进行分层，将颜色空间划分为72种颜色：

H = \{\begin{matrix} 0 & if & h &Element; [316,20] \\ 1 & if & h &Element; [21,40] \\ 2 & if & h &Element; [41,75] \\ 3 & if & h &Element; [76,155] \\ 4 & if & h &Element; [156,190] \\ 5 & if & h &Element; [191,270] \\ 6 & if & h &Element; [271,195] \\ 7 & if & h &Element; [296,315] \end{matrix}

S = \{\begin{matrix} 0 & if & s &Element; [0,0.2] \\ 1 & if & s &Element; [0.2,0.7] \\ 2 & if & s &Element; [0.7,1] \end{matrix}

V = \{\begin{matrix} 0 & if & v &Element; [0,0.2] \\ 1 & if & v &Element; [0.2,0.7] \\ 2 & if & v &Element; [0.7,1] \end{matrix}

其中，H表示色调，S表示饱和度，V表示亮度；

对图像进行3×3区域划分；

2.根据权利要求1所述的一种视频标注方法，其特征在于，所述对视频进行镜头分割包括以下步骤：

如果所述视频是压缩视频，则进行视频解码，以获得原始帧；

利用基于像素域的镜头检测法进行镜头分割。

3.根据权利要求1所述的一种视频标注方法，其特征在于，所述提取分割的每个镜头内的关键帧包括以下步骤：

4.根据权利要求1所述的一种视频标注方法，其特征在于，所述利用半监督核密度估计算法对每个未标注样本进行类别标注包括以下步骤：

初始化标注样本后验概率；

计算样本的核密度；

计算未标注样本的后验概率；

确定所述未标注样本的所属类别。

5.根据权利要求4所述的一种视频标注方法，其特征在于，所述初始化标注样本后验概率采用以下公式进行：

P (C_{k} | x_{j}) = \frac{l_{k}}{Σ_{k = 1}^{K} l_{k}}, j &Element; L

6.根据权利要求4所述的一种视频标注方法，其特征在于，所述计算未标注样本的后验概率采用以下公式进行：

\hat{P} (C_{k} | x_{j}) = \frac{Σ_{i = 1}^{n} P (C_{k} | x_{i}) κ (x_{j} - x_{i})}{Σ_{i = 1}^{n} κ (x_{j} - x_{i})}

相应地，

所述确定所述未标注样本的所属类别为：选择未标注样本的后验概率最大值对应的类别为该样本的所属类别。

7.一种视频标注装置，其特征在于，该装置包括镜头分割模块、关键帧集合提取模块、特征提取模块、半监督核密度估计模块和样本标注模块，其中：

镜头分割模块，用于对视频进行镜头分割；

关键帧集合提取模块，用于提取所述分割的每个镜头内的关键帧集合；

特征提取模块，用于提取所述每个关键帧集合的相关底层特征向量；

其中，所述特征提取模块具体用于：对图像的HSV颜色空间按以下公式进行分层，将颜色空间划分为72种颜色：

H = \{\begin{matrix} 0 & if & h &Element; [316,20] \\ 1 & if & h &Element; [21,40] \\ 2 & if & h &Element; [41,75] \\ 3 & if & h &Element; [76,155] \\ 4 & if & h &Element; [156,190] \\ 5 & if & h &Element; [191,270] \\ 6 & if & h &Element; [271,195] \\ 7 & if & h &Element; [296,315] \end{matrix}

S = \{\begin{matrix} 0 & if & s &Element; [0,0.2] \\ 1 & if & s &Element; [0.2,0.7] \\ 2 & if & s &Element; [0.7,1] \end{matrix}

V = \{\begin{matrix} 0 & if & v &Element; [0,0.2] \\ 1 & if & v &Element; [0.2,0.7] \\ 2 & if & v &Element; [0.7,1] \end{matrix}

其中，H表示色调，S表示饱和度，V表示亮度；

对图像进行3×3区域划分；对每一个分割块提取图像的72维颜色直方图、9维颜色矩、3维边缘分布直方图和3维Tamura纹理特征，得到207维底层特征向量。

8.根据权利要求7所述的一种视频标注装置，其特征在于，所述半监督核密度估计模块包括：第一计算单元、第二计算单元、第三计算单元和确定单元，其中：

第一计算单元，用于计算初始化标注样本后验概率；

第二计算单元，用于计算样本的核密度；

第三计算单元，用于计算未标注样本的后验概率；

确定单元，用于确定所述未标注样本的所属类别。