CN104036023A

CN104036023A - 一种融合上下文的树形视频语义索引建立方法

Info

Publication number: CN104036023A
Application number: CN201410297974.0A
Authority: CN
Inventors: 余春艳; 苏晨涵; 翁子林; 陈昭炯
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2014-06-26
Filing date: 2014-06-26
Publication date: 2014-09-10
Anticipated expiration: 2034-06-26
Also published as: CN104036023B

Abstract

本发明属于视频检索技术领域，实现了一种构建树形的视频语义索引的方法。所构建的视频语义索引包含了多种粒度的视频语义，而且这种语义索引融合了视频语义之间的上下文，根据上下文将不同粒度的视频语义联系起来，形成了树形的结构。利用这种方法为视频建立语义索引后，用户能够输入不同粒度的关键词检索视频，而且索引中的上下文信息能够缩小搜索空间，提高检索***的效率。本技术的特征在于：先以镜头为单位提取各个镜头的镜头语义集。然后有监督地获取视频镜头语义的上下文，并用上下文标签树表示。再结合镜头语义集和上下文信息进行场景语义的推理。最后将镜头语义集、场景语义嵌入到上下文标签树中并作为视频的索引。

Description

一种融合上下文的树形视频语义索引建立方法

技术领域

本发明属于视频检索技术领域，是一种能够利用视频的镜头语义、场景语义以及语义间的上下文构建视频语义索引的方法。

背景技术

如今视频数据已然成为互联网上最重要的数据之一。然而随着视频数据***性的增长，如何高效地管理、检索视频成为了一个很困难的问题。通常用户在检索视频时都是输入一个关键字，然后由视频搜索引擎根据关键字需找到相关的视频数据。这就要求对视频建立合适的语义索引才能提高用户检索视频的效率与命中率。基于视频语义的视频索引构建是通过计算机自动地分析视频的视觉特征以获取视频蕴含的语义信息，然后将语义信息作为视频的索引，用户在检索视频时可以通过输入关键字检索视频。

然而用户对视频搜索引擎的要求不断提高，用户往往根据需求的不同输入不同粒度的关键字，例如用户搜索足球相关内容的视频时可能会输入“足球”、“精彩片段”、“射门”、“裁判特写”等不同粒度的关键词进行检索。所以传统的单一粒度的、无层次的视频语义索引已经满足不了用户的检索需求。此外，视频的语义内容丰富，除了语义信息之外还存在着大量的上下文信息，利用上下文信息能够帮助搜索引擎理解不同粒度语义之间的相互作用，为视频中不同粒度的语义之间建立关系，从而在检索视频时能够根据这些关系信息搜索相关的视频。上下文信息能够在保证搜索命中率的前提下，缩小搜索空间、提高搜索效率。基于此，本发明实现了一种能够融合上下文的视频语义索引，以提高视频索引的有效性。

发明内容

本发明的目的是实现一种能够融合上下文信息建立树形视频语义索引的方法。该方法能够将上下文信息融入视频语义索引中，提高视频检索命中率与效率。

本发明采用以下方案实现：一种融合上下文的树形视频语义索引建立方法，其特征在于该方法包括以下步骤：

步骤1：输入n个训练视频片段video_j，j∈{1,...,n}，对video_j进行预处理，然后以镜头为单位人工标注video_j各个镜头的镜头语义集,并为每类镜头语义构造镜头语义训练集以训练分类器，得到镜头语义分析器。输入m个待建立树形索引的视频片段video_k，k∈{1,...,m}，对video_k进行预处理，利用镜头语义分析器提取video_k各个镜头的镜头语义集；

步骤2：以视频片段为单位，人工标注video_j中镜头语义之间的上下文，用带有上下文标签的上下文标签树LT_j表示，并构建上下文训练集。训练结构化支持向量SVM-Struct，得到上下文标签树分析器。利用上下文分析器提取video_k中的上下文标签树LT_k；

步骤3：以video_j的场景为单位人工标注场景语义，构建场景语义训练集。训练C4.5分类器，得到场景语义分析器。利用场景语义分析器提取video_k中各个场景的场景语义；

步骤4：将步骤2中得到的video_k各镜头的镜头语义集与步骤4得到的video_k各场景的场景语义嵌入到步骤3中得到的LT_k对应的节点中，将带有镜头语义和场景语义的LT_k的作为video_k的视频索引。

进一步地，所述步骤1中按如下步骤进行：

步骤2.1：对n个训练视频片段video_j进行镜头分割，得到r个训练视频镜头；提取并量化镜头的视觉特征，构造成视觉特征向量v；

步骤2.2：设置标注语义集Semantic＝{Sem_t|t＝1,...,e}，人工标注r个镜头中出现的语义Sem_t，加入到各个镜头的镜头语义集中，然后为每一类镜头语义Sem_t构造镜头语义训练集,得到e个镜头语义训练集Tra_t＝{(v_i,s_i)|i＝1,...,r}，如果语义Sem_t出现在该镜头中，则s_i＝1，否则为0；

步骤2.3：使用SVM分类器作为分类模型，为每个语义Sem_t训练一个分类器SVM_t；SVM_t的判别函数形式为：f_t(v)＝sgn[g(v)]，其中g(v)＝<w,v>+b；所以通过训练集Tra_t训练SVM_t的优化目标为：

\begin{matrix} \min \frac{1}{2} {| | w | |}^{2} \\ s . t . s_{i} (< w, v_{i} > + b) - 1 &GreaterEqual; 0 \end{matrix} - - - (1)

利用拉格朗日函数合并优化问题和约束将(1)式转化为：

\begin{matrix} \max_{α} Σ_{i = 1}^{r} α_{i} - \frac{1}{2} Σ_{i, h = 1}^{r} α_{i} α_{h} s_{i} s_{h} v_{i} * v_{h} \\ s . t . α_{i} &GreaterEqual; 0, Σ_{i = 1}^{r} α_{i} s_{i} = 0 \end{matrix} - - - (2)

引入核函数K(v_j,v_h)，将公式(2)转换为：

\begin{matrix} \max_{α} Σ_{i = 1}^{r} α_{j} - \frac{1}{2} Σ_{i, h = 1}^{r} α_{i} α_{h} s_{i} s_{h} K (v_{i}, v_{h}) \\ s . t . α_{i} &GreaterEqual; 0, Σ_{i = 1}^{r} α_{i} s_{i} = 0 \end{matrix} - - - (3)

核函数选定为径向基函数，定义为：

K (v_{i}, v_{h}) = \exp (- \frac{{(v_{i} - v_{h})}^{2}}{2 σ^{2}}) - - - (4)

其中exp()为指数函数，σ为参数。

训练完成后就确定了一组α_i，也就确定了镜头语义Sem_t的判别函数：

f_{t} (v) = sgn [Σ_{i = 1}^{r} α_{i} s_{i} K (v_{i}, v) + b_{0}] - - - (5)

其中b₀为参数。

步骤2.4：按照步骤2.3完成对所有Sem_t的分类器SVM_t训练后，得到e个镜头语义的判别函数，将e个镜头语义的判别函数组成的镜头语义分析器组。

步骤2.5：对m个待建立树形索引的视频片段video_k进行镜头分割，然后提取每个镜头的视觉特征组成特征向量v；将v输入镜头语义分析器组以判断该镜头中出现的语义，并将出现的语义加入到这个镜头的镜头语义集中。

进一步地，所述步骤2按如下步骤进行：

步骤3.1：从video_j各镜头的镜头语义集中提取一个镜头语义代表该镜头，然后按照时序关系组成镜头语义序列wu_j；

步骤3.2：人工标注wu_j的上下文，并用上下文标签树LT_j表示上下文信息；上下文标签树为一个五元组LT＝<L,Video,Scene,NL,P>；其中L是镜头语义标签集，其元素表示的是wu_j中代表镜头的镜头语义；Video是“视频上下文”标签，所表示的上下文是其子节点共同表达这段视频的内容；Scene是“场景上下文”标签，表所示的是其子节点共同表达了这个场景的内容；NL是除Video和Scene之外的上下文标签集，其中每个元素都代表一种上下文关系；P是上下文规则集，其每个元素表示的是一条上下文规则；

步骤3.3：将n个wu_j和对应的上下文标签树构造成上下文训练集：

context＝{(x_j,y_j)|j＝1,...,n}，其中x_j是镜头语义序列，y_j是对应的上下文标签树；

步骤3.4：利用上下文训练集训练结构化支持向量机SVM-Struct，具体操作为：

步骤3.4.1：构造镜头语义序列与上下文标签树的映射函数为：

h (x; W) = \underset{y &Element; Y}{\arg \max} f (x, y; W),

其中f(x,y；W)＝<W,ψ(x,y)>为判别函数，W是权向量，ψ(x,y)是训练数据中的镜头语义序列与其对应的上下文标签树的联合特征向量；构造ψ(x,y)的方式如下：

ψ (x, y) = \{\begin{matrix} p_{1} & a_{1} \\ . & . \\ . & . \\ . & . \\ p_{N} & a_{N} \end{matrix}

其中p_i与a_i(i∈[1,N])分别是该上下文标签树的上下文规则集P中的规则和该规则对应出现的次数，N为上下文训练集中出现的上下文规则类别总数；

步骤3.4.2：将训练SVM-Struct转化为最优化问题：

\begin{matrix} \min \frac{1}{2} {| | W | |}^{2} + \frac{C}{n} Σ_{j = 1}^{n} ϵ_{j}, \\ s . t . &ForAll; y &Element; γ : < W, ψ (x_{j}, y_{j}) - ψ (x_{j}, y) > &GreaterEqual; Δ (y_{j}, y) - ϵ_{j} \end{matrix} - - - (6)

其中ε_j为松弛变量，C>0是错分样本的惩罚值，Δ(y_j,y)为损失函数；令损失函数Δ(y_j,y)＝(1-F₁(y_j,y))；其中y_j是上下文训练集中镜头语义序列的真实上下文标签树，y是训练过程中预测的上下文标签树，F1计算方式如下：

Precision = \frac{| E (y_{j}) \cap E (y) |}{| E (y) |}

Recall = \frac{| E (y_{j}) \cap E (y) |}{| E (y_{i}) |}

F 1 = \frac{2 * Precision * Recall}{Precision + Recall}

其中，Precision为上下文标签中每个节点预测准确率，Precision为上下文标签树中每个节点预测的召回率，E(y_j)为y_j的边集，E(y)为y的边集；

步骤3.4.3：将公式(6)转化成其对偶的形式：

\begin{matrix} \max_{α} \underset{j, y &NotEqual; y_{j}}{Σ} α_{jy} - \frac{1}{2} \underset{z, \overset{&OverBar;}{y} &NotEqual; y_{z}}{\underset{j, y &NotEqual; y_{j}}{Σ}} α_{jy} α_{z \overset{&OverBar;}{y}} < δ ψ_{j} (y), δ ψ_{z} (\overset{&OverBar;}{y}) > \\ s . t &ForAll; j, &ForAll; y &NotEqual; Y \ y_{j} : α_{jy} &GreaterEqual; 0 . \end{matrix} - - - (7)

其中α_iy是拉格朗日乘子.对于软间隔，还另外有组约束条件：

&ForAll; j, n \underset{y &NotEqual; y_{j}}{Σ} \frac{α_{jy}}{Δ (y_{j}, y)} \leq C

步骤3.4.4：在上下文训练集context上计算公式(7)，找到最优的一组α_jy后也就确定权向量W，得到上下文标签树分析器；

步骤3.5：用与步骤3.1相同的方式提取video_k的镜头语义序列wu_k，并将wu_k输入视频上下文标签树分析器，得到wu_k的LT_k。

进一步地，所述步骤3按如下步骤进行：

步骤4.1：根据LT_j中的“场景上下文”标签Scene，将每个Scene标签下的叶节点所对应的镜头作为一个完整的视频场景，实现视频的场景分割；然后以场景为单位人工对video_j的场景进行场景语义标注；

步骤4.2：利用每个场景中各镜头的镜头语义集及所对应LT_j中的上下文信息构造场景语义训练集；其中场景语义的特征分为两种：

a.镜头语义特征：若某镜头语义出现在该场景中，令该镜头语义特征值为1，否则为0；

b.上下文特征：上下文特征是两个镜头语义之间的上下文关系，镜头语义在LT_j中对应一个叶节点，所以这两个镜头语义的上下文特征值为这两个叶节点最近公共祖先节点上的上下文标签；

步骤4.3：以C4.5算法为分类模型，根据场景语义训练集中各个特征属性的信息增益率来选择属性作为节点，最终生成分析视频场景语义的决策树，并将这棵决策树作为场景语义分析器；

步骤4.4：根据wu_k的LT_k，以与步骤4.1中相同的方法将video_k分为若干场景，并以场景为单位提取该场景的特征向量；将video_k各场景的特征向量输入场景语义分析器，得到video_k各场景的场景语义。

进一步地，所述步骤4按如下步骤进行：

步骤5.1：将LT_k中的每个叶节点中的镜头语义标签替换为所代表的镜头所对应的镜头语义集；

步骤5.2：将LT_k中的每个Scene替换为对应的场景语义；

步骤5.3：将包含镜头语义与场景语义的LT_k作为video_k的视频索引。

本发明的有益效果是：利用本发明的方法为视频建立语义索引后，用户能够输入不同粒度的关键词检索视频，而且索引中的上下文信息能够缩小搜索空间，提高检索***的效率。

附图说明

图1是树形视频语义索引建立流程。

图2是一个视频上下文标签树的模型。

图3是一个树形视频索引模型。

具体实施方式

请参照图1，一种融合上下文的树形视频索引建立的方法，先以镜头为单位提取镜头的语义信息，然后有监督地获取视频镜头语义的上下文，并用树结构来表示上下文。再结合镜头语义和它们的上下文进行场景语义的推理。最后将镜头语义、场景语义嵌入到树结构中并作为视频的索引。具体如下：

1.对n个训练视频片段video_j进行镜头分割，得到r个训练视频镜头。提取并量化镜头的视觉特征，构造成视觉特征向量v。

设置标注语义集Semantic＝{Sem_t|t＝1,...,e}，人工标注r个镜头中出现的语义Sem_t，加入到各个镜头的镜头语义集中，然后为每一类镜头语义Sem_t构造镜头语义训练集,得到e个镜头语义训练集Tra_t＝{(v_i,s_i)|i＝1,...,r}，如果语义Sem_t出现在该镜头中，则s_i＝1，否则为0；

使用SVM分类器作为分类模型，为每个语义Sem_t训练一个分类器SVM_t。SVM_t的判别函数形式为：f_t(v)＝sgn[g(v)]，其中g(v)＝<w,v>+b。所以通过训练集Tra_t训练SVM_t的优化目标为：

\begin{matrix} \min \frac{1}{2} {| | w | |}^{2} \\ subjectto s_{i} (< w, v_{i} > + b) - 1 &GreaterEqual; 0 \end{matrix} - - - (1)

利用拉格朗日函数合并优化问题和约束将(1)式转化为：

\begin{matrix} \max_{α} Σ_{i = 1}^{r} α_{i} - \frac{1}{2} Σ_{i, h = 1}^{r} α_{i} α_{h} s_{i} s_{h} v_{i} * v_{h} \\ s . t . α_{i} &GreaterEqual; 0, Σ_{i = 1}^{r} α_{i} s_{i} = 0 \end{matrix} - - - (2)

引入核函数K(v_j,v_h)，将公式(2)转换为：

\begin{matrix} \max_{α} Σ_{i = 1}^{r} α_{j} - \frac{1}{2} Σ_{i, h = 1}^{r} α_{i} α_{h} s_{i} s_{h} K (v_{i}, v_{h}) \\ s . t . α_{i} &GreaterEqual; 0, Σ_{i = 1}^{r} α_{i} s_{i} = 0 \end{matrix} - - - (3)

核函数选定为径向基函数，定义为：

K (v_{i}, v_{h}) = \exp (- \frac{{(v_{i} - v_{h})}^{2}}{2 σ^{2}}) - - - (4)

其中exp()为指数函数，σ为参数。

f_{t} (v) = sgn [Σ_{i = 1}^{r} α_{i} s_{i} K (v_{i}, v) + b_{0}] - - - (5)

其中b₀为参数。

完成Sem_t对应的分类器SVM_t训练后，得到包含e个镜头语义分析器的镜头语义分析器组。

对m个待建立树形索引的视频片段video_k进行镜头分割，然后提取每个镜头的视觉特征组成特征向量v。将v输入镜头语义分析器组以判断该镜头中出现的语义，并将出现的语义加入到这个镜头的镜头语义集中。

2.从video_j各镜头的镜头语义集中提取一个镜头语义代表该镜头，然后按照时序关系组成镜头语义序列wu_j。

以视频片段为单位，人工标注训练视频片段的语义序列wu_j的上下文，并用对应的上下文标签树LT_j表示上下文信息。上下文标签树形式化地定义为五元组LT＝<L,Video,Scene,NL,P>。其中L是镜头语义标签集，其元素表示的是wu_j中代表镜头的镜头语义。Video是“视频上下文”标签，所表示的上下文是其子节点共同表达这段视频的内容。Scene是“场景上下文”标签，表所示的是其子节点共同表达了这个场景的内容。NL是除Video和Scene之外的上下文标签集，其中每个元素都代表一种上下文关系。P是上下文规则集，其每个元素表示的是一种上下文规则。例如图2中叶节点l₁和l₂组成它们的父节点nl₁的规则，这条规则可以形式化地表示为：nl₁→l₁l₂。

将n个wu_j和对应的上下文标签树构造成上下文训练集：context＝{(x_j,y_j)|j＝1,...,n}，其中x_j是镜头语义序列，y_j是对应的上下文标签树。

利用上下文训练集训练结构化支持向量机SVM-Struct，构造镜头语义序列与上下文标签树的映射函数为：

h (x; W) = \underset{y &Element; Y}{\arg \max} f (x, y; W),

其中f(x,y；W)＝<W,ψ(x,y)>为判别函数，W是权向量，ψ(x,y)是训练数据中的镜头语义序列与其对应的上下文标签树的联合特征向量。构造ψ(x,y)的方式如下：

ψ (x, y) = \{\begin{matrix} p_{1} & a_{1} \\ . & . \\ . & . \\ . & . \\ p_{N} & a_{N} \end{matrix}

其中p_i与a_i(i∈[1,N])分别是该上下文标签树的上下文规则集P中的上下文规则和该规则对应出现的次数，N为上下文训练集中出现的上下文规则类别总数。

将训练SVM-Struct转化为最优化问题：

其中ε_j为松弛变量，C>0是错分样本的惩罚值，Δ(y_j,y)为损失函数。令损失函数Δ(y_j,y)＝(1-F₁(y_j,y))。其中y_j是上下文训练集中镜头语义序列的真实上下文标签树，y是训练过程中预测的上下文标签树，F1计算方式如下：

Precision = \frac{| E (y_{j}) \cap E (y) |}{| E (y) |}

Recall = \frac{| E (y_{j}) \cap E (y) |}{| E (y_{i}) |}

F 1 = \frac{2 * Precision * Recall}{Precision + Recall}

其中，Precision为上下文标签中每个节点预测准确率，Precision为上下文标签树中每个节点预测的召回率，E(y_j)为y_j的边集，E(y)为y的边集。

将公式(6)转化成其对偶的形式：

\begin{matrix} \max_{α} \underset{j, y &NotEqual; y_{j}}{Σ} α_{jy} - \frac{1}{2} \underset{z, \overset{&OverBar;}{y} &NotEqual; y_{z}}{\underset{j, y &NotEqual; y_{j}}{Σ}} α_{jy} α_{z \overset{&OverBar;}{y}} < δ ψ_{j} (y), δ ψ_{z} (\overset{&OverBar;}{y}) > \\ s . t &ForAll; j, &ForAll; y &NotEqual; Y \ y_{j} : α_{jy} &GreaterEqual; 0 . \end{matrix} - - - (7)

&ForAll; j, n \underset{y &NotEqual; y_{j}}{Σ} \frac{α_{jy}}{Δ (y_{j}, y)} \leq C

设置好惩罚值C后，在上下文训练集context上计算公式(7)，找到最优的一组α_jy后也就确定权向量W，得到上下文标签树分析器。

提取video_k的镜头语义序列wu_k，并将wu_k输入视频上下文标签树分析器，得到wu_k的LT_k。

3.根据LT_j中的“场景上下文”标签Scene，将每个Scene标签下的叶节点所对应的镜头作为一个完整的视频场景，实现视频的场景分割。然后以场景为单位人工对video_j的场景进行场景语义标注。

利用每个场景中各镜头的镜头语义集及所对应LT_j中的上下文信息构造场景语义训练集。其中场景语义的特征分为两种：

b.上下文特征：上下文特征是两个镜头语义之间的上下文关系，镜头语义在LT_j中对应一个叶节点，所以这两个镜头语义的上下文特征值为这两个叶节点最近公共祖先节点上的上下文标签。例如，图2中l₁和l₂的上下文特征为“nl₁”，l₁和l₃的上下文特征为“Scene”。

以C4.5算法为分类模型，根据场景语义训练集中各个特征属性的信息增益率来选择属性作为节点，最终生成分析视频场景语义的决策树。将这棵决策树作为场景语义分析器。

根据wu_k的LT_k中的“场景上下文”标签Scene，将video_k分为若干场景，并以场景为单位提取该场景的镜头语义特征和上下文特征组成特征向量。将video_k各场景的特征向量输入场景语义分析器，得到video_k各场景的场景语义。

4.将LT_k中的每个叶节点中的镜头语义标签替换为所代表的镜头所对应的镜头语义集，然后将LT_k中的每个Scene替换为对应的场景语义，最后将包含镜头语义与场景语义的LT_k作为video_k的视频索引；

以上所述仅为本发明的较佳实施例，凡依本发明申请专利范围所做的均等变化与修饰，皆应属本发明的涵盖范围。

Claims

1.一种融合上下文的树形视频语义索引建立方法，其特征在于该方法包括以下步骤：

步骤1：输入n个训练视频片段video_j，j∈{1,...,n}，对video_j进行预处理，然后以镜头为单位人工标注video_j各个镜头的镜头语义集,并为每类镜头语义构造镜头语义训练集以训练分类器，得到镜头语义分析器；输入m个待建立树形索引的视频片段video_k，k∈{1,...,m}，对video_k进行预处理，利用镜头语义分析器提取video_k各个镜头的镜头语义集；

步骤2：以视频片段为单位，人工标注video_j中镜头语义之间的上下文，用带有上下文标签的上下文标签树LT_j表示，并构建上下文训练集；训练结构化支持向量SVM-Struct，得到上下文标签树分析器；利用上下文分析器提取video_k中的上下文标签树LT_k；

步骤3：以video_j的场景为单位人工标注场景语义，构建场景语义训练集；训练C4.5分类器，得到场景语义分析器；利用场景语义分析器提取video_k中各个场景的场景语义；

2.根据权利要求1所述的一种融合上下文的树形视频语义索引建立方法，其特征在于：所述步骤1中按如下步骤进行：

步骤2.3：使用SVM分类器作为分类模型，为每个语义Sem_t训练一个分类器SVM_t；SVM_t的判别函数形式为：f_t(v)＝sgn[g(v)]，其中_x(v)＝<w,v>+b；所以通过训练集Tra_t训练SVM_t的优化目标为：

\begin{matrix} \min \frac{1}{2} {| | w | |}^{2} \\ s . t . s_{i} (< w, v_{i} > + b) - 1 &GreaterEqual; 0 \end{matrix} - - - (1)

利用拉格朗日函数合并优化问题和约束将(1)式转化为：

\begin{matrix} \max_{α} Σ_{i = 1}^{r} α_{i} - \frac{1}{2} Σ_{i, h = 1}^{r} α_{i} α_{h} s_{i} s_{h} v_{i} * v_{h} \\ s . t . α_{i} &GreaterEqual; 0, Σ_{i = 1}^{r} α_{i} s_{i} = 0 \end{matrix} - - - (2)

引入核函数K(v_j,v_h)，将公式(2)转换为：

\begin{matrix} \max_{α} Σ_{i = 1}^{r} α_{j} - \frac{1}{2} Σ_{i, h = 1}^{r} α_{i} α_{h} s_{i} s_{h} K (v_{i}, v_{h}) \\ s . t . α_{i} &GreaterEqual; 0, Σ_{i = 1}^{r} α_{i} s_{i} = 0 \end{matrix} - - - (3)

核函数选定为径向基函数，定义为：

K (v_{i}, v_{h}) = \exp (- \frac{{(v_{i} - v_{h})}^{2}}{2 σ^{2}}) - - - (4)

其中exp()为指数函数，σ为参数。

f_{t} (v) = sgn [Σ_{i = 1}^{r} α_{i} s_{i} K (v_{i}, v) + b_{0}] - - - (5)

其中b₀为参数。

3.根据权利要求1所述的一种融合上下文的树形视频语义索引建立方法，其特征在于：所述步骤2按如下步骤进行：

步骤3.3：将n个wu_j和对应的上下文标签树构造成上下文训练集：context＝{(x_j,y_j)|j＝1,...,n}，其中x_j是镜头语义序列，y_j是对应的上下文标签树；

h (x; W) = \underset{y &Element; Y}{\arg \max} f (x, y; W),

ψ (x, y) = \{\begin{matrix} p_{1} & a_{1} \\ . & . \\ . & . \\ . & . \\ p_{N} & a_{N} \end{matrix}

步骤3.4.2：将训练SVM-Struct转化为最优化问题：

\begin{matrix} \min \frac{1}{2} {| | W | |}^{2} + \frac{C}{n} Σ_{j = 1}^{n} ϵ_{j}, \\ s . t . &ForAll; y &Element; γ : < W, ψ (x_{j}, y_{j}) - ψ (x_{j}, y) > &GreaterEqual; Δ (y_{j}, y) - ϵ_{j} \end{matrix} - - - (6)

其中为松弛变量，C>0是错分样本的惩罚值，Δ(y_j,y)为损失函数；令损失函数Δ(y_j,y)＝(1-F₁(y_j,y))；其中y_j是上下文训练集中镜头语义序列的真实上下文标签树，y是训练过程中预测的上下文标签树，F1计算方式如下：

Precision = \frac{| E (y_{j}) \cap E (y) |}{| E (y) |}

Recall = \frac{| E (y_{j}) \cap E (y) |}{| E (y_{i}) |}

F 1 = \frac{2 * Precision * Recall}{Precision + Recall}

其中，Precision为上下文标签中每个节点预测的准确率，Precision为上下文标签树中每个节点预测的召回率，E(y_j)为y_j的边集，E(y)为y的边集；

步骤3.4.3：将公式(6)转化成其对偶的形式：

\begin{matrix} \max_{α} \underset{j, y &NotEqual; y_{j}}{Σ} α_{jy} - \frac{1}{2} \underset{z, \overset{&OverBar;}{y} &NotEqual; y_{z}}{\underset{j, y &NotEqual; y_{j}}{Σ}} α_{jy} α_{z \overset{&OverBar;}{y}} < δ ψ_{j} (y), δ ψ_{z} (\overset{&OverBar;}{y}) > \\ s . t &ForAll; j, &ForAll; y &NotEqual; Y \ y_{j} : α_{jy} &GreaterEqual; 0 . \end{matrix} - - - (7)

&ForAll; j, n \underset{y &NotEqual; y_{j}}{Σ} \frac{α_{jy}}{Δ (y_{j}, y)} \leq C

步骤3.5：用与步骤3.1相同的方式提取video_k的镜头语义序列wu_k，并将wu_k输入视频上下文标签树分析器，得到wu_k对应的LT_k。

4.根据权利要求1所述的一种融合上下文的树形视频语义索引建立方法，其特征在于：所述步骤3按如下步骤进行：

5.根据权利要求1所述的一种融合上下文的树形视频语义索引建立方法，其特征在于：所述步骤4按如下步骤进行：

步骤5.2：将LT_k中的每个Scene替换为对应的场景语义；