CN104036023B - 一种融合上下文的树形视频语义索引建立方法 - Google Patents

一种融合上下文的树形视频语义索引建立方法 Download PDF

Info

Publication number
CN104036023B
CN104036023B CN201410297974.0A CN201410297974A CN104036023B CN 104036023 B CN104036023 B CN 104036023B CN 201410297974 A CN201410297974 A CN 201410297974A CN 104036023 B CN104036023 B CN 104036023B
Authority
CN
China
Prior art keywords
camera lens
video
semantic
scene
context
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201410297974.0A
Other languages
English (en)
Other versions
CN104036023A (zh
Inventor
余春艳
苏晨涵
翁子林
陈昭炯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN201410297974.0A priority Critical patent/CN104036023B/zh
Publication of CN104036023A publication Critical patent/CN104036023A/zh
Application granted granted Critical
Publication of CN104036023B publication Critical patent/CN104036023B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/71Indexing; Data structures therefor; Storage structures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Studio Devices (AREA)

Abstract

本发明属于视频检索技术领域,实现了一种构建树形的视频语义索引的方法。所构建的视频语义索引包含了多种粒度的视频语义,而且这种语义索引融合了视频语义之间的上下文,根据上下文将不同粒度的视频语义联系起来,形成了树形的结构。利用这种方法为视频建立语义索引后,用户能够输入不同粒度的关键词检索视频,而且索引中的上下文信息能够缩小搜索空间,提高检索***的效率。本技术的特征在于:先以镜头为单位提取各个镜头的镜头语义集。然后有监督地获取视频镜头语义的上下文,并用上下文标签树表示。再结合镜头语义集和上下文信息进行场景语义的推理。最后将镜头语义集、场景语义嵌入到上下文标签树中并作为视频的索引。

Description

一种融合上下文的树形视频语义索引建立方法
技术领域
本发明属于视频检索技术领域,是一种能够利用视频的镜头语义、场景语义以及语义间的上下文构建视频语义索引的方法。
背景技术
如今视频数据已然成为互联网上最重要的数据之一。然而随着视频数据***性的增长,如何高效地管理、检索视频成为了一个很困难的问题。通常用户在检索视频时都是输入一个关键字,然后由视频搜索引擎根据关键字需找到相关的视频数据。这就要求对视频建立合适的语义索引才能提高用户检索视频的效率与命中率。基于视频语义的视频索引构建是通过计算机自动地分析视频的视觉特征以获取视频蕴含的语义信息,然后将语义信息作为视频的索引,用户在检索视频时可以通过输入关键字检索视频。
然而用户对视频搜索引擎的要求不断提高,用户往往根据需求的不同输入不同粒度的关键字,例如用户搜索足球相关内容的视频时可能会输入“足球”、“精彩片段”、“射门”、“裁判特写”等不同粒度的关键词进行检索。所以传统的单一粒度的、无层次的视频语义索引已经满足不了用户的检索需求。此外,视频的语义内容丰富,除了语义信息之外还存在着大量的上下文信息,利用上下文信息能够帮助搜索引擎理解不同粒度语义之间的相互作用,为视频中不同粒度的语义之间建立关系,从而在检索视频时能够根据这些关系信息搜索相关的视频。上下文信息能够在保证搜索命中率的前提下,缩小搜索空间、提高搜索效率。基于此,本发明实现了一种能够融合上下文的视频语义索引,以提高视频索引的有效性。
发明内容
本发明的目的是实现一种能够融合上下文信息建立树形视频语义索引的方法。该方法能够将上下文信息融入视频语义索引中,提高视频检索命中率与效率。
本发明采用以下方案实现:一种融合上下文的树形视频语义索引建立方法,其特征在于该方法包括以下步骤:
步骤1:输入n个训练视频片段videoj,j∈{1,...,n},对videoj进行预处理,然后以镜头为单位人工标注videoj各个镜头的镜头语义集,并为每类镜头语义构造镜头语义训练集以训练分类器,得到镜头语义分析器。输入m个待建立树形索引的视频片段videok,k∈{1,...,m},对videok进行预处理,利用镜头语义分析器提取videok各个镜头的镜头语义集;
步骤2:以视频片段为单位,人工标注videoj中镜头语义之间的上下文,用带有上下文标签的上下文标签树LTj表示,并构建上下文训练集。训练结构化支持向量SVM-Struct,得到上下文标签树分析器。利用上下文分析器提取videok中的上下文标签树LTk
步骤3:以videoj的场景为单位人工标注场景语义,构建场景语义训练集。训练C4.5分类器,得到场景语义分析器。利用场景语义分析器提取videok中各个场景的场景语义;
步骤4:将步骤2中得到的videok各镜头的镜头语义集与步骤4得到的videok各场景的场景语义嵌入到步骤3中得到的LTk对应的节点中,将带有镜头语义和场景语义的LTk的作为videok的视频索引。
进一步地,所述步骤1中按如下步骤进行:
步骤2.1:对n个训练视频片段videoj进行镜头分割,得到r个训练视频镜头;提取并量化镜头的视觉特征,构造成视觉特征向量v;
步骤2.2:设置标注语义集Semantic={Semt|t=1,...,e},人工标注r个镜头中出现的语义Semt,加入到各个镜头的镜头语义集中,然后为每一类镜头语义Semt构造镜头语义训练集,得到e个镜头语义训练集Trat={(vi,si)|i=1,...,r},如果语义Semt出现在该镜头中,则si=1,否则为0;
步骤2.3:使用SVM分类器作为分类模型,为每个语义Semt训练一个分类器SVMt;SVMt的判别函数形式为:ft(v)=sgn[g(v)],其中g(v)=<w,v>+b;所以通过训练集Trat训练SVMt的优化目标为:
利用拉格朗日函数合并优化问题和约束将(1)式转化为:
引入核函数K(vj,vh),将公式(2)转换为:
核函数选定为径向基函数,定义为:
其中exp()为指数函数,σ为参数。
训练完成后就确定了一组αi,也就确定了镜头语义Semt的判别函数:
其中b0为参数。
步骤2.4:按照步骤2.3完成对所有Semt的分类器SVMt训练后,得到e个镜头语义的判别函数,将e个镜头语义的判别函数组成的镜头语义分析器组。
步骤2.5:对m个待建立树形索引的视频片段videok进行镜头分割,然后提取每个镜头的视觉特征组成特征向量v;将v输入镜头语义分析器组以判断该镜头中出现的语义,并将出现的语义加入到这个镜头的镜头语义集中。
进一步地,所述步骤2按如下步骤进行:
步骤3.1:从videoj各镜头的镜头语义集中提取一个镜头语义代表该镜头,然后按照时序关系组成镜头语义序列wuj
步骤3.2:人工标注wuj的上下文,并用上下文标签树LTj表示上下文信息;上下文标签树为一个五元组LT=<L,Video,Scene,NL,P>;其中L是镜头语义标签集,其元素表示的是wuj中代表镜头的镜头语义;Video是“视频上下文”标签,所表示的上下文是其子节点共同表达这段视频的内容;Scene是“场景上下文”标签,表所示的是其子节点共同表达了这个场景的内容;NL是除Video和Scene之外的上下文标签集,其中每个元素都代表一种上下文关系;P是上下文规则集,其每个元素表示的是一条上下文规则;
步骤3.3:将n个wuj和对应的上下文标签树构造成上下文训练集:
context={(xj,yj)|j=1,...,n},其中xj是镜头语义序列,yj是对应的上下文标签树;
步骤3.4:利用上下文训练集训练结构化支持向量机SVM-Struct,具体操作为:
步骤3.4.1:构造镜头语义序列与上下文标签树的映射函数为:
其中f(x,y;W)=<W,ψ(x,y)>为判别函数,W是权向量,ψ(x,y)是训练数据中的镜头语义序列与其对应的上下文标签树的联合特征向量;构造ψ(x,y)的方式如下:
其中pi与ai(i∈[1,N])分别是该上下文标签树的上下文规则集P中的规则和该规则对应出现的次数,N为上下文训练集中出现的上下文规则类别总数;
步骤3.4.2:将训练SVM-Struct转化为最优化问题:
其中εj为松弛变量,C>0是错分样本的惩罚值,Δ(yj,y)为损失函数;令损失函数Δ(yj,y)=(1-F1(yj,y));其中yj是上下文训练集中镜头语义序列的真实上下文标签树,y是训练过程中预测的上下文标签树,F1计算方式如下:
其中,Precision为上下文标签中每个节点预测准确率,Precision为上下文标签树中每个节点预测的召回率,E(yj)为yj的边集,E(y)为y的边集;
步骤3.4.3:将公式(6)转化成其对偶的形式:
其中αiy是拉格朗日乘子.对于软间隔,还另外有组约束条件:
步骤3.4.4:在上下文训练集context上计算公式(7),找到最优的一组αjy后也就确定权向量W,得到上下文标签树分析器;
步骤3.5:用与步骤3.1相同的方式提取videok的镜头语义序列wuk,并将wuk输入视频上下文标签树分析器,得到wuk的LTk
进一步地,所述步骤3按如下步骤进行:
步骤4.1:根据LTj中的“场景上下文”标签Scene,将每个Scene标签下的叶节点所对应的镜头作为一个完整的视频场景,实现视频的场景分割;然后以场景为单位人工对videoj的场景进行场景语义标注;
步骤4.2:利用每个场景中各镜头的镜头语义集及所对应LTj中的上下文信息构造场景语义训练集;其中场景语义的特征分为两种:
a.镜头语义特征:若某镜头语义出现在该场景中,令该镜头语义特征值为1,否则为0;
b.上下文特征:上下文特征是两个镜头语义之间的上下文关系,镜头语义在LTj中对应一个叶节点,所以这两个镜头语义的上下文特征值为这两个叶节点最近公共祖先节点上的上下文标签;
步骤4.3:以C4.5算法为分类模型,根据场景语义训练集中各个特征属性的信息增益率来选择属性作为节点,最终生成分析视频场景语义的决策树,并将这棵决策树作为场景语义分析器;
步骤4.4:根据wuk的LTk,以与步骤4.1中相同的方法将videok分为若干场景,并以场景为单位提取该场景的特征向量;将videok各场景的特征向量输入场景语义分析器,得到videok各场景的场景语义。
进一步地,所述步骤4按如下步骤进行:
步骤5.1:将LTk中的每个叶节点中的镜头语义标签替换为所代表的镜头所对应的镜头语义集;
步骤5.2:将LTk中的每个Scene替换为对应的场景语义;
步骤5.3:将包含镜头语义与场景语义的LTk作为videok的视频索引。
本发明的有益效果是:利用本发明的方法为视频建立语义索引后,用户能够输入不同粒度的关键词检索视频,而且索引中的上下文信息能够缩小搜索空间,提高检索***的效率。
附图说明
图1是树形视频语义索引建立流程。
图2是一个视频上下文标签树的模型。
图3是一个树形视频索引模型。
具体实施方式
请参照图1,一种融合上下文的树形视频索引建立的方法,先以镜头为单位提取镜头的语义信息,然后有监督地获取视频镜头语义的上下文,并用树结构来表示上下文。再结合镜头语义和它们的上下文进行场景语义的推理。最后将镜头语义、场景语义嵌入到树结构中并作为视频的索引。具体如下:
1.对n个训练视频片段videoj进行镜头分割,得到r个训练视频镜头。提取并量化镜头的视觉特征,构造成视觉特征向量v。
设置标注语义集Semantic={Semt|t=1,...,e},人工标注r个镜头中出现的语义Semt,加入到各个镜头的镜头语义集中,然后为每一类镜头语义Semt构造镜头语义训练集,得到e个镜头语义训练集Trat={(vi,si)|i=1,...,r},如果语义Semt出现在该镜头中,则si=1,否则为0;
使用SVM分类器作为分类模型,为每个语义Semt训练一个分类器SVMt。SVMt的判别函数形式为:ft(v)=sgn[g(v)],其中g(v)=<w,v>+b。所以通过训练集Trat训练SVMt的优化目标为:
利用拉格朗日函数合并优化问题和约束将(1)式转化为:
引入核函数K(vj,vh),将公式(2)转换为:
核函数选定为径向基函数,定义为:
其中exp()为指数函数,σ为参数。
训练完成后就确定了一组αi,也就确定了镜头语义Semt的判别函数:
其中b0为参数。
完成Semt对应的分类器SVMt训练后,得到包含e个镜头语义分析器的镜头语义分析器组。
对m个待建立树形索引的视频片段videok进行镜头分割,然后提取每个镜头的视觉特征组成特征向量v。将v输入镜头语义分析器组以判断该镜头中出现的语义,并将出现的语义加入到这个镜头的镜头语义集中。
2.从videoj各镜头的镜头语义集中提取一个镜头语义代表该镜头,然后按照时序关系组成镜头语义序列wuj
以视频片段为单位,人工标注训练视频片段的语义序列wuj的上下文,并用对应的上下文标签树LTj表示上下文信息。上下文标签树形式化地定义为五元组LT=<L,Video,Scene,NL,P>。其中L是镜头语义标签集,其元素表示的是wuj中代表镜头的镜头语义。Video是“视频上下文”标签,所表示的上下文是其子节点共同表达这段视频的内容。Scene是“场景上下文”标签,表所示的是其子节点共同表达了这个场景的内容。NL是除Video和Scene之外的上下文标签集,其中每个元素都代表一种上下文关系。P是上下文规则集,其每个元素表示的是一种上下文规则。例如图2中叶节点l1和l2组成它们的父节点nl1的规则,这条规则可以形式化地表示为:nl1→l1l2
将n个wuj和对应的上下文标签树构造成上下文训练集:context={(xj,yj)|j=1,...,n},其中xj是镜头语义序列,yj是对应的上下文标签树。
利用上下文训练集训练结构化支持向量机SVM-Struct,构造镜头语义序列与上下文标签树的映射函数为:
其中f(x,y;W)=<W,ψ(x,y)>为判别函数,W是权向量,ψ(x,y)是训练数据中的镜头语义序列与其对应的上下文标签树的联合特征向量。构造ψ(x,y)的方式如下:
其中pi与ai(i∈[1,N])分别是该上下文标签树的上下文规则集P中的上下文规则和该规则对应出现的次数,N为上下文训练集中出现的上下文规则类别总数。
将训练SVM-Struct转化为最优化问题:
其中εj为松弛变量,C>0是错分样本的惩罚值,Δ(yj,y)为损失函数。令损失函数Δ(yj,y)=(1-F1(yj,y))。其中yj是上下文训练集中镜头语义序列的真实上下文标签树,y是训练过程中预测的上下文标签树,F1计算方式如下:
其中,Precision为上下文标签中每个节点预测准确率,Precision为上下文标签树中每个节点预测的召回率,E(yj)为yj的边集,E(y)为y的边集。
将公式(6)转化成其对偶的形式:
其中αiy是拉格朗日乘子.对于软间隔,还另外有组约束条件:
设置好惩罚值C后,在上下文训练集context上计算公式(7),找到最优的一组αjy后也就确定权向量W,得到上下文标签树分析器。
提取videok的镜头语义序列wuk,并将wuk输入视频上下文标签树分析器,得到wuk的LTk
3.根据LTj中的“场景上下文”标签Scene,将每个Scene标签下的叶节点所对应的镜头作为一个完整的视频场景,实现视频的场景分割。然后以场景为单位人工对videoj的场景进行场景语义标注。
利用每个场景中各镜头的镜头语义集及所对应LTj中的上下文信息构造场景语义训练集。其中场景语义的特征分为两种:
a.镜头语义特征:若某镜头语义出现在该场景中,令该镜头语义特征值为1,否则为0;
b.上下文特征:上下文特征是两个镜头语义之间的上下文关系,镜头语义在LTj中对应一个叶节点,所以这两个镜头语义的上下文特征值为这两个叶节点最近公共祖先节点上的上下文标签。例如,图2中l1和l2的上下文特征为“nl1”,l1和l3的上下文特征为“Scene”。
以C4.5算法为分类模型,根据场景语义训练集中各个特征属性的信息增益率来选择属性作为节点,最终生成分析视频场景语义的决策树。将这棵决策树作为场景语义分析器。
根据wuk的LTk中的“场景上下文”标签Scene,将videok分为若干场景,并以场景为单位提取该场景的镜头语义特征和上下文特征组成特征向量。将videok各场景的特征向量输入场景语义分析器,得到videok各场景的场景语义。
4.将LTk中的每个叶节点中的镜头语义标签替换为所代表的镜头所对应的镜头语义集,然后将LTk中的每个Scene替换为对应的场景语义,最后将包含镜头语义与场景语义的LTk作为videok的视频索引;
以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。

Claims (2)

1.一种融合上下文的树形视频语义索引建立方法,其特征在于该方法包括以下步骤:
步骤1:输入n个训练视频片段videoj,j∈{1,...,n},对videoj进行预处理,然后以镜头为单位人工标注videoj各个镜头的镜头语义集,并为每类镜头语义构造镜头语义训练集以训练分类器,得到镜头语义分析器;输入m个待建立树形索引的视频片段videok,k∈{1,...,m},对videok进行预处理,利用镜头语义分析器提取videok各个镜头的镜头语义集;
步骤2:以视频片段为单位,人工标注videoj中镜头语义之间的上下文,用带有上下文标签的上下文标签树LTj表示,并构建上下文训练集;训练结构化支持向量SVM-Struct,得到上下文标签树分析器;利用上下文标签树分析器提取videok中的上下文标签树LTk
步骤3:以videoj的场景为单位人工标注场景语义,构建场景语义训练集;训练C4.5分类器,得到场景语义分析器;利用场景语义分析器提取videok中各个场景的场景语义;
步骤4:将步骤1中得到的videok各镜头的镜头语义集与步骤3得到的videok各场景的场景语义嵌入到步骤2中得到的LTk对应的节点中,将带有镜头语义和场景语义的LTk的作为videok的视频索引;
其中,所述步骤2按如下步骤进行:
步骤3.1:从videoj各镜头的镜头语义集中提取一个镜头语义代表该镜头,然后按照时序关系组成镜头语义序列wuj
步骤3.2:人工标注wuj的上下文,并用上下文标签树LTj表示上下文信息;上下文标签树为一个五元组LTj=<L,Video,Scene,NL,P>;其中L是镜头语义标签集,其元素表示的是wuj中代表镜头的镜头语义;Video是“视频上下文”标签,所表示的上下文是其子节点共同表达这段视频的内容;Scene是“场景上下文”标签,所表示的是其子节点共同表达了这个场景的内容;NL是除Video和Scene之外的上下文标签集,其中每个元素都代表一种上下文关系;P是上下文规则集,其每个元素表示的是一条上下文规则;
步骤3.3:将n个wuj和对应的上下文标签树构造成上下文训练集:context={(xj,yj)|j=1,...,n},其中xj是上下文训练集中的镜头语义序列,yj是上下文训练集中的与xj对应的上下文标签树;
步骤3.4:利用上下文训练集训练结构化支持向量机SVM-Struct,具体操作为:
步骤3.4.1:构造镜头语义序列与上下文标签树的映射函数为:
其中,f(xj,yj;W)=<W,ψ(xj,yj)>为判别函数,Y是xj可以构造出的所有上下文标签树的集合,W是权向量,ψ(xj,yj)是训练数据中的镜头语义序列与其对应的上下文标签树的联合特征向量;构造ψ(xj,yj)的方式如下:
&psi; ( x j , y j ) = p 1 a 1 . . . . . . p N a N
其中pi与ai,i∈[1,N]分别是该上下文标签树的上下文规则集P中的规则和该规则对应出现的次数,N为上下文训练集中出现的上下文规则类别总数;
步骤3.4.2:将训练SVM-Struct转化为最优化问题:
m i n 1 2 | | W | | 2 + C n &Sigma; j = 1 n &epsiv; j ,
s . t . &ForAll; y &Element; Y \ y j : < W , &psi; ( x j , y j ) - &psi; ( x j , y ) > &GreaterEqual; &Delta; ( y j , y ) - &epsiv; j - - - ( 6 )
其中εj为松弛变量,C>0是错分样本的惩罚值,Δ(yj,y)为损失函数;令损失函数Δ(yj,y)=(1-F1(yj,y));其中yj是上下文训练集中镜头语义序列的真实上下文标签树,y是训练过程中预测的上下文标签树,F1计算方式如下:
Pr e c i s i o n = | E ( y j ) &cap; E ( y ) | | E ( y ) |
Re c a l l = | E ( y j ) &cap; E ( y ) | | E ( y j ) |
F 1 = 2 * Pr e c i s i o n * Re c a l l Pr e c i s i o n + Re c a l l
其中,Precision为上下文标签中每个节点预测的准确率,Recall为上下文标签树中每个节点预测的召回率,E(yj)为yj的边集,E(y)为y的边集;
步骤3.4.3:将公式(6)转化成其对偶的形式:
m a x &alpha; &Sigma; j , y &NotEqual; y j &alpha; j y - 1 2 &Sigma; j , y &NotEqual; y j z , y &OverBar; &NotEqual; y z &alpha; j y &alpha; z y &OverBar; < ( &psi; ( x j , y j ) - &psi; ( x j , y ) ) , ( &psi; ( x z , y z ) - &psi; ( x z , y ) ) >
s . t &ForAll; j , &ForAll; y &Element; Y \ y j : &alpha; j y &GreaterEqual; 0. - - - ( 7 )
其中αjy均是拉格朗日乘子,对于软间隔,还另外有组约束条件:
&ForAll; j , n &Sigma; y &NotEqual; y j &alpha; j y &Delta; ( y j , y ) &le; C
步骤3.4.4:在上下文训练集context上计算公式(7),找到最优的一组αjy后也就确定权向量W,得到上下文标签树分析器;
步骤3.5:用与步骤3.1相同的方式提取videok的镜头语义序列wuk,并将wuk输入视频上下文标签树分析器,得到wuk对应的LTk
其中,所述步骤3按如下步骤进行:
步骤4.1:根据LTj中的“场景上下文”标签Scene,将每个Scene标签下的叶节点所对应的镜头作为一个完整的视频场景,实现视频的场景分割;然后以场景为单位人工对videoj的场景进行场景语义标注;
步骤4.2:利用每个场景中各镜头的镜头语义集及所对应LTj中的上下文信息构造场景语义训练集;其中场景语义的特征分为两种:
a.镜头语义特征:若某镜头语义出现在该场景中,令该镜头语义特征值为1,否则为0;
b.上下文特征:上下文特征是两个镜头语义之间的上下文关系,镜头语义在LTj中对应一个叶节点,所以这两个镜头语义的上下文特征值为这两个叶节点最近公共祖先节点上的上下文标签;
步骤4.3:以C4.5算法为分类模型,根据场景语义训练集中各个特征属性的信息增益率来选择属性作为节点,最终生成分析视频场景语义的决策树,并将这棵决策树作为场景语义分析器;
步骤4.4:根据wuk的LTk,以与步骤4.1中相同的方法将videok分为若干场景,并以场景为单位提取该场景的特征向量;将videok各场景的特征向量输入场景语义分析器,得到videok各场景的场景语义;
其中,所述步骤4按如下步骤进行:
步骤5.1:将LTk中的每个叶节点中的镜头语义标签替换为所代表的镜头所对应的镜头语义集;
步骤5.2:将LTk中的每个Scene替换为对应的场景语义;
步骤5.3:将包含镜头语义与场景语义的LTk作为videok的视频索引。
2.根据权利要求1所述的一种融合上下文的树形视频语义索引建立方法,其特征在于:所述步骤1中按如下步骤进行:
步骤2.1:对n个训练视频片段videoj进行镜头分割,得到r个训练视频镜头shot1,shot2,…,shotr;提取并量化镜头shoti的视觉特征,构造其视觉特征向量vi
步骤2.2:设置标注语义集Semantic={Semt|t=1,...,e},人工标注r个镜头中出现的语义Semt,加入到各个镜头的镜头语义集中,然后为每一类镜头语义Semt构造镜头语义训练集Trat,Trat={(vi,si)|i=1,...,r},如果语义Semt出现在镜头shoti中,则si=1,否则为0;最终得到e个镜头语义的训练集Tra1,Tra2,…,Trae
步骤2.3:使用SVM分类器作为分类模型,为每个语义Semt训练一个分类器SVMt;SVMt的判别函数形式为:ft(vi)=sgn[g(vi)],其中g(vi)=<w,vi>+b,w和b是期望的最优参数,vi为视频镜头shoti的视觉特征向量;
训练集Trat训练SVMt的优化目标为:
m i n 1 2 | | w | | 2 s . t . s i ( < w , v i > + b ) - 1 &GreaterEqual; 0 - - - ( 1 )
利用拉格朗日函数合并优化问题和约束将(1)式转化为:
max &alpha; &Sigma; i = 1 r &alpha; i - 1 2 &Sigma; i , h = 1 r &alpha; i &alpha; h s i s h v i * v h s . t . &alpha; i &GreaterEqual; 0 , &Sigma; i = 1 r &alpha; i s i = 0 - - - ( 2 )
其中α={α12,...,αr}为拉格朗日乘子,h和i都是下标,vi和vh是镜头shoti和shoth对应的视觉特征向量;
引入核函数K(vi,vh),将公式(2)转换为:
max &alpha; &Sigma; i = 1 r &alpha; j - 1 2 &Sigma; i , h = 1 r &alpha; i &alpha; h s i s h K ( v i , v h ) s . t . &alpha; i &GreaterEqual; 0 , &Sigma; i = 1 r &alpha; i s i = 0 - - - ( 3 )
核函数选定为径向基函数,定义为:
K ( v i , v h ) = exp ( - ( v i - v h ) 2 2 &sigma; 2 ) - - - ( 4 )
其中exp()为指数函数,σ为参数;
训练完成后就确定了一组αi,也就确定了镜头语义Semt的判别函数:
f t ( v ) = sgn &lsqb; &Sigma; i = 1 r &alpha; i s i K ( v i , v h ) + b 0 &rsqb; - - - ( 5 )
其中b0为参数;
步骤2.4:按照步骤2.3完成对所有Semt的分类器SVMt训练后,得到e个镜头语义的判别函数,将e个镜头语义的判别函数组成镜头语义分析器组;
步骤2.5:对m个待建立树形索引的视频片段videok进行镜头分割,然后提取每个镜头的视觉特征组成特征向量v;将v输入镜头语义分析器组以判断该镜头中出现的语义,并将出现的语义加入到这个镜头的镜头语义集中。
CN201410297974.0A 2014-06-26 2014-06-26 一种融合上下文的树形视频语义索引建立方法 Expired - Fee Related CN104036023B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410297974.0A CN104036023B (zh) 2014-06-26 2014-06-26 一种融合上下文的树形视频语义索引建立方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410297974.0A CN104036023B (zh) 2014-06-26 2014-06-26 一种融合上下文的树形视频语义索引建立方法

Publications (2)

Publication Number Publication Date
CN104036023A CN104036023A (zh) 2014-09-10
CN104036023B true CN104036023B (zh) 2017-05-10

Family

ID=51466793

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410297974.0A Expired - Fee Related CN104036023B (zh) 2014-06-26 2014-06-26 一种融合上下文的树形视频语义索引建立方法

Country Status (1)

Country Link
CN (1) CN104036023B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104506947B (zh) * 2014-12-24 2017-09-05 福州大学 一种基于语义内容的视频快进/快退速度自适应调整方法
US20170083623A1 (en) * 2015-09-21 2017-03-23 Qualcomm Incorporated Semantic multisensory embeddings for video search by text
CN106878632B (zh) * 2017-02-28 2020-07-10 北京知慧教育科技有限公司 一种视频数据的处理方法和装置
CN107590442A (zh) * 2017-08-22 2018-01-16 华中科技大学 一种基于卷积神经网络的视频语义场景分割方法
KR102387767B1 (ko) * 2017-11-10 2022-04-19 삼성전자주식회사 사용자 관심 정보 생성 장치 및 그 방법
US10860649B2 (en) * 2018-03-14 2020-12-08 TCL Research America Inc. Zoomable user interface for TV
CN110545299B (zh) * 2018-05-29 2022-04-05 腾讯科技(深圳)有限公司 内容列表信息的获取方法、提供方法、装置及设备
CN109344887B (zh) * 2018-09-18 2020-07-07 山东大学 基于多模态字典学习的短视频分类方法、***及介质
CN109685144B (zh) * 2018-12-26 2021-02-12 上海众源网络有限公司 一种对视频模型做评估的方法、装置及电子设备
CN111435453B (zh) * 2019-01-14 2022-07-22 中国科学技术大学 细粒度图像零样本识别方法
CN110097094B (zh) * 2019-04-15 2023-06-13 天津大学 一种面向人物交互的多重语义融合少样本分类方法
CN110765314A (zh) * 2019-10-21 2020-02-07 长沙品先信息技术有限公司 一种视频语义结构化提取与标注的方法
CN114302224B (zh) * 2021-12-23 2023-04-07 新华智云科技有限公司 一种视频智能剪辑方法、装置、设备及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103593363A (zh) * 2012-08-15 2014-02-19 中国科学院声学研究所 视频内容索引结构的建立方法、视频检索方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10078693B2 (en) * 2006-06-16 2018-09-18 International Business Machines Corporation People searches by multisensor event correlation

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103593363A (zh) * 2012-08-15 2014-02-19 中国科学院声学研究所 视频内容索引结构的建立方法、视频检索方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Co-Concept-Boosting视频语义索引方法";陈丹雯等;《小型微型计算机***》;20120731;第33卷(第7期);1603-1607 *
"一种新的用于视频检索的语义索引";韩智广等;《和谐人机环境2008》;20081231;454-459 *

Also Published As

Publication number Publication date
CN104036023A (zh) 2014-09-10

Similar Documents

Publication Publication Date Title
CN104036023B (zh) 一种融合上下文的树形视频语义索引建立方法
Qu et al. Dynamic modality interaction modeling for image-text retrieval
Gorti et al. X-pool: Cross-modal language-video attention for text-video retrieval
Liang et al. Jointly learning aspect-focused and inter-aspect relations with graph convolutional networks for aspect sentiment analysis
Chen et al. Hierarchical visual-textual graph for temporal activity localization via language
CN102982344B (zh) 基于同时融合多视角特征及多标签信息的支持向量机分类方法
Perez-Martin et al. Improving video captioning with temporal composition of a visual-syntactic embedding
CN106951438A (zh) 一种面向开放域的事件抽取***及方法
Li et al. Vehicle trajectory prediction using generative adversarial network with temporal logic syntax tree features
CN105760507A (zh) 基于深度学习的跨模态主题相关性建模方法
CN103970733B (zh) 一种基于图结构的中文新词识别方法
CN103778227A (zh) 从检索图像中筛选有用图像的方法
Zablocki et al. Context-aware zero-shot learning for object recognition
Hii et al. Multigap: Multi-pooled inception network with text augmentation for aesthetic prediction of photographs
CN109948668A (zh) 一种多模型融合方法
CN105849720A (zh) 视觉语义复合网络以及用于形成该网络的方法
CN105824862A (zh) 一种基于电子设备的图片分类方法及电子设备
CN104537028B (zh) 一种网页信息处理方法及装置
CN113590874B (zh) 一种视频定位方法及装置、模型训练方法及设备
CN113076483A (zh) 基于案件要素异构图的舆情新闻抽取式摘要方法
CN103761286B (zh) 一种基于用户兴趣的服务资源检索方法
Hinami et al. Discriminative learning of open-vocabulary object retrieval and localization by negative phrase augmentation
Wang et al. Topic scene graph generation by attention distillation from caption
CN109446897A (zh) 基于图像上下文信息的场景识别方法及装置
CN110968721A (zh) 一种海量图像侵权检索方法、***及其计算机可读存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170510

Termination date: 20200626

CF01 Termination of patent right due to non-payment of annual fee