CN104036023A - 一种融合上下文的树形视频语义索引建立方法 - Google Patents
一种融合上下文的树形视频语义索引建立方法 Download PDFInfo
- Publication number
- CN104036023A CN104036023A CN201410297974.0A CN201410297974A CN104036023A CN 104036023 A CN104036023 A CN 104036023A CN 201410297974 A CN201410297974 A CN 201410297974A CN 104036023 A CN104036023 A CN 104036023A
- Authority
- CN
- China
- Prior art keywords
- camera lens
- video
- semantic
- scene
- context
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/71—Indexing; Data structures therefor; Storage structures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Studio Devices (AREA)
Abstract
本发明属于视频检索技术领域,实现了一种构建树形的视频语义索引的方法。所构建的视频语义索引包含了多种粒度的视频语义,而且这种语义索引融合了视频语义之间的上下文,根据上下文将不同粒度的视频语义联系起来,形成了树形的结构。利用这种方法为视频建立语义索引后,用户能够输入不同粒度的关键词检索视频,而且索引中的上下文信息能够缩小搜索空间,提高检索***的效率。本技术的特征在于:先以镜头为单位提取各个镜头的镜头语义集。然后有监督地获取视频镜头语义的上下文,并用上下文标签树表示。再结合镜头语义集和上下文信息进行场景语义的推理。最后将镜头语义集、场景语义嵌入到上下文标签树中并作为视频的索引。
Description
技术领域
本发明属于视频检索技术领域,是一种能够利用视频的镜头语义、场景语义以及语义间的上下文构建视频语义索引的方法。
背景技术
如今视频数据已然成为互联网上最重要的数据之一。然而随着视频数据***性的增长,如何高效地管理、检索视频成为了一个很困难的问题。通常用户在检索视频时都是输入一个关键字,然后由视频搜索引擎根据关键字需找到相关的视频数据。这就要求对视频建立合适的语义索引才能提高用户检索视频的效率与命中率。基于视频语义的视频索引构建是通过计算机自动地分析视频的视觉特征以获取视频蕴含的语义信息,然后将语义信息作为视频的索引,用户在检索视频时可以通过输入关键字检索视频。
然而用户对视频搜索引擎的要求不断提高,用户往往根据需求的不同输入不同粒度的关键字,例如用户搜索足球相关内容的视频时可能会输入“足球”、“精彩片段”、“射门”、“裁判特写”等不同粒度的关键词进行检索。所以传统的单一粒度的、无层次的视频语义索引已经满足不了用户的检索需求。此外,视频的语义内容丰富,除了语义信息之外还存在着大量的上下文信息,利用上下文信息能够帮助搜索引擎理解不同粒度语义之间的相互作用,为视频中不同粒度的语义之间建立关系,从而在检索视频时能够根据这些关系信息搜索相关的视频。上下文信息能够在保证搜索命中率的前提下,缩小搜索空间、提高搜索效率。基于此,本发明实现了一种能够融合上下文的视频语义索引,以提高视频索引的有效性。
发明内容
本发明的目的是实现一种能够融合上下文信息建立树形视频语义索引的方法。该方法能够将上下文信息融入视频语义索引中,提高视频检索命中率与效率。
本发明采用以下方案实现:一种融合上下文的树形视频语义索引建立方法,其特征在于该方法包括以下步骤:
步骤1:输入n个训练视频片段videoj,j∈{1,...,n},对videoj进行预处理,然后以镜头为单位人工标注videoj各个镜头的镜头语义集,并为每类镜头语义构造镜头语义训练集以训练分类器,得到镜头语义分析器。输入m个待建立树形索引的视频片段videok,k∈{1,...,m},对videok进行预处理,利用镜头语义分析器提取videok各个镜头的镜头语义集;
步骤2:以视频片段为单位,人工标注videoj中镜头语义之间的上下文,用带有上下文标签的上下文标签树LTj表示,并构建上下文训练集。训练结构化支持向量SVM-Struct,得到上下文标签树分析器。利用上下文分析器提取videok中的上下文标签树LTk;
步骤3:以videoj的场景为单位人工标注场景语义,构建场景语义训练集。训练C4.5分类器,得到场景语义分析器。利用场景语义分析器提取videok中各个场景的场景语义;
步骤4:将步骤2中得到的videok各镜头的镜头语义集与步骤4得到的videok各场景的场景语义嵌入到步骤3中得到的LTk对应的节点中,将带有镜头语义和场景语义的LTk的作为videok的视频索引。
进一步地,所述步骤1中按如下步骤进行:
步骤2.1:对n个训练视频片段videoj进行镜头分割,得到r个训练视频镜头;提取并量化镜头的视觉特征,构造成视觉特征向量v;
步骤2.2:设置标注语义集Semantic={Semt|t=1,...,e},人工标注r个镜头中出现的语义Semt,加入到各个镜头的镜头语义集中,然后为每一类镜头语义Semt构造镜头语义训练集,得到e个镜头语义训练集Trat={(vi,si)|i=1,...,r},如果语义Semt出现在该镜头中,则si=1,否则为0;
步骤2.3:使用SVM分类器作为分类模型,为每个语义Semt训练一个分类器SVMt;SVMt的判别函数形式为:ft(v)=sgn[g(v)],其中g(v)=<w,v>+b;所以通过训练集Trat训练SVMt的优化目标为:
利用拉格朗日函数合并优化问题和约束将(1)式转化为:
引入核函数K(vj,vh),将公式(2)转换为:
核函数选定为径向基函数,定义为:
其中exp()为指数函数,σ为参数。
训练完成后就确定了一组αi,也就确定了镜头语义Semt的判别函数:
其中b0为参数。
步骤2.4:按照步骤2.3完成对所有Semt的分类器SVMt训练后,得到e个镜头语义的判别函数,将e个镜头语义的判别函数组成的镜头语义分析器组。
步骤2.5:对m个待建立树形索引的视频片段videok进行镜头分割,然后提取每个镜头的视觉特征组成特征向量v;将v输入镜头语义分析器组以判断该镜头中出现的语义,并将出现的语义加入到这个镜头的镜头语义集中。
进一步地,所述步骤2按如下步骤进行:
步骤3.1:从videoj各镜头的镜头语义集中提取一个镜头语义代表该镜头,然后按照时序关系组成镜头语义序列wuj;
步骤3.2:人工标注wuj的上下文,并用上下文标签树LTj表示上下文信息;上下文标签树为一个五元组LT=<L,Video,Scene,NL,P>;其中L是镜头语义标签集,其元素表示的是wuj中代表镜头的镜头语义;Video是“视频上下文”标签,所表示的上下文是其子节点共同表达这段视频的内容;Scene是“场景上下文”标签,表所示的是其子节点共同表达了这个场景的内容;NL是除Video和Scene之外的上下文标签集,其中每个元素都代表一种上下文关系;P是上下文规则集,其每个元素表示的是一条上下文规则;
步骤3.3:将n个wuj和对应的上下文标签树构造成上下文训练集:
context={(xj,yj)|j=1,...,n},其中xj是镜头语义序列,yj是对应的上下文标签树;
步骤3.4:利用上下文训练集训练结构化支持向量机SVM-Struct,具体操作为:
步骤3.4.1:构造镜头语义序列与上下文标签树的映射函数为:
其中f(x,y;W)=<W,ψ(x,y)>为判别函数,W是权向量,ψ(x,y)是训练数据中的镜头语义序列与其对应的上下文标签树的联合特征向量;构造ψ(x,y)的方式如下:
其中pi与ai(i∈[1,N])分别是该上下文标签树的上下文规则集P中的规则和该规则对应出现的次数,N为上下文训练集中出现的上下文规则类别总数;
步骤3.4.2:将训练SVM-Struct转化为最优化问题:
其中εj为松弛变量,C>0是错分样本的惩罚值,Δ(yj,y)为损失函数;令损失函数Δ(yj,y)=(1-F1(yj,y));其中yj是上下文训练集中镜头语义序列的真实上下文标签树,y是训练过程中预测的上下文标签树,F1计算方式如下:
其中,Precision为上下文标签中每个节点预测准确率,Precision为上下文标签树中每个节点预测的召回率,E(yj)为yj的边集,E(y)为y的边集;
步骤3.4.3:将公式(6)转化成其对偶的形式:
其中αiy是拉格朗日乘子.对于软间隔,还另外有组约束条件:
步骤3.4.4:在上下文训练集context上计算公式(7),找到最优的一组αjy后也就确定权向量W,得到上下文标签树分析器;
步骤3.5:用与步骤3.1相同的方式提取videok的镜头语义序列wuk,并将wuk输入视频上下文标签树分析器,得到wuk的LTk。
进一步地,所述步骤3按如下步骤进行:
步骤4.1:根据LTj中的“场景上下文”标签Scene,将每个Scene标签下的叶节点所对应的镜头作为一个完整的视频场景,实现视频的场景分割;然后以场景为单位人工对videoj的场景进行场景语义标注;
步骤4.2:利用每个场景中各镜头的镜头语义集及所对应LTj中的上下文信息构造场景语义训练集;其中场景语义的特征分为两种:
a.镜头语义特征:若某镜头语义出现在该场景中,令该镜头语义特征值为1,否则为0;
b.上下文特征:上下文特征是两个镜头语义之间的上下文关系,镜头语义在LTj中对应一个叶节点,所以这两个镜头语义的上下文特征值为这两个叶节点最近公共祖先节点上的上下文标签;
步骤4.3:以C4.5算法为分类模型,根据场景语义训练集中各个特征属性的信息增益率来选择属性作为节点,最终生成分析视频场景语义的决策树,并将这棵决策树作为场景语义分析器;
步骤4.4:根据wuk的LTk,以与步骤4.1中相同的方法将videok分为若干场景,并以场景为单位提取该场景的特征向量;将videok各场景的特征向量输入场景语义分析器,得到videok各场景的场景语义。
进一步地,所述步骤4按如下步骤进行:
步骤5.1:将LTk中的每个叶节点中的镜头语义标签替换为所代表的镜头所对应的镜头语义集;
步骤5.2:将LTk中的每个Scene替换为对应的场景语义;
步骤5.3:将包含镜头语义与场景语义的LTk作为videok的视频索引。
本发明的有益效果是:利用本发明的方法为视频建立语义索引后,用户能够输入不同粒度的关键词检索视频,而且索引中的上下文信息能够缩小搜索空间,提高检索***的效率。
附图说明
图1是树形视频语义索引建立流程。
图2是一个视频上下文标签树的模型。
图3是一个树形视频索引模型。
具体实施方式
请参照图1,一种融合上下文的树形视频索引建立的方法,先以镜头为单位提取镜头的语义信息,然后有监督地获取视频镜头语义的上下文,并用树结构来表示上下文。再结合镜头语义和它们的上下文进行场景语义的推理。最后将镜头语义、场景语义嵌入到树结构中并作为视频的索引。具体如下:
1.对n个训练视频片段videoj进行镜头分割,得到r个训练视频镜头。提取并量化镜头的视觉特征,构造成视觉特征向量v。
设置标注语义集Semantic={Semt|t=1,...,e},人工标注r个镜头中出现的语义Semt,加入到各个镜头的镜头语义集中,然后为每一类镜头语义Semt构造镜头语义训练集,得到e个镜头语义训练集Trat={(vi,si)|i=1,...,r},如果语义Semt出现在该镜头中,则si=1,否则为0;
使用SVM分类器作为分类模型,为每个语义Semt训练一个分类器SVMt。SVMt的判别函数形式为:ft(v)=sgn[g(v)],其中g(v)=<w,v>+b。所以通过训练集Trat训练SVMt的优化目标为:
利用拉格朗日函数合并优化问题和约束将(1)式转化为:
引入核函数K(vj,vh),将公式(2)转换为:
核函数选定为径向基函数,定义为:
其中exp()为指数函数,σ为参数。
训练完成后就确定了一组αi,也就确定了镜头语义Semt的判别函数:
其中b0为参数。
完成Semt对应的分类器SVMt训练后,得到包含e个镜头语义分析器的镜头语义分析器组。
对m个待建立树形索引的视频片段videok进行镜头分割,然后提取每个镜头的视觉特征组成特征向量v。将v输入镜头语义分析器组以判断该镜头中出现的语义,并将出现的语义加入到这个镜头的镜头语义集中。
2.从videoj各镜头的镜头语义集中提取一个镜头语义代表该镜头,然后按照时序关系组成镜头语义序列wuj。
以视频片段为单位,人工标注训练视频片段的语义序列wuj的上下文,并用对应的上下文标签树LTj表示上下文信息。上下文标签树形式化地定义为五元组LT=<L,Video,Scene,NL,P>。其中L是镜头语义标签集,其元素表示的是wuj中代表镜头的镜头语义。Video是“视频上下文”标签,所表示的上下文是其子节点共同表达这段视频的内容。Scene是“场景上下文”标签,表所示的是其子节点共同表达了这个场景的内容。NL是除Video和Scene之外的上下文标签集,其中每个元素都代表一种上下文关系。P是上下文规则集,其每个元素表示的是一种上下文规则。例如图2中叶节点l1和l2组成它们的父节点nl1的规则,这条规则可以形式化地表示为:nl1→l1l2。
将n个wuj和对应的上下文标签树构造成上下文训练集:context={(xj,yj)|j=1,...,n},其中xj是镜头语义序列,yj是对应的上下文标签树。
利用上下文训练集训练结构化支持向量机SVM-Struct,构造镜头语义序列与上下文标签树的映射函数为:
其中f(x,y;W)=<W,ψ(x,y)>为判别函数,W是权向量,ψ(x,y)是训练数据中的镜头语义序列与其对应的上下文标签树的联合特征向量。构造ψ(x,y)的方式如下:
其中pi与ai(i∈[1,N])分别是该上下文标签树的上下文规则集P中的上下文规则和该规则对应出现的次数,N为上下文训练集中出现的上下文规则类别总数。
将训练SVM-Struct转化为最优化问题:
其中εj为松弛变量,C>0是错分样本的惩罚值,Δ(yj,y)为损失函数。令损失函数Δ(yj,y)=(1-F1(yj,y))。其中yj是上下文训练集中镜头语义序列的真实上下文标签树,y是训练过程中预测的上下文标签树,F1计算方式如下:
其中,Precision为上下文标签中每个节点预测准确率,Precision为上下文标签树中每个节点预测的召回率,E(yj)为yj的边集,E(y)为y的边集。
将公式(6)转化成其对偶的形式:
其中αiy是拉格朗日乘子.对于软间隔,还另外有组约束条件:
设置好惩罚值C后,在上下文训练集context上计算公式(7),找到最优的一组αjy后也就确定权向量W,得到上下文标签树分析器。
提取videok的镜头语义序列wuk,并将wuk输入视频上下文标签树分析器,得到wuk的LTk。
3.根据LTj中的“场景上下文”标签Scene,将每个Scene标签下的叶节点所对应的镜头作为一个完整的视频场景,实现视频的场景分割。然后以场景为单位人工对videoj的场景进行场景语义标注。
利用每个场景中各镜头的镜头语义集及所对应LTj中的上下文信息构造场景语义训练集。其中场景语义的特征分为两种:
a.镜头语义特征:若某镜头语义出现在该场景中,令该镜头语义特征值为1,否则为0;
b.上下文特征:上下文特征是两个镜头语义之间的上下文关系,镜头语义在LTj中对应一个叶节点,所以这两个镜头语义的上下文特征值为这两个叶节点最近公共祖先节点上的上下文标签。例如,图2中l1和l2的上下文特征为“nl1”,l1和l3的上下文特征为“Scene”。
以C4.5算法为分类模型,根据场景语义训练集中各个特征属性的信息增益率来选择属性作为节点,最终生成分析视频场景语义的决策树。将这棵决策树作为场景语义分析器。
根据wuk的LTk中的“场景上下文”标签Scene,将videok分为若干场景,并以场景为单位提取该场景的镜头语义特征和上下文特征组成特征向量。将videok各场景的特征向量输入场景语义分析器,得到videok各场景的场景语义。
4.将LTk中的每个叶节点中的镜头语义标签替换为所代表的镜头所对应的镜头语义集,然后将LTk中的每个Scene替换为对应的场景语义,最后将包含镜头语义与场景语义的LTk作为videok的视频索引;
以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。
Claims (5)
1.一种融合上下文的树形视频语义索引建立方法,其特征在于该方法包括以下步骤:
步骤1:输入n个训练视频片段videoj,j∈{1,...,n},对videoj进行预处理,然后以镜头为单位人工标注videoj各个镜头的镜头语义集,并为每类镜头语义构造镜头语义训练集以训练分类器,得到镜头语义分析器;输入m个待建立树形索引的视频片段videok,k∈{1,...,m},对videok进行预处理,利用镜头语义分析器提取videok各个镜头的镜头语义集;
步骤2:以视频片段为单位,人工标注videoj中镜头语义之间的上下文,用带有上下文标签的上下文标签树LTj表示,并构建上下文训练集;训练结构化支持向量SVM-Struct,得到上下文标签树分析器;利用上下文分析器提取videok中的上下文标签树LTk;
步骤3:以videoj的场景为单位人工标注场景语义,构建场景语义训练集;训练C4.5分类器,得到场景语义分析器;利用场景语义分析器提取videok中各个场景的场景语义;
步骤4:将步骤2中得到的videok各镜头的镜头语义集与步骤4得到的videok各场景的场景语义嵌入到步骤3中得到的LTk对应的节点中,将带有镜头语义和场景语义的LTk的作为videok的视频索引。
2.根据权利要求1所述的一种融合上下文的树形视频语义索引建立方法,其特征在于:所述步骤1中按如下步骤进行:
步骤2.1:对n个训练视频片段videoj进行镜头分割,得到r个训练视频镜头;提取并量化镜头的视觉特征,构造成视觉特征向量v;
步骤2.2:设置标注语义集Semantic={Semt|t=1,...,e},人工标注r个镜头中出现的语义Semt,加入到各个镜头的镜头语义集中,然后为每一类镜头语义Semt构造镜头语义训练集,得到e个镜头语义训练集Trat={(vi,si)|i=1,...,r},如果语义Semt出现在该镜头中,则si=1,否则为0;
步骤2.3:使用SVM分类器作为分类模型,为每个语义Semt训练一个分类器SVMt;SVMt的判别函数形式为:ft(v)=sgn[g(v)],其中x(v)=<w,v>+b;所以通过训练集Trat训练SVMt的优化目标为:
利用拉格朗日函数合并优化问题和约束将(1)式转化为:
引入核函数K(vj,vh),将公式(2)转换为:
核函数选定为径向基函数,定义为:
其中exp()为指数函数,σ为参数。
训练完成后就确定了一组αi,也就确定了镜头语义Semt的判别函数:
其中b0为参数。
步骤2.4:按照步骤2.3完成对所有Semt的分类器SVMt训练后,得到e个镜头语义的判别函数,将e个镜头语义的判别函数组成的镜头语义分析器组。
步骤2.5:对m个待建立树形索引的视频片段videok进行镜头分割,然后提取每个镜头的视觉特征组成特征向量v;将v输入镜头语义分析器组以判断该镜头中出现的语义,并将出现的语义加入到这个镜头的镜头语义集中。
3.根据权利要求1所述的一种融合上下文的树形视频语义索引建立方法,其特征在于:所述步骤2按如下步骤进行:
步骤3.1:从videoj各镜头的镜头语义集中提取一个镜头语义代表该镜头,然后按照时序关系组成镜头语义序列wuj;
步骤3.2:人工标注wuj的上下文,并用上下文标签树LTj表示上下文信息;上下文标签树为一个五元组LT=<L,Video,Scene,NL,P>;其中L是镜头语义标签集,其元素表示的是wuj中代表镜头的镜头语义;Video是“视频上下文”标签,所表示的上下文是其子节点共同表达这段视频的内容;Scene是“场景上下文”标签,表所示的是其子节点共同表达了这个场景的内容;NL是除Video和Scene之外的上下文标签集,其中每个元素都代表一种上下文关系;P是上下文规则集,其每个元素表示的是一条上下文规则;
步骤3.3:将n个wuj和对应的上下文标签树构造成上下文训练集:context={(xj,yj)|j=1,...,n},其中xj是镜头语义序列,yj是对应的上下文标签树;
步骤3.4:利用上下文训练集训练结构化支持向量机SVM-Struct,具体操作为:
步骤3.4.1:构造镜头语义序列与上下文标签树的映射函数为:
其中f(x,y;W)=<W,ψ(x,y)>为判别函数,W是权向量,ψ(x,y)是训练数据中的镜头语义序列与其对应的上下文标签树的联合特征向量;构造ψ(x,y)的方式如下:
其中pi与ai(i∈[1,N])分别是该上下文标签树的上下文规则集P中的规则和该规则对应出现的次数,N为上下文训练集中出现的上下文规则类别总数;
步骤3.4.2:将训练SVM-Struct转化为最优化问题:
其中为松弛变量,C>0是错分样本的惩罚值,Δ(yj,y)为损失函数;令损失函数Δ(yj,y)=(1-F1(yj,y));其中yj是上下文训练集中镜头语义序列的真实上下文标签树,y是训练过程中预测的上下文标签树,F1计算方式如下:
其中,Precision为上下文标签中每个节点预测的准确率,Precision为上下文标签树中每个节点预测的召回率,E(yj)为yj的边集,E(y)为y的边集;
步骤3.4.3:将公式(6)转化成其对偶的形式:
其中αiy是拉格朗日乘子.对于软间隔,还另外有组约束条件:
步骤3.4.4:在上下文训练集context上计算公式(7),找到最优的一组αjy后也就确定权向量W,得到上下文标签树分析器;
步骤3.5:用与步骤3.1相同的方式提取videok的镜头语义序列wuk,并将wuk输入视频上下文标签树分析器,得到wuk对应的LTk。
4.根据权利要求1所述的一种融合上下文的树形视频语义索引建立方法,其特征在于:所述步骤3按如下步骤进行:
步骤4.1:根据LTj中的“场景上下文”标签Scene,将每个Scene标签下的叶节点所对应的镜头作为一个完整的视频场景,实现视频的场景分割;然后以场景为单位人工对videoj的场景进行场景语义标注;
步骤4.2:利用每个场景中各镜头的镜头语义集及所对应LTj中的上下文信息构造场景语义训练集;其中场景语义的特征分为两种:
a.镜头语义特征:若某镜头语义出现在该场景中,令该镜头语义特征值为1,否则为0;
b.上下文特征:上下文特征是两个镜头语义之间的上下文关系,镜头语义在LTj中对应一个叶节点,所以这两个镜头语义的上下文特征值为这两个叶节点最近公共祖先节点上的上下文标签;
步骤4.3:以C4.5算法为分类模型,根据场景语义训练集中各个特征属性的信息增益率来选择属性作为节点,最终生成分析视频场景语义的决策树,并将这棵决策树作为场景语义分析器;
步骤4.4:根据wuk的LTk,以与步骤4.1中相同的方法将videok分为若干场景,并以场景为单位提取该场景的特征向量;将videok各场景的特征向量输入场景语义分析器,得到videok各场景的场景语义。
5.根据权利要求1所述的一种融合上下文的树形视频语义索引建立方法,其特征在于:所述步骤4按如下步骤进行:
步骤5.1:将LTk中的每个叶节点中的镜头语义标签替换为所代表的镜头所对应的镜头语义集;
步骤5.2:将LTk中的每个Scene替换为对应的场景语义;
步骤5.3:将包含镜头语义与场景语义的LTk作为videok的视频索引。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410297974.0A CN104036023B (zh) | 2014-06-26 | 2014-06-26 | 一种融合上下文的树形视频语义索引建立方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410297974.0A CN104036023B (zh) | 2014-06-26 | 2014-06-26 | 一种融合上下文的树形视频语义索引建立方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104036023A true CN104036023A (zh) | 2014-09-10 |
CN104036023B CN104036023B (zh) | 2017-05-10 |
Family
ID=51466793
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410297974.0A Expired - Fee Related CN104036023B (zh) | 2014-06-26 | 2014-06-26 | 一种融合上下文的树形视频语义索引建立方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104036023B (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104506947A (zh) * | 2014-12-24 | 2015-04-08 | 福州大学 | 一种基于语义内容的视频快进/快退速度自适应调整方法 |
CN106878632A (zh) * | 2017-02-28 | 2017-06-20 | 北京知慧教育科技有限公司 | 一种视频数据的处理方法和装置 |
CN107590442A (zh) * | 2017-08-22 | 2018-01-16 | 华中科技大学 | 一种基于卷积神经网络的视频语义场景分割方法 |
CN108027834A (zh) * | 2015-09-21 | 2018-05-11 | 高通股份有限公司 | 用于通过文本的视频搜索的语义多感官嵌入 |
CN109344887A (zh) * | 2018-09-18 | 2019-02-15 | 山东大学 | 基于多模态字典学习的短视频分类方法、***及介质 |
CN109685144A (zh) * | 2018-12-26 | 2019-04-26 | 上海众源网络有限公司 | 一种对视频模型做评估的方法、装置及电子设备 |
CN110097094A (zh) * | 2019-04-15 | 2019-08-06 | 天津大学 | 一种面向人物交互的多重语义融合少样本分类方法 |
CN110275744A (zh) * | 2018-03-14 | 2019-09-24 | Tcl集团股份有限公司 | 一种用于制作可缩放用户界面的方法及*** |
CN110545299A (zh) * | 2018-05-29 | 2019-12-06 | 腾讯科技(深圳)有限公司 | 内容列表信息的获取方法、提供方法、装置及设备 |
CN110765314A (zh) * | 2019-10-21 | 2020-02-07 | 长沙品先信息技术有限公司 | 一种视频语义结构化提取与标注的方法 |
CN111435453A (zh) * | 2019-01-14 | 2020-07-21 | 中国科学技术大学 | 细粒度图像零样本识别方法 |
US20210182558A1 (en) * | 2017-11-10 | 2021-06-17 | Samsung Electronics Co., Ltd. | Apparatus for generating user interest information and method therefor |
CN114302224A (zh) * | 2021-12-23 | 2022-04-08 | 新华智云科技有限公司 | 一种视频智能剪辑方法、装置、设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080252727A1 (en) * | 2006-06-16 | 2008-10-16 | Lisa Marie Brown | People searches by multisensor event correlation |
CN103593363A (zh) * | 2012-08-15 | 2014-02-19 | 中国科学院声学研究所 | 视频内容索引结构的建立方法、视频检索方法及装置 |
-
2014
- 2014-06-26 CN CN201410297974.0A patent/CN104036023B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080252727A1 (en) * | 2006-06-16 | 2008-10-16 | Lisa Marie Brown | People searches by multisensor event correlation |
CN103593363A (zh) * | 2012-08-15 | 2014-02-19 | 中国科学院声学研究所 | 视频内容索引结构的建立方法、视频检索方法及装置 |
Non-Patent Citations (2)
Title |
---|
陈丹雯等: ""Co-Concept-Boosting视频语义索引方法"", 《小型微型计算机***》 * |
韩智广等: ""一种新的用于视频检索的语义索引"", 《和谐人机环境2008》 * |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104506947B (zh) * | 2014-12-24 | 2017-09-05 | 福州大学 | 一种基于语义内容的视频快进/快退速度自适应调整方法 |
CN104506947A (zh) * | 2014-12-24 | 2015-04-08 | 福州大学 | 一种基于语义内容的视频快进/快退速度自适应调整方法 |
CN108027834A (zh) * | 2015-09-21 | 2018-05-11 | 高通股份有限公司 | 用于通过文本的视频搜索的语义多感官嵌入 |
CN106878632A (zh) * | 2017-02-28 | 2017-06-20 | 北京知慧教育科技有限公司 | 一种视频数据的处理方法和装置 |
CN106878632B (zh) * | 2017-02-28 | 2020-07-10 | 北京知慧教育科技有限公司 | 一种视频数据的处理方法和装置 |
CN107590442A (zh) * | 2017-08-22 | 2018-01-16 | 华中科技大学 | 一种基于卷积神经网络的视频语义场景分割方法 |
US20210182558A1 (en) * | 2017-11-10 | 2021-06-17 | Samsung Electronics Co., Ltd. | Apparatus for generating user interest information and method therefor |
US11678012B2 (en) * | 2017-11-10 | 2023-06-13 | Samsung Electronics Co., Ltd. | Apparatus and method for user interest information generation |
CN110275744A (zh) * | 2018-03-14 | 2019-09-24 | Tcl集团股份有限公司 | 一种用于制作可缩放用户界面的方法及*** |
CN110275744B (zh) * | 2018-03-14 | 2021-11-23 | Tcl科技集团股份有限公司 | 一种用于制作可缩放用户界面的方法及*** |
CN110545299B (zh) * | 2018-05-29 | 2022-04-05 | 腾讯科技(深圳)有限公司 | 内容列表信息的获取方法、提供方法、装置及设备 |
CN110545299A (zh) * | 2018-05-29 | 2019-12-06 | 腾讯科技(深圳)有限公司 | 内容列表信息的获取方法、提供方法、装置及设备 |
CN109344887A (zh) * | 2018-09-18 | 2019-02-15 | 山东大学 | 基于多模态字典学习的短视频分类方法、***及介质 |
CN109685144A (zh) * | 2018-12-26 | 2019-04-26 | 上海众源网络有限公司 | 一种对视频模型做评估的方法、装置及电子设备 |
CN111435453A (zh) * | 2019-01-14 | 2020-07-21 | 中国科学技术大学 | 细粒度图像零样本识别方法 |
CN111435453B (zh) * | 2019-01-14 | 2022-07-22 | 中国科学技术大学 | 细粒度图像零样本识别方法 |
CN110097094A (zh) * | 2019-04-15 | 2019-08-06 | 天津大学 | 一种面向人物交互的多重语义融合少样本分类方法 |
CN110097094B (zh) * | 2019-04-15 | 2023-06-13 | 天津大学 | 一种面向人物交互的多重语义融合少样本分类方法 |
CN110765314A (zh) * | 2019-10-21 | 2020-02-07 | 长沙品先信息技术有限公司 | 一种视频语义结构化提取与标注的方法 |
CN114302224A (zh) * | 2021-12-23 | 2022-04-08 | 新华智云科技有限公司 | 一种视频智能剪辑方法、装置、设备及存储介质 |
CN114302224B (zh) * | 2021-12-23 | 2023-04-07 | 新华智云科技有限公司 | 一种视频智能剪辑方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN104036023B (zh) | 2017-05-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104036023A (zh) | 一种融合上下文的树形视频语义索引建立方法 | |
Chang et al. | Semantic pooling for complex event analysis in untrimmed videos | |
US11023523B2 (en) | Video content retrieval system | |
Jiang et al. | Fast and accurate content-based semantic search in 100m internet videos | |
Duan et al. | Exploiting web images for event recognition in consumer videos: A multiple source domain adaptation approach | |
Habibian et al. | Videostory: A new multimedia embedding for few-example recognition and translation of events | |
US20170357878A1 (en) | Multi-dimensional realization of visual content of an image collection | |
Garcia et al. | Context-aware embeddings for automatic art analysis | |
CN102799684B (zh) | 一种视音频文件编目标引、元数据存储索引与搜索方法 | |
Zhou et al. | Conceptlearner: Discovering visual concepts from weakly labeled image collections | |
Dal Bianco et al. | A practical and effective sampling selection strategy for large scale deduplication | |
CN103336795A (zh) | 基于多特征的视频索引方法 | |
Hii et al. | Multigap: Multi-pooled inception network with text augmentation for aesthetic prediction of photographs | |
CN103425757A (zh) | 融合多模态信息的跨媒体人物新闻检索方法与*** | |
CN104391924A (zh) | 一种混合音视频检索方法及*** | |
Zhang et al. | Enhancing video event recognition using automatically constructed semantic-visual knowledge base | |
CN105678244B (zh) | 一种基于改进编辑距离的近似视频检索方法 | |
CN106649663A (zh) | 一种基于紧凑视频表征的视频拷贝检测方法 | |
CN103617263A (zh) | 一种基于多模态特征的电视广告片花自动检测方法 | |
CN104408115A (zh) | 一种电视平台上基于语义链接的异构资源推荐方法和装置 | |
CN103761286B (zh) | 一种基于用户兴趣的服务资源检索方法 | |
CN103778206A (zh) | 一种网络服务资源的提供方法 | |
CN108241713A (zh) | 一种基于多元切分的倒排索引检索方法 | |
CN109582847A (zh) | 一种信息处理方法及装置、存储介质 | |
CN104657376A (zh) | 基于节目关系的视频节目的搜索方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20170510 Termination date: 20200626 |