CN108805036A - 一种新的非监督的视频语义提取方法 - Google Patents

一种新的非监督的视频语义提取方法 Download PDF

Info

Publication number
CN108805036A
CN108805036A CN201810496579.3A CN201810496579A CN108805036A CN 108805036 A CN108805036 A CN 108805036A CN 201810496579 A CN201810496579 A CN 201810496579A CN 108805036 A CN108805036 A CN 108805036A
Authority
CN
China
Prior art keywords
video
dimensional convolution
neural network
convolution neural
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810496579.3A
Other languages
English (en)
Other versions
CN108805036B (zh
Inventor
林劼
王芷若
马骏
崔建鹏
杜亚伟
钟德建
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201810496579.3A priority Critical patent/CN108805036B/zh
Publication of CN108805036A publication Critical patent/CN108805036A/zh
Application granted granted Critical
Publication of CN108805036B publication Critical patent/CN108805036B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种新的非监督视频语义提取方法,包括构建三维卷积神经网络模型,使用视频数据库中带标签视频数据集训练三维卷积神经网络模型;使用滑动窗口将视频数据库中不带标签视频数据处理成符合三维卷积神经网络输入的数据;使用该生成数据作为三维卷积神经网络模型的输入数据,取三维卷积神经网络模型全连接层的输出数据作为视频段的语义特征;使用该生成的视频段语义特征序列作为视频语义自编码器的输入,通过自编码器整合得到视频整体语义特征。本发明实施例通过结合三维卷积神经网络和循环自动编码器的方案,解决了非监督的视频语义分析与提取问题,提高了视频语义提取准确度。

Description

一种新的非监督的视频语义提取方法
技术领域
本发明涉及人工智能和模式识别技术领域,特别是涉及一种基于深度学习模型的非监督视频语义提取方法。
背景技术
“语义”这一概念起源于19世纪末,是虚拟数据所对应的现实世界中的事物所代表的含义的表现,以及这些含义之间的关系,是虚拟数据在某个领域上的解释和逻辑表示。而且“视频语义”是针对人类思维而言的,当我们想用计算机来理解视频之中的“语义”时,计算机只能够识别诸如颜色、形状等底层特征。因此,我们需要采用一些方法将这些底层的特征联系起来,形成一些更高层的含义,从而将视频中所要展示的信息更好的表达出来。
视频数据通常是非结构化的,因此对视频的语义提取,需要从多方面进行考虑。从内容上,需要考虑视频含有的空间和时间属性。从语义上,需要考虑视频信息包括的图像特征、字幕文本特征、语音特征和视频描述信息文本特征等。视频在物理结构上分成了四个结构层次:帧、镜头、场景和视频。视频帧的内容记录了视频中对象的特征,如色彩、纹路和形态等;镜头是由若干连续帧组成的,其内容记录了连续帧中对象的运动特征,表现了对象的时间特性。在现实中,镜头是生成视频的基本单位,即是摄像机一次拍摄所得到的最小单位;场景由一系列语义内容相关并且时间上连续的镜头组成,其内容记录了较为复杂的语义信息。若干个场景组成一个视频文件,其内容记录了整个视频的语义信息。
(1)基于关键帧的视频语义提取,通常的关键帧语义提取技术流程为:对视频的帧截图;对帧截图进行关键帧识别,对取得的关键帧进行语义分析;将视频中包含的语音数据通过语音识别转换成文本;对语音文本进行语义识别;将上述关键帧语义和语音语义结合在一起,就得到了这个视频的语义;也就是将视频的图像特征和声音mfcc特征转换为语义特征,然后结合字幕的识别,通过Neuro-Linguistic Programming处理字幕得到词向量和文档相似度。这个方法的优势在于对视频上的文字内容较多的视频有较好的提取效果,比如一些教育类的视频。劣势就是对其他类型的文字较少的视频,因为其关键帧中的字幕信息较少,很难从中获得有用的文本信息。
(2)基于视频文本信息关键词提取,这种方法是对纯文本的提取,且此方法对词本身的重要程度、词所在的位置要求比较高,前面的词比后面的词重要,词频,词的整体出现顺序,也需要综合起来。也就是说标题的内容需要非常切合视频语义,否则这种方法的准确率会非常低。这种方法的优势是计算复杂度较低,业内有成熟的文本处理算法,并且各种算法开源包都很方便。劣势:有一些网络用语其表达的意思与字面意思相差很大,对视频语义的提取会产生极大的干扰。
对于体育视频的语义分析,目前的方法很少考虑对无标签数据的语义提取,因此当测试数据不属于训练数据种类之一时会发生领域漂移问题,从而影响视频语义提取准确度。
发明内容
本发明的目的在于克服现有的技术不足,提供一种使用三维卷积神经网络模型和循环自编码器相结合的视频语义提取的方法,能够解决非监督的视频语义分析与提取问题,提高视频语义提取准确度。
具体的,一种新的非监督视频语义提取方法,其特征在于,包括以下步骤:
S1:构建三维卷积神经网络模型,使用视频数据库中带标签的UCF-101视频集训练三维卷积神经网络模型;
S2:使用滑动窗口将视频数据库中不带标签视频数据处理成符合三维卷积神经网络输入的数据;
S3:使用S2步骤生成数据作为三维卷积神经网络模型的输入数据,取三维卷积神经网络模型全连接层的输出数据作为视频段的语义特征;
S4:使用S3步骤生成的视频段语义特征序列作为视频语义自编码器的输入,通过自编码器整合得到视频整体语义特征。
优选地,步骤S1包括下列子步骤:
S11:构建包含五层卷积层、池化层,两层全连接层和一层SOFTMAX层的三维卷积神经网络模型;
S12:在使用视频数据库中带标签的UCF-101视频集训练三维卷积神经网络之前,需要对视频数据集视频预处理:将UCF-101视频集中的原始视频需要按照一定的FPS转化为视频帧图片集,对图片进行大小调整、噪声过滤的图像预处理,将图片转化为112*112的统一规格;
S13:经过预处理的UCF-101视频集训练视频对应数据形式为(Xn,Ln):n为训练视频个数,其中Xn=[xn(1),xn(2),xn(3),...,xn(m)]是视频Xn经过预处理后的视频图片集合,m为视频转化为图片帧的个数,本方法使用ffmpeg将视频按照每秒20帧转化为图片序列,Ln为视频Xn对应标签类型;
S14:基于三维卷积神经网络模型和学习算法,使用经过预处理的UCF-101视频数据集,训练一个具有高识别率的视频种类识别模型。
优选地,步骤S2包括下列子步骤:
S21:将测试数据中视频帧图片数量m不满足m=kw的视频帧图片集进行补充处理,其中,k为任意整数,w为滑动窗口的大小,将视频最后一帧的图片进行复制操作直到满足m为w的倍数;
S22:使用滑动窗口对视频帧序列进行滑动读取帧图片,滑动步长为滑动窗口的一半,每滑动一次,获取的帧图片为三维卷积神经网络的一次输入;取滑动窗口大小w=16,因此测试数据形式经过处理变为w代表一次滑动窗口取得的图片集合,其中代表窗口滑动第k次滑动获得视频图片集。
优选地,步骤S3包括下列子步骤:
S31:使用S1中使用UCF-101视频集训练得到的三维卷积神经网络模型识别S2中处理后的测试视频数据
S32:将三维卷积神经网络的全连接层的输出固定为子动作种类个数;
S33:三维卷积神经网络输入为S22中定义的输出为第一层全连接层的输出 Fk=[f1,f2,f3,...,f4096],其中Fk的维度4096为三维卷积神经网络第一层全连接层的输出维度;
S34:测试视频数据对应三维卷积神经网络输出为[F1,F2,F3,...,Fk]其维度为4096*k维。
优选地,步骤S4包括下列子步骤:
S41:使用S3中三维卷积神经网络模型对测试视频数据语义特征提取结果[F1,F2,F3,...,Fk]作为视频语义自编码器的输入提取视频整体语义特征;
S42:循环自编码器将输入特征序列[F1,F2,F3,...,Fk]转化为特征对序列 [[F1,F2],[F2,F3],[F3,F4],...,[Fk-1,Fk]],采取贪心算法思想,其过程为依次选取特征对序列中的每一对特征将其整合为一个父特征,表示为:F1,2=f(W(1)[F1,F2]+b(1)),其中W(1)代表n*n的矩阵参数,b(1)是一个偏置项,W(1)与b(1)是通过学习特征序列对得到的;F1,2的重构过程为: [F1',F2']=W(2)F1,2+b(2)其中W(2)代表n*n的矩阵参数,b(2)是不同于b(1)的偏置项,同样W(2)与b(2)是通过学习重构误差得到;自编码器的重构误差为:循环自编码器的目标函数为:其中A(x)表示输入序列[F1,F2,F3,...,Fk]对应的语义树的所有可能,T(y)表示所有可能的特征对,循环自编码的一次编码过程是选出所有编码对中重构误差最小的一个特征对,将这对特征从特征序列中移除并将其父特征作为这一个特征对的代表组成一个新的特征序列;
S43:重复S42的自编码过程,直到特征序列中特征向量个数为1;
S44:循环自编码器输出最终的特征向量作为视频Xn的语义特征向量。
本发明的有益效果在于:
本发明通过结合三维卷积神经网络和循环自动编码器的方案,解决了非监督的视频语义分析与提取问题,提高了视频语义提取准确度。
附图说明
图1是本发明提出的一种新的非监督视频语义提取方法的流程图。
图2是本发明构建的三维卷积神经网络模型的结构图。
图3是本发明方法中训练三维卷积神经网络模型的流程示意图。
图4是本发明方法中提取视频语义特征的流程示意图。
图5是本发明基于三维卷积神经网络与循环自编码器模型的架构图。
具体实施方式
为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图说明本发明的具体实施方式。
本发明提出的一种新的非监督视频语义提取方法实施例流程图如图1所示,包括以下步骤:
S1:构建三维卷积神经网络模型,使用视频数据库中带标签的UCF-101视频集训练三维卷积神经网络模型;
S2:使用滑动窗口将视频数据库中不带标签视频数据处理成符合三维卷积神经网络输入的数据;
S3:使用S2步骤生成数据作为三维卷积神经网络模型的输入数据,取三维卷积神经网络模型全连接层的输出数据作为视频段的语义特征;
S4:使用S3步骤生成的视频段语义特征序列作为视频语义自编码器的输入,通过自编码器整合得到视频整体语义特征。
作为一种优选实施例,步骤S1包括下列子步骤:
S11:构建包含五层卷积层、池化层,两层全连接层和一层SOFTMAX层的三维卷积神经网络模型,所构建的三维卷积神经网络模型结构如图2所示;
S12:在使用视频数据库中带标签的UCF-101视频集训练三维卷积神经网络之前,需要对视频数据集视频预处理:将UCF-101视频集中的原始视频需要按照一定的FPS转化为视频帧图片集,对图片进行大小调整、噪声过滤的图像预处理,将图片转化为112*112的统一规格;对图像进行预处理,是由于受到各种条件的限制和随机干扰,这些图片集往往不能直接使用,因而需要在图像处理的早期阶段对它们进行大小调整、噪声过滤等图像预处理;
S13:经过预处理的UCF-101视频集训练视频对应数据形式为(Xn,Ln):n为训练视频个数,其中Xn=[xn(1),xn(2),xn(3),...,xn(m)]是视频Xn经过预处理后的视频图片集合,m为视频转化为图片帧的个数,本方法使用ffmpeg将视频按照每秒20帧转化为图片序列,Ln为视频Xn对应标签类型;
S14:基于三维卷积神经网络模型和学习算法,使用经过预处理的UCF-101视频数据集,训练一个具有高识别率的视频种类识别模型。
其中,训练三维卷积神经网络模型的流程示意如图3所示。随机初始化三维卷积神经网络参数,并将UCF-101视频数据集进行数据预处理后使用BP算法训练模型,得到最优的视频动作种类识别模型。
作为一种优选实施例,步骤S2包括下列子步骤:
S21:将测试数据中视频帧图片数量m不满足m=kw的视频帧图片集进行补充处理,其中, k为任意整数,w为滑动窗口的大小,将视频最后一帧的图片进行复制操作直到满足m为w 的倍数;
S22:使用滑动窗口对视频帧序列进行滑动读取帧图片,滑动步长为滑动窗口的一半,每滑动一次,获取的帧图片为三维卷积神经网络的一次输入;取滑动窗口大小w=16,因此测试数据形式经过处理变为w代表一次滑动窗口取得的图片集合,其中代表窗口滑动第k次滑动获得视频图片集。
作为一种优选实施例,步骤S3包括下列子步骤:
S31:使用S1中使用UCF-101视频集训练得到的三维卷积神经网络模型识别S2中处理后的测试视频数据
S32:将三维卷积神经网络的全连接层的输出固定为子动作种类个数;
S33:三维卷积神经网络输入为S22中定义的输出为第一层全连接层的输出 Fk=[f1,f2,f3,...,f4096],其中Fk的维度4096为三维卷积神经网络第一层全连接层的输出维度;
S34:测试视频数据对应三维卷积神经网络输出为[F1,F2,F3,...,Fk]其维度为4096*k维。
作为一种优选实施例,步骤S4包括下列子步骤:
S41:使用S3中三维卷积神经网络模型对测试视频数据语义特征提取结果[F1,F2,F3,...,Fk]作为视频语义自编码器的输入提取视频整体语义特征;
S42:循环自编码器将输入特征序列[F1,F2,F3,...,Fk]转化为特征对序列 [[F1,F2],[F2,F3],[F3,F4],...,[Fk-1,Fk]],采取贪心算法思想,其过程为依次选取特征对序列中的每一对特征将其整合为一个父特征,表示为:F1,2=f(W(1)[F1,F2]+b(1)),其中W(1)代表n*n的矩阵参数,b(1)是一个偏置项,W(1)与b(1)是通过学习特征序列对得到的;F1,2的重构过程为:[F1',F2']=W(2)F1,2+b(2)其中W(2)代表n*n的矩阵参数,b(2)是不同于b(1)的偏置项,同样W(2)与 b(2)是通过学习重构误差得到;自编码器的重构误差为:循环自编码器的目标函数为:其中A(x)表示输入序列 [F1,F2,F3,...,Fk]对应的语义树的所有可能,T(y)表示所有可能的特征对,循环自编码的一次编码过程是选出所有编码对中重构误差最小的一个特征对,将这对特征从特征序列中移除并将其父特征作为这一个特征对的代表组成一个新的特征序列;
S43:重复S42的自编码过程,直到特征序列中特征向量个数为1;
S44:循环自编码器输出最终的特征向量作为视频Xn的语义特征向量。
图4是本发明实施例方法中提取视频语义特征的流程示意图,视频数据集通过数据预处理,再经过滑动窗口处理数据,使用训练好的三维卷积神经网络提取特征得到特征序列,最后通过循环自编码器整合特征序列得到语义特征。
图5是本发明实施例基于三维卷积神经网络与循环自编码器模型的架构图,可见,视频经处理得到视频帧序列,处理后的视频帧序列通过三维卷积神经网络提取帧特征,形成视频帧特征序列,再转换为编码特征序列经过循环自编码器得到视频语义特征。
本发明实施例通过结合三维卷积神经网络和循环自动编码器的方案,解决了非监督的视频语义分析与提取问题,提高了视频语义提取准确度。
需要说明的是,对于前述的各个方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某一些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和单元并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述的部分,可以参见其他实施例的相关描述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、 ROM、RAM等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (5)

1.一种新的非监督视频语义提取方法,其特征在于,包括以下步骤:
S1:构建三维卷积神经网络模型,使用视频数据库中带标签的UCF-101视频集训练三维卷积神经网络模型;
S2:使用滑动窗口将视频数据库中不带标签视频数据处理成符合三维卷积神经网络输入的数据;
S3:使用S2步骤生成数据作为三维卷积神经网络模型的输入数据,取三维卷积神经网络模型全连接层的输出数据作为视频段的语义特征;
S4:使用S3步骤生成的视频段语义特征序列作为视频语义自编码器的输入,通过自编码器整合得到视频整体语义特征。
2.根据权利要求1所述的一种视频语义提取方法,其特征在于,步骤S1包括下列子步骤:
S11:构建包含五层卷积层、池化层,两层全连接层和一层SOFTMAX层的三维卷积神经网络模型;
S12:在使用视频数据库中带标签的UCF-101视频集训练三维卷积神经网络之前,需要对视频数据集视频预处理:将UCF-101视频集中的原始视频需要按照一定的FPS转化为视频帧图片集,对图片进行大小调整、噪声过滤的图像预处理,将图片转化为112*112的统一规格;
S13:经过预处理的UCF-101视频集训练视频对应数据形式为(Xn,Ln):n为训练视频个数,其中Xn=[xn(1),xn(2),xn(3),...,xn(m)]是视频Xn经过预处理后的视频图片集合,m为视频转化为图片帧的个数,本方法使用ffmpeg将视频按照每秒20帧转化为图片序列,Ln为视频Xn对应标签类型;
S14:基于三维卷积神经网络模型和学习算法,使用经过预处理的UCF-101视频数据集,训练一个具有高识别率的视频种类识别模型。
3.根据权利要求2所述的一种视频语义提取方法,其特征在于,步骤S2包括下列子步骤:
S21:将测试数据中视频帧图片数量m不满足m=kw的视频帧图片集进行补充处理,其中,k为任意整数,w为滑动窗口的大小,将视频最后一帧的图片进行复制操作直到满足m为w的倍数;
S22:使用滑动窗口对视频帧序列进行滑动读取帧图片,滑动步长为滑动窗口的一半,每滑动一次,获取的帧图片为三维卷积神经网络的一次输入;取滑动窗口大小w=16,因此测试数据形式经过处理变为w代表一次滑动窗口取得的图片集合,其中代表窗口滑动第k次滑动获得视频图片集。
4.根据权利要求3所述的一种视频语义提取方法,其特征在于,步骤S3包括下列子步骤:
S31:使用S1中使用UCF-101视频集训练得到的三维卷积神经网络模型识别S2中处理后的测试视频数据
S32:将三维卷积神经网络的全连接层的输出固定为子动作种类个数;
S33:三维卷积神经网络输入为S22中定义的输出为第一层全连接层的输出Fk=[f1,f2,f3,...,f4096],其中Fk的维度4096为三维卷积神经网络第一层全连接层的输出维度;
S34:测试视频数据对应三维卷积神经网络输出为[F1,F2,F3,...,Fk]其维度为4096*k维。
5.根据权利要求4所述的一种视频语义提取方法,其特征在于,步骤S4包括下列子步骤:
S41:使用S3中三维卷积神经网络模型对测试视频数据语义特征提取结果[F1,F2,F3,...,Fk]作为视频语义自编码器的输入提取视频整体语义特征;
S42:循环自编码器将输入特征序列[F1,F2,F3,...,Fk]转化为特征对序列[[F1,F2],[F2,F3],[F3,F4],...,[Fk-1,Fk]],采取贪心算法思想,其过程为依次选取特征对序列中的每一对特征将其整合为一个父特征,表示为:F1,2=f(W(1)[F1,F2]+b(1)),其中W(1)代表n*n的矩阵参数,b(1)是一个偏置项,W(1)与b(1)是通过学习特征序列对得到的;F1,2的重构过程为:[F1',F2']=W(2)F1,2+b(2)其中W(2)代表n*n的矩阵参数,b(2)是不同于b(1)的偏置项,同样W(2)与b(2)是通过学习重构误差得到;自编码器的重构误差为:循环自编码器的目标函数为:其中A(x)表示输入序列[F1,F2,F3,...,Fk]对应的语义树的所有可能,T(y)表示所有可能的特征对,循环自编码的一次编码过程是选出所有编码对中重构误差最小的一个特征对,将这对特征从特征序列中移除并将其父特征作为这一个特征对的代表组成一个新的特征序列;
S43:重复S42的自编码过程,直到特征序列中特征向量个数为1;
S44:循环自编码器输出最终的特征向量作为视频Xn的语义特征向量。
CN201810496579.3A 2018-05-22 2018-05-22 一种非监督视频语义提取方法 Expired - Fee Related CN108805036B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810496579.3A CN108805036B (zh) 2018-05-22 2018-05-22 一种非监督视频语义提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810496579.3A CN108805036B (zh) 2018-05-22 2018-05-22 一种非监督视频语义提取方法

Publications (2)

Publication Number Publication Date
CN108805036A true CN108805036A (zh) 2018-11-13
CN108805036B CN108805036B (zh) 2022-11-22

Family

ID=64091470

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810496579.3A Expired - Fee Related CN108805036B (zh) 2018-05-22 2018-05-22 一种非监督视频语义提取方法

Country Status (1)

Country Link
CN (1) CN108805036B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109948721A (zh) * 2019-03-27 2019-06-28 北京邮电大学 一种基于视频描述的视频场景分类方法
CN110363090A (zh) * 2019-06-14 2019-10-22 平安科技(深圳)有限公司 智能心脏疾病检测方法、装置及计算机可读存储介质
CN110674348A (zh) * 2019-09-27 2020-01-10 北京字节跳动网络技术有限公司 视频分类方法、装置及电子设备
CN111079532A (zh) * 2019-11-13 2020-04-28 杭州电子科技大学 一种基于文本自编码器的视频内容描述方法
CN112004113A (zh) * 2020-07-27 2020-11-27 北京大米科技有限公司 教学交互方法、装置、服务器及存储介质

Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080221878A1 (en) * 2007-03-08 2008-09-11 Nec Laboratories America, Inc. Fast semantic extraction using a neural network architecture
US20110301447A1 (en) * 2010-06-07 2011-12-08 Sti Medical Systems, Llc Versatile video interpretation, visualization, and management system
CN103729459A (zh) * 2014-01-10 2014-04-16 北京邮电大学 一种构建情感分类模型的方法
CN104809474A (zh) * 2015-05-06 2015-07-29 西安电子科技大学 基于自适应分组多层网络的大型数据集约减方法
CN104866900A (zh) * 2015-01-29 2015-08-26 北京工业大学 一种反卷积神经网络训练方法
CN105701480A (zh) * 2016-02-26 2016-06-22 江苏科海智能***有限公司 一种视频语义分析方法
US20160379055A1 (en) * 2015-06-25 2016-12-29 Kodak Alaris Inc. Graph-based framework for video object segmentation and extraction in feature space
WO2017074562A1 (en) * 2015-10-28 2017-05-04 Intel Corporation Automatic video summarization
CN106709481A (zh) * 2017-03-03 2017-05-24 深圳市唯特视科技有限公司 一种基于二维‑三维语义数据集的室内场景理解方法
CN107038221A (zh) * 2017-03-22 2017-08-11 杭州电子科技大学 一种基于语义信息引导的视频内容描述方法
CN107239801A (zh) * 2017-06-28 2017-10-10 安徽大学 视频属性表示学习方法及视频文字描述自动生成方法
CN107274402A (zh) * 2017-06-27 2017-10-20 北京深睿博联科技有限责任公司 一种基于胸部ct影像的肺结节自动检测方法及***
WO2017210690A1 (en) * 2016-06-03 2017-12-07 Lu Le Spatial aggregation of holistically-nested convolutional neural networks for automated organ localization and segmentation in 3d medical scans
US20180053057A1 (en) * 2016-08-18 2018-02-22 Xerox Corporation System and method for video classification using a hybrid unsupervised and supervised multi-layer architecture
US20180082197A1 (en) * 2016-09-22 2018-03-22 nference, inc. Systems, methods, and computer readable media for visualization of semantic information and inference of temporal signals indicating salient associations between life science entities
CN107888843A (zh) * 2017-10-13 2018-04-06 深圳市迅雷网络技术有限公司 用户原创内容的混音方法、装置、存储介质及终端设备
WO2018081751A1 (en) * 2016-10-28 2018-05-03 Vilynx, Inc. Video tagging system and method

Patent Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080221878A1 (en) * 2007-03-08 2008-09-11 Nec Laboratories America, Inc. Fast semantic extraction using a neural network architecture
US20110301447A1 (en) * 2010-06-07 2011-12-08 Sti Medical Systems, Llc Versatile video interpretation, visualization, and management system
CN103729459A (zh) * 2014-01-10 2014-04-16 北京邮电大学 一种构建情感分类模型的方法
CN104866900A (zh) * 2015-01-29 2015-08-26 北京工业大学 一种反卷积神经网络训练方法
CN104809474A (zh) * 2015-05-06 2015-07-29 西安电子科技大学 基于自适应分组多层网络的大型数据集约减方法
US20160379055A1 (en) * 2015-06-25 2016-12-29 Kodak Alaris Inc. Graph-based framework for video object segmentation and extraction in feature space
WO2017074562A1 (en) * 2015-10-28 2017-05-04 Intel Corporation Automatic video summarization
CN105701480A (zh) * 2016-02-26 2016-06-22 江苏科海智能***有限公司 一种视频语义分析方法
WO2017210690A1 (en) * 2016-06-03 2017-12-07 Lu Le Spatial aggregation of holistically-nested convolutional neural networks for automated organ localization and segmentation in 3d medical scans
US20180053057A1 (en) * 2016-08-18 2018-02-22 Xerox Corporation System and method for video classification using a hybrid unsupervised and supervised multi-layer architecture
US20180082197A1 (en) * 2016-09-22 2018-03-22 nference, inc. Systems, methods, and computer readable media for visualization of semantic information and inference of temporal signals indicating salient associations between life science entities
WO2018081751A1 (en) * 2016-10-28 2018-05-03 Vilynx, Inc. Video tagging system and method
CN106709481A (zh) * 2017-03-03 2017-05-24 深圳市唯特视科技有限公司 一种基于二维‑三维语义数据集的室内场景理解方法
CN107038221A (zh) * 2017-03-22 2017-08-11 杭州电子科技大学 一种基于语义信息引导的视频内容描述方法
CN107274402A (zh) * 2017-06-27 2017-10-20 北京深睿博联科技有限责任公司 一种基于胸部ct影像的肺结节自动检测方法及***
CN107239801A (zh) * 2017-06-28 2017-10-10 安徽大学 视频属性表示学习方法及视频文字描述自动生成方法
CN107888843A (zh) * 2017-10-13 2018-04-06 深圳市迅雷网络技术有限公司 用户原创内容的混音方法、装置、存储介质及终端设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HE, T等: "Moving object recognition using multi-view three-dimensional convolutional neural networks", 《NEURAL COMPUTING AND APPLICATIONS》 *
王梦来: "复杂场景监控视频事件检测", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109948721A (zh) * 2019-03-27 2019-06-28 北京邮电大学 一种基于视频描述的视频场景分类方法
CN109948721B (zh) * 2019-03-27 2021-07-09 北京邮电大学 一种基于视频描述的视频场景分类方法
CN110363090A (zh) * 2019-06-14 2019-10-22 平安科技(深圳)有限公司 智能心脏疾病检测方法、装置及计算机可读存储介质
WO2020248847A1 (zh) * 2019-06-14 2020-12-17 平安科技(深圳)有限公司 智能心脏疾病检测方法、装置及计算机可读存储介质
CN110674348A (zh) * 2019-09-27 2020-01-10 北京字节跳动网络技术有限公司 视频分类方法、装置及电子设备
CN110674348B (zh) * 2019-09-27 2023-02-03 北京字节跳动网络技术有限公司 视频分类方法、装置及电子设备
CN111079532A (zh) * 2019-11-13 2020-04-28 杭州电子科技大学 一种基于文本自编码器的视频内容描述方法
CN111079532B (zh) * 2019-11-13 2021-07-13 杭州电子科技大学 一种基于文本自编码器的视频内容描述方法
CN112004113A (zh) * 2020-07-27 2020-11-27 北京大米科技有限公司 教学交互方法、装置、服务器及存储介质

Also Published As

Publication number Publication date
CN108805036B (zh) 2022-11-22

Similar Documents

Publication Publication Date Title
CN108805036A (zh) 一种新的非监督的视频语义提取方法
CN108986186B (zh) 文字转化视频的方法和***
CN110110624B (zh) 一种基于DenseNet网络与帧差法特征输入的人体行为识别方法
CN111581437A (zh) 一种视频检索方法及装置
CN108921032B (zh) 一种新的基于深度学习模型的视频语义提取方法
CN109948721B (zh) 一种基于视频描述的视频场景分类方法
CN112784929B (zh) 一种基于双元组扩充的小样本图像分类方法及装置
Chen et al. Efficient spatial temporal convolutional features for audiovisual continuous affect recognition
CN107590432A (zh) 一种基于循环三维卷积神经网络的手势识别方法
CN115964467A (zh) 一种融合视觉情境的富语义对话生成方法
CN111680190B (zh) 一种融合视觉语义信息的视频缩略图推荐方法
Hou et al. Unsupervised deep learning of mid-level video representation for action recognition
CN111488813A (zh) 视频的情感标注方法、装置、电子设备及存储介质
CN116994171A (zh) 视频理解方法及装置
KR20210047467A (ko) 이미지 다중 캡션 자동 생성 방법 및 시스템
Zhang et al. A survey on multimodal-guided visual content synthesis
CN112528077B (zh) 基于视频嵌入的视频人脸检索方法及***
Abbasi et al. Adopting Self-Supervised Learning into Unsupervised Video Summarization through Restorative Score.
Saleem et al. Stateful human-centered visual captioning system to aid video surveillance
CN114510564A (zh) 视频知识图谱生成方法及装置
Fernandez-Lopez et al. SparseVSR: Lightweight and noise robust visual speech recognition
CN113792167B (zh) 一种基于注意力机制和模态依赖的跨媒体交叉检索方法
KR102526263B1 (ko) 이미지 다중 캡션 자동 생성 방법 및 시스템
CN115019137A (zh) 一种多尺度双流注意力视频语言事件预测的方法及装置
CN115731917A (zh) 语音数据处理方法、模型训练方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20221122

CF01 Termination of patent right due to non-payment of annual fee