CN109753984A - 视频分类方法、装置和计算机可读存储介质 - Google Patents

视频分类方法、装置和计算机可读存储介质 Download PDF

Info

Publication number
CN109753984A
CN109753984A CN201711084116.8A CN201711084116A CN109753984A CN 109753984 A CN109753984 A CN 109753984A CN 201711084116 A CN201711084116 A CN 201711084116A CN 109753984 A CN109753984 A CN 109753984A
Authority
CN
China
Prior art keywords
video
vector
class probability
present frame
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711084116.8A
Other languages
English (en)
Inventor
张立成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Qianshi Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201711084116.8A priority Critical patent/CN109753984A/zh
Publication of CN109753984A publication Critical patent/CN109753984A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Image Analysis (AREA)

Abstract

本公开涉及了一种视频分类方法、装置和计算机可读存储介质,涉及数据处理技术领域。该方法包括:从待分类的视频中提取多帧RGB图像,根据相邻帧的RGB图像得到多帧光流图像;根据当前帧RGB图像及其前一帧RGB图像,依次通过卷积神经网络和循环神经网络,获取视频的第一分类概率向量,第一分类概率向量中的各元素代表基于RGB图像视频属于各分类的概率;根据当前帧光流图像及其前一帧光流图像,依次通过卷积神经网络和循环神经网络,获取视频的第二分类概率向量,第二分类概率向量中的各元素代表基于光流图像视频属于各分类的概率;根据第一分类概率向量和第二分类概率向量确定所述视频的分类。该方法和装置能够提高视频分类的准确性。

Description

视频分类方法、装置和计算机可读存储介质
技术领域
本公开涉及数据处理技术领域,特别涉及一种视频分类方法、装置和计算机可读存储介质。
背景技术
随着数字存储技术、视频数据库技术的发展,多媒体信息日益丰富。为了有效地利用这些多媒体信息,需要对多媒体信息进行自动的组织、索引以方便多媒体数据的检索。视频内容的分类是归纳、理解、检索视频数据的一个重要环节。视频分类技术利用图像处理、视频处理的方法对视频进行分析,从而判断视频中个体的行为,例如,各种球类运动、日常活动等。
相关技术主要采用卷积神经网络,如AlexNet、GoogleNet等,对视频中的帧图像进行处理,从而实现视频分类。
发明内容
本公开的发明人发现上述相关技术中存在如下问题:作为处理对象的图像以及作为处理手段的神经网络类型单一,无法全面地表征视频中的个体行为,从而导致视频分类的准确率不高。针对上述技术问题,本公开提出了一种高准确率的视频分类技术方案。
根据本公开的一些实施例,提供了一种视频分类方法,包括:从待分类的视频中提取多帧RGB图像,根据相邻帧的RGB图像得到多帧光流图像;对于所述视频的每帧RGB图像,根据当前帧RGB图像及其前一帧RGB图像,依次通过卷积神经网络和循环神经网络,获取所述视频的第一分类概率向量,所述第一分类概率向量中的各元素代表基于RGB图像所述视频属于各分类的概率;对于所述视频的每帧光流图像,根据当前帧光流图像及其前一帧光流图像,依次通过卷积神经网络和循环神经网络,获取所述视频的第二分类概率向量,所述第二分类概率向量中的各元素代表基于光流图像所述视频属于各分类的概率;根据所述第一分类概率向量和所述第二分类概率向量确定所述视频的分类。
可选地,根据所述视频的当前帧RGB图像及其前一帧RGB图像,依次通过卷积神经网络和循环神经网络,来获取所述当前帧RGB图像的循环特征向量;根据所述当前帧RGB图像的循环征向量获取所述当前帧RGB图像的第一分类概率向量;根据所述当前帧RGB图像的第一分类概率向量获取所述视频的第一分类概率向量。
可选地,通过卷积神经网络获取当前帧RGB图像的卷积特征向量;将所述当前帧RGB图像的卷积特征向量及其前一帧RGB图像的循环特征向量输入循环神经网络,以获取所述当前帧RGB图像的循环特征向量。
可选地,将所述当前帧RGB图像的循环特征向量输入预设的全连接层,获得所述当前帧RGB图像的第一分类概率向量;计算所有RGB图像的第一分类概率向量的平均值,以获取所述视频的第一分类概率向量。
可选地,根据所述视频的当前帧光流图像及其前一帧光流图像,依次通过卷积神经网络和循环神经网络,来获取所述当前帧光流图像的循环特征向量;根据所述当前帧光流图像的循环特征向量获取所述当前帧光流图像的第二分类概率向量,根据所述当前帧光流图像的第二分类概率向量获取所述视频的第二分类概率向量。
可选地,通过卷积神经网络获取当前帧光流图像的卷积特征向量;将所述当前帧光流图像的卷积特征向量及其前一帧光流图像的循环特征向量输入循环神经网络,以获取所述当前帧光流图像的循环特征向量。
可选地,将所述当前帧光流图像的循环特征向量输入预设的全连接层,获得所述当前帧光流图像的第二分类概率向量;计算所有光流图像的第二分类概率向量的平均值,以获取所述视频的第二分类概率向量。
可选地,计算所述第一分类概率向量和所述第二分类概率向量的平均值,以获得所述视频的第三分类概率向量;将所述第三分类概率向量中值最大的元素对应的分类确定为所述视频的分类。
可选地,所述卷积神经网络为ResNet-101,所述循环神经网络为LSTM(LongShort-Term Memory,长短期记忆网络)。
根据本公开的另一些实施例,提供一种视频分类装置,包括:图像提取模块,用于从待分类的视频中提取多帧RGB图像,根据相邻帧的RGB图像得到多帧光流图像;第一分类概率向量获取模块,用于对于所述视频的每帧RGB图像,根据当前帧RGB图像及其前一帧RGB图像,依次通过卷积神经网络和循环神经网络,获取所述视频的第一分类概率向量,所述第一分类概率向量中的各元素代表基于RGB图像所述视频属于各分类的概率;第二分类概率向量获取模块,用于对于所述视频的每帧光流图像,根据当前帧光流图像及其前一帧光流图像,依次通过卷积神经网络和循环神经网络,获取所述视频的第二分类概率向量,所述第二分类概率向量中的各元素代表基于光流图像所述视频属于各分类的概率;分类确定模块,用于根据所述第一分类概率向量和所述第二分类概率向量确定所述视频的分类。
可选地,所述第一分类概率向量获取模块根据所述视频的当前帧RGB图像及其前一帧RGB图像,依次通过卷积神经网络和循环神经网络,来获取所述当前帧RGB图像的循环特征向量,根据所述当前帧RGB图像的循环征向量获取所述当前帧RGB图像的第一分类概率向量,根据所述当前帧RGB图像的第一分类概率向量获取所述视频的第一分类概率向量。
可选地,所述第一分类概率向量获取模块通过卷积神经网络获取当前帧RGB图像的卷积特征向量,将所述当前帧RGB图像的卷积特征向量及其前一帧RGB图像的循环特征向量输入循环神经网络,以获取所述当前帧RGB图像的循环特征向量。
可选地,所述第一分类概率向量获取模块将所述当前帧RGB图像的循环特征向量输入预设的全连接层,获得所述当前帧RGB图像的第一分类概率向量,计算所有RGB图像的第一分类概率向量的平均值,以获取所述视频的第一分类概率向量。
可选地,所述第二分类概率向量获取模块根据所述视频的当前帧光流图像及其前一帧光流图像,依次通过卷积神经网络和循环神经网络,来获取所述当前帧光流图像的循环特征向量,根据所述当前帧光流图像的循环特征向量获取所述当前帧光流图像的第二分类概率向量,根据所述当前帧光流图像的第二分类概率向量获取所述视频的第二分类概率向量。
可选地,所述第二分类概率向量获取模块通过卷积神经网络获取当前帧光流图像的卷积特征向量,将所述当前帧光流图像的卷积特征向量及其前一帧光流图像的循环特征向量输入循环神经网络,以获取所述当前帧光流图像的循环特征向量。
可选地,所述第二分类概率向量获取模块将所述当前帧光流图像的循环特征向量输入预设的全连接层,获得所述当前帧光流图像的第二分类概率向量,计算所有光流图像的第二分类概率向量的平均值,以获取所述视频的第二分类概率向量。
可选地,所述分类确定模块计算所述第一分类概率向量和所述第二分类概率向量的平均值,以获得所述视频的第三分类概率向量,将所述第三分类概率向量中值最大的元素对应的分类确定为所述视频的分类。
可选地,所述卷积神经网络为ResNet-101,所述循环神经网络为LSTM。
根据本公开的又一些实施例,提供一种视频分类装置,包括:存储器以及耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器装置中的指令,执行上述任一个实施例所述的视频分类方法。
根据本公开的再一些实施例,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一个实施例所述的视频分类方法。
在上述实施例中,依次通过卷积神经网络和循环神经网络对视频中的RGB图像和光流图像进行处理,将获得的视频分类情况进行融合从而确定视频的分类。这样可以结合不同的处理手段融合不同的图像信息来对时变图像进行分析,并利用相邻帧图像之间的时间依赖关系对视频进行分类,从而提高了视频分类的准确性。
附图说明
构成说明书的一部分的附图描述了本公开的实施例,并且连同说明书一起用于解释本公开的原理。
参照附图,根据下面的详细描述,可以更加清楚地理解本公开,其中:
图1示出本公开的视频分类方法的一些实施例的流程图。
图2示出获取第一分类概率向量的一些实施例的流程图。
图3示出本公开的视频分类方法的一些实施例的示意图。
图4示出本公开的视频分类装置的一些实施例的结构图。
图5示出本公开的视频分类装置的又一些实施例的结构图。
具体实施方式
现在将参照附图来详细描述本公开的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为授权说明书的一部分。
在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
图1示出本公开的视频分类方法的一些实施例的流程图。
如图1所示,该视频分类方法包括:步骤110,获取视频的RGB图像和光流图像;步骤120,基于RGB图像获取第一分类概率向量;步骤130,基于光流图像获取第二分类概率向量;步骤140,确定视频的分类。
在步骤110中,从待分类的视频中提取多帧RGB图像,根据相邻帧的RGB图像得到多帧光流图像。例如,可以从视频中提取N帧(即N个时刻)连续的图像。根据N帧连续的图像中每两帧相邻图像计算一帧光流图像,从而获得N-1帧连续的光流图像。
在步骤120中,对于视频的每帧RGB图像,根据当前帧RGB图像及其前一帧RGB图像,依次通过卷积神经网络和循环神经网络,获取视频的第一分类概率向量,第一分类概率向量中的各元素代表基于RGB图像视频属于各分类的概率。
在一个实施例中,卷积神经网络可以为ResNet-101,循环神经网络可以为LSTM。与其它卷积神经网络相比,ResNet-101具有更强的特征学习能力,从而可以获得更高的视频分类准确率。因此,可以利用ResNet-101提取图像特征作为LSTM的输入,而不采用ResNet-101的最后全连接层进行输出。例如,可以去掉ResNet-101最后的全连接层,仅利用ResNet-101提取当前帧图像的卷积特征向量,再将卷积特征向量输入LSTM中获取当前帧图像的循环特征向量,最后通过一个预设的全连接层获取视频的分类概率向量。这样可以联合卷积神经网络的图像特征提取优势和循环神经网络对时间关联数据的处理优势实现视频分类,从而提高视频分类准确率。
在一个实施例中,可以通过图2示出的实施例获取步骤120中的第一分类概率向量。
图2示出获取第一分类概率向量的一些实施例的流程图。
如图2所示,可以通过如下步骤获取第一分类概率向量:步骤1201,获取RGB图像的卷积特征向量;步骤1202,获取RGB图像的循环特征向量;步骤1203,获取RGB图像的第一分类概率向量;步骤1204,获取视频的第一分类概率向量。
在步骤1201中,可以通过卷积神经网络获取当前帧RGB图像的卷积特征向量。
在一个实施例中,可以去掉ResNet-101的最后一个全连接层,只提取全连接层之前的降采样输出作为当前帧图像的卷积特征向量。例如,卷积特征向量可以为一个与当前帧RGB图像对应的2048维向量。
在步骤1202中,将当前帧RGB图像的卷积特征向量及其前一帧RGB图像的循环特征向量输入循环神经网络,以获取当前帧RGB图像的循环特征向量。当前帧RGB图像的循环特征向量可以作为下一帧RGB图像的循环神经网络的输入之一。对于没有前一帧的图像,如第一帧图像,可以通过设置初值的方式来获取循环特征向量。
在一个实施例中,可以将上述实施例中当前帧RGB图像的2048维向量,以及上一帧RGB图像的循环特征向量输入LSTM,以获得M维向量作为当前帧RGB图像的循环特征向量。然后,可以将当前帧RGB图像的循环特征向量作为下一帧RGB图像的LSTM输入之一。如此迭代下去,可以得到所有RGB图像的循环特征向量。
在步骤1203中,将当前帧RGB图像的循环特征向量输入预设的全连接层,获得当前帧RGB图像的第一分类概率向量。
在一个实施例中,可以在上述实施例中的LSTM后面连接一个全连接层。例如,全连接层的输入为当前帧RGB图像的循环特征向量共有M个输入节点,输出为当前帧RGB图像的第一分类概率向量共有C个输出节点。C个输出节点对应视频属于C个分类的概率。每个输入节点分别与每个输出节点都相连,即共有M×C个连接。每个连接均具有相应的权重,即共有M×C个权重。C个输出组成当前帧RGB图像的第一分类概率向量,第一分类概率向量中值最大的元素可以代表当前帧RGB图像的分类。这样就可以预先设置全连接层,再将循环特征向量输入全连接层得到视频的分类。
在步骤1204中,可以通过计算所有RGB图像的第一分类概率向量的平均值,来获取视频的第一分类概率向量。例如,可以分别计算所有RGB图像的第一分类概率向量中对应元素的平均值来获取视频的第一分类概率向量。
通过上述步骤1201-1204获取了基于RGB图像视频属于各分类的概率,下面可以继续执行图1实施例中的步骤130-140来确定视频分类。步骤120和步骤130可以并行执行,也可以串行执行,串行执行的顺序可以互换。
在步骤130中,对于视频的每帧光流图像,根据当前帧光流图像及其前一帧光流图像,依次通过卷积神经网络和循环神经网络,获取视频的第二分类概率向量,第二分类概率向量中的各元素代表基于光流图像视频属于各分类的概率。
在一个实施例中,可以将上述实施例中的方法应用到光流图像中来获取基于光流图像的视频的第二分类概率向量,在此不再赘述。
在步骤140中,根据第一分类概率向量和所述第二分类概率向量确定视频的分类。例如,可以计算第一分类概率向量和第二分类概率向量的平均值,以获得视频的第三分类概率向量,将第三分类概率向量中值最大的元素对应的分类确定为视频的分类。
为了更清楚地描述该视频分类方法的流程,可以将上述实施例总结为图3中的过程。
图3示出本公开的视频分类方法的一些实施例的示意图。
如图3所示,将从视频中提取的RGB图像和光流图像分别依次通过ResNet-101和LSTM。将LSTM提取的循环特征向量作为全连接层的输入,分别输出第一分类概率向量和第二分类概率向量。将第一分类概率向量和第二分类概率向量进行融合从而确定视频的分类,例如,将二者加权求和后取平均值或者直接取平均值等。ResNet-101的网络参数可以使用在ImageNet数据集上训练好的ResNet-101模型参数进行初始化,其它的网络参数可以通过随机初始化获得。
上述实施例中,依次通过卷积神经网络和循环神经网络对视频中的RGB图像和光流图像进行处理,将获得的视频分类情况进行融合从而确定视频的分类。这样可以结合不同的处理手段融合不同的图像信息来对时变图像进行分析,并利用相邻帧图像之间的时间依赖关系对视频进行分类,从而提高了视频分类的准确性。
图4示出本公开的视频分类装置的一些实施例的结构图。
如图4所示,视频分类装置4包括图像提取模块41、第一分类概率向量获取模块42、第二分类概率向量获取模块43和分类确定模块44。
图像提取模块41从待分类的视频中提取多帧RGB图像,根据相邻帧的RGB图像得到多帧光流图像。
对于视频的每帧RGB图像,第一分类概率向量获取模块42根据当前帧RGB图像及其前一帧RGB图像,依次通过卷积神经网络和循环神经网络,获取视频的第一分类概率向量,第一分类概率向量中的各元素代表基于RGB图像视频属于各分类的概率。例如,卷积神经网络可以为ResNet-101,循环神经网络可以为LSTM。
在一个实施例中,首先,第一分类概率向量获取模块42根据视频的当前帧RGB图像及其前一帧RGB图像,依次通过卷积神经网络和循环神经网络,来获取当前帧RGB图像的循环特征向量。例如,第一分类概率向量获取模块42通过卷积神经网络获取当前帧RGB图像的卷积特征向量,将当前帧RGB图像的卷积特征向量及其前一帧RGB图像的循环特征向量输入循环神经网络,以获取当前帧RGB图像的循环特征向量。
然后,第一分类概率向量获取模块42根据当前帧RGB图像的循环征向量获取当前帧RGB图像的第一分类概率向量,根据当前帧RGB图像的第一分类概率向量获取视频的第一分类概率向量。例如,第一分类概率向量获取模块42将当前帧RGB图像的循环特征向量输入预设的全连接层,获得当前帧RGB图像的第一分类概率向量,计算所有RGB图像的第一分类概率向量的平均值,以获取视频的第一分类概率向量。
对于视频的每帧光流图像,第二分类概率向量获取模块43根据当前帧光流图像及其前一帧光流图像,依次通过卷积神经网络和循环神经网络,获取视频的第二分类概率向量,第二分类概率向量中的各元素代表基于光流图像所述视频属于各分类的概率。
在一个实施例中,首先,第二分类概率向量获取模块43根据视频的当前帧光流图像及其前一帧光流图像,依次通过卷积神经网络和循环神经网络,来获取当前帧光流图像的循环特征向量。例如,第二分类概率向量获取模块43通过卷积神经网络获取当前帧光流图像的卷积特征向量,将当前帧光流图像的卷积特征向量及其前一帧光流图像的循环特征向量输入循环神经网络,以获取当前帧光流图像的循环特征向量。
然后,第二分类概率向量获取模块43根据当前帧光流图像的循环特征向量获取当前帧光流图像的第二分类概率向量,根据当前帧光流图像的第二分类概率向量获取视频的第二分类概率向量。例如,第二分类概率向量获取模块43将当前帧光流图像的循环特征向量输入预设的全连接层,获得当前帧光流图像的第二分类概率向量,计算所有光流图像的第二分类概率向量的平均值,以获取视频的第二分类概率向量。
分类确定模块44根据第一分类概率向量和第二分类概率向量确定所述视频的分类。例如,分类确定模块44计算第一分类概率向量和第二分类概率向量的平均值,以获得视频的第三分类概率向量,将第三分类概率向量中值最大的元素对应的分类确定为视频的分类。
上述实施例中,依次通过卷积神经网络和循环神经网络对视频中的RGB图像和光流图像进行处理,将获得的视频分类情况进行融合从而确定视频的分类。这样可以结合不同的处理手段融合不同的图像信息来对时变图像进行分析,并利用相邻帧图像之间的时间依赖关系对视频进行分类,从而提高了视频分类的准确性。
图5示出本公开的视频分类装置的又一些实施例的结构图。
如图5所示,该实施例的装置5包括:存储器51以及耦接至该存储器51的处理器52,处理器52被配置为基于存储在存储器51中的指令,执行本公开中任意一些实施例中的视频分类方法。
其中,存储器51例如可以包括***存储器、固定非易失性存储介质等。***存储器例如存储有操作***、应用程序、引导装载程序(Boot Loader)、数据库以及其他程序等。
本领域内的技术人员应当明白,本公开的实施例可提供为方法、***、或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
至此,已经详细描述了根据本公开的视频分类方法、装置和计算机可读存储介质。为了避免遮蔽本公开的构思,没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述,完全可以明白如何实施这里公开的技术方案。
可能以许多方式来实现本公开的方法和***。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和***。用于所述方法的步骤的上述顺序仅是为了进行说明,本公开的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本公开实施为记录在记录介质中的程序,这些程序包括用于实现根据本公开的方法的机器可读指令。因而,本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。
虽然已经通过示例对本公开的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本公开的范围。本领域的技术人员应该理解,可在不脱离本公开的范围和精神的情况下,对以上实施例进行修改。本公开的范围由所附权利要求来限定。

Claims (20)

1.一种视频分类方法,包括:
从待分类的视频中提取多帧RGB图像,根据相邻帧的RGB图像得到多帧光流图像;
对于所述视频的每帧RGB图像,根据当前帧RGB图像及其前一帧RGB图像,依次通过卷积神经网络和循环神经网络,获取所述视频的第一分类概率向量,所述第一分类概率向量中的各元素代表基于RGB图像所述视频属于各分类的概率;
对于所述视频的每帧光流图像,根据当前帧光流图像及其前一帧光流图像,依次通过卷积神经网络和循环神经网络,获取所述视频的第二分类概率向量,所述第二分类概率向量中的各元素代表基于光流图像所述视频属于各分类的概率;
根据所述第一分类概率向量和所述第二分类概率向量确定所述视频的分类。
2.根据权利要求1所述的视频分类方法,其中,获取所述视频的第一分类概率向量包括:
根据所述视频的当前帧RGB图像及其前一帧RGB图像,依次通过卷积神经网络和循环神经网络,来获取所述当前帧RGB图像的循环特征向量;
根据所述当前帧RGB图像的循环征向量获取所述当前帧RGB图像的第一分类概率向量;
根据所述当前帧RGB图像的第一分类概率向量获取所述视频的第一分类概率向量。
3.根据权利要求2所述的视频分类方法,其中,获取所述当前帧RGB图像的循环特征向量包括:
通过卷积神经网络获取当前帧RGB图像的卷积特征向量;
将所述当前帧RGB图像的卷积特征向量及其前一帧RGB图像的循环特征向量输入循环神经网络,以获取所述当前帧RGB图像的循环特征向量。
4.根据权利要求2所述的视频分类方法,其中,获取所述视频的第一分类概率向量包括:
将所述当前帧RGB图像的循环特征向量输入预设的全连接层,获得所述当前帧RGB图像的第一分类概率向量;
计算所有RGB图像的第一分类概率向量的平均值,以获取所述视频的第一分类概率向量。
5.根据权利要求1所述的视频分类方法,其中,获取所述视频的第二分类概率向量包括:
根据所述视频的当前帧光流图像及其前一帧光流图像,依次通过卷积神经网络和循环神经网络,来获取所述当前帧光流图像的循环特征向量;
根据所述当前帧光流图像的循环特征向量获取所述当前帧光流图像的第二分类概率向量,根据所述当前帧光流图像的第二分类概率向量获取所述视频的第二分类概率向量。
6.根据权利要求5所述的视频分类方法,其中,获取所述当前帧光流图像的循环特征向量包括:
通过卷积神经网络获取当前帧光流图像的卷积特征向量;
将所述当前帧光流图像的卷积特征向量及其前一帧光流图像的循环特征向量输入循环神经网络,以获取所述当前帧光流图像的循环特征向量。
7.根据权利要求5所述的视频分类方法,其中,获取所述视频的第二分类概率向量包括:
将所述当前帧光流图像的循环特征向量输入预设的全连接层,获得所述当前帧光流图像的第二分类概率向量;
计算所有光流图像的第二分类概率向量的平均值,以获取所述视频的第二分类概率向量。
8.根据权利要求1所述的视频分类方法,其中,确定所述视频的分类包括:
计算所述第一分类概率向量和所述第二分类概率向量的平均值,以获得所述视频的第三分类概率向量;
将所述第三分类概率向量中值最大的元素对应的分类确定为所述视频的分类。
9.根据权利要求1-8任一项所述的视频分类方法,其中,
所述卷积神经网络为ResNet-101,所述循环神经网络为长短期记忆网络LSTM。
10.一种视频分类装置,包括:
图像提取模块,用于从待分类的视频中提取多帧RGB图像,根据相邻帧的RGB图像得到多帧光流图像;
第一分类概率向量获取模块,用于对于所述视频的每帧RGB图像,根据当前帧RGB图像及其前一帧RGB图像,依次通过卷积神经网络和循环神经网络,获取所述视频的第一分类概率向量,所述第一分类概率向量中的各元素代表基于RGB图像所述视频属于各分类的概率;
第二分类概率向量获取模块,用于对于所述视频的每帧光流图像,根据当前帧光流图像及其前一帧光流图像,依次通过卷积神经网络和循环神经网络,获取所述视频的第二分类概率向量,所述第二分类概率向量中的各元素代表基于光流图像所述视频属于各分类的概率;
分类确定模块,用于根据所述第一分类概率向量和所述第二分类概率向量确定所述视频的分类。
11.根据权利要求10所述的视频分类装置,其中,
所述第一分类概率向量获取模块根据所述视频的当前帧RGB图像及其前一帧RGB图像,依次通过卷积神经网络和循环神经网络,来获取所述当前帧RGB图像的循环特征向量,根据所述当前帧RGB图像的循环征向量获取所述当前帧RGB图像的第一分类概率向量,根据所述当前帧RGB图像的第一分类概率向量获取所述视频的第一分类概率向量。
12.根据权利要求11所述的视频分类装置,其中,
所述第一分类概率向量获取模块通过卷积神经网络获取当前帧RGB图像的卷积特征向量,将所述当前帧RGB图像的卷积特征向量及其前一帧RGB图像的循环特征向量输入循环神经网络,以获取所述当前帧RGB图像的循环特征向量。
13.根据权利要求11所述的视频分类装置,其中,
所述第一分类概率向量获取模块将所述当前帧RGB图像的循环特征向量输入预设的全连接层,获得所述当前帧RGB图像的第一分类概率向量,计算所有RGB图像的第一分类概率向量的平均值,以获取所述视频的第一分类概率向量。
14.根据权利要求10所述的视频分类装置,其中,
所述第二分类概率向量获取模块根据所述视频的当前帧光流图像及其前一帧光流图像,依次通过卷积神经网络和循环神经网络,来获取所述当前帧光流图像的循环特征向量,根据所述当前帧光流图像的循环特征向量获取所述当前帧光流图像的第二分类概率向量,根据所述当前帧光流图像的第二分类概率向量获取所述视频的第二分类概率向量。
15.根据权利要求14所述的视频分类装置,其中,
所述第二分类概率向量获取模块通过卷积神经网络获取当前帧光流图像的卷积特征向量,将所述当前帧光流图像的卷积特征向量及其前一帧光流图像的循环特征向量输入循环神经网络,以获取所述当前帧光流图像的循环特征向量。
16.根据权利要求14所述的视频分类装置,其中,
所述第二分类概率向量获取模块将所述当前帧光流图像的循环特征向量输入预设的全连接层,获得所述当前帧光流图像的第二分类概率向量,计算所有光流图像的第二分类概率向量的平均值,以获取所述视频的第二分类概率向量。
17.根据权利要求10所述的视频分类装置,其中,
所述分类确定模块计算所述第一分类概率向量和所述第二分类概率向量的平均值,以获得所述视频的第三分类概率向量,将所述第三分类概率向量中值最大的元素对应的分类确定为所述视频的分类。
18.根据权利要求10-17任一项所述的视频分类装置,其中,
所述卷积神经网络为ResNet-101,所述循环神经网络为长短期记忆网络LSTM。
19.一种视频分类装置,包括:
存储器;以及耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器装置中的指令,执行如权利要求1-9中任一项所述的视频分类方法。
20.一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如权利要求1-9中任一项所述的视频分类方法。
CN201711084116.8A 2017-11-07 2017-11-07 视频分类方法、装置和计算机可读存储介质 Pending CN109753984A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711084116.8A CN109753984A (zh) 2017-11-07 2017-11-07 视频分类方法、装置和计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711084116.8A CN109753984A (zh) 2017-11-07 2017-11-07 视频分类方法、装置和计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN109753984A true CN109753984A (zh) 2019-05-14

Family

ID=66401142

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711084116.8A Pending CN109753984A (zh) 2017-11-07 2017-11-07 视频分类方法、装置和计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN109753984A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110826475A (zh) * 2019-11-01 2020-02-21 北京齐尔布莱特科技有限公司 一种检测近重复视频的方法、装置及计算设备
CN111695627A (zh) * 2020-06-11 2020-09-22 腾讯科技(深圳)有限公司 路况检测方法、装置、电子设备及可读存储介质
CN111797912A (zh) * 2020-06-23 2020-10-20 山东云缦智能科技有限公司 影片年代类型识别的***、方法及识别模型的构建方法
CN112579824A (zh) * 2020-12-16 2021-03-30 北京中科闻歌科技股份有限公司 视频数据分类方法、装置、电子设备及存储介质
CN113837457A (zh) * 2021-09-14 2021-12-24 上海任意门科技有限公司 用于预测帖子互动行为状态的方法、计算设备和存储介质
CN113837576A (zh) * 2021-09-14 2021-12-24 上海任意门科技有限公司 用于内容推荐的方法、计算设备和计算机可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106407889A (zh) * 2016-08-26 2017-02-15 上海交通大学 基于光流图深度学习模型在视频中人体交互动作识别方法
CN106845351A (zh) * 2016-05-13 2017-06-13 苏州大学 一种用于视频的基于双向长短时记忆单元的行为识别方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106845351A (zh) * 2016-05-13 2017-06-13 苏州大学 一种用于视频的基于双向长短时记忆单元的行为识别方法
CN106407889A (zh) * 2016-08-26 2017-02-15 上海交通大学 基于光流图深度学习模型在视频中人体交互动作识别方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CHRISTOPH FEICHTENHOFER等: "Spatiotemporal Multiplier Networks for Video Action Recognition", 《2017 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 *
JEFF DONAHUE等: "Long-Term Recurrent Convolutional Networks for Visual Recognition and Description", 《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》 *
KAREN SIMONYAN 等: "Two-Stream Convolutional Networks for Action Recognition in Videos", 《ARXIV》 *
LIN SUN等: "Lattice Long Short-Term Memory for Human Action Recognition", 《2017 IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110826475A (zh) * 2019-11-01 2020-02-21 北京齐尔布莱特科技有限公司 一种检测近重复视频的方法、装置及计算设备
CN110826475B (zh) * 2019-11-01 2022-10-04 北京齐尔布莱特科技有限公司 一种检测近重复视频的方法、装置及计算设备
CN111695627A (zh) * 2020-06-11 2020-09-22 腾讯科技(深圳)有限公司 路况检测方法、装置、电子设备及可读存储介质
CN111797912A (zh) * 2020-06-23 2020-10-20 山东云缦智能科技有限公司 影片年代类型识别的***、方法及识别模型的构建方法
CN111797912B (zh) * 2020-06-23 2023-09-22 山东浪潮超高清视频产业有限公司 影片年代类型识别的***、方法及识别模型的构建方法
CN112579824A (zh) * 2020-12-16 2021-03-30 北京中科闻歌科技股份有限公司 视频数据分类方法、装置、电子设备及存储介质
CN113837457A (zh) * 2021-09-14 2021-12-24 上海任意门科技有限公司 用于预测帖子互动行为状态的方法、计算设备和存储介质
CN113837576A (zh) * 2021-09-14 2021-12-24 上海任意门科技有限公司 用于内容推荐的方法、计算设备和计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN109753984A (zh) 视频分类方法、装置和计算机可读存储介质
Horvat et al. A comparative study of YOLOv5 models performance for image localization and classification
Sindagi et al. Cnn-based cascaded multi-task learning of high-level prior and density estimation for crowd counting
CN110516536B (zh) 一种基于时序类别激活图互补的弱监督视频行为检测方法
CN109993269B (zh) 基于注意力机制的单张图像人群计数方法
CN109410239A (zh) 一种基于条件生成对抗网络的文本图像超分辨率重建方法
CN108961675A (zh) 基于卷积神经网络的跌倒检测方法
CN110348364B (zh) 一种无监督聚类与时空域深度网络相结合的篮球视频群体行为识别方法
Li et al. Sign language recognition based on computer vision
Wei et al. P3D-CTN: Pseudo-3D convolutional tube network for spatio-temporal action detection in videos
CN110738160A (zh) 一种结合人脸检测的人脸质量评估方法
CN107818307A (zh) 一种基于lstm网络的多标签视频事件检测方法
CN112668522A (zh) 一种人体关键点与人体掩码联合检测网络及方法
CN109753985A (zh) 视频分类方法及装置
Wang et al. Basketball shooting angle calculation and analysis by deeply-learned vision model
Dong et al. Holistic and Deep Feature Pyramids for Saliency Detection.
Zhao et al. Multifeature fusion action recognition based on key frames
Kondo et al. Siamese-structure deep neural network recognizing changes in facial expression according to the degree of smiling
Liao et al. Residual attention unit for action recognition
Wang et al. SLMS-SSD: Improving the balance of semantic and spatial information in object detection
Liu et al. Student behavior recognition from heterogeneous view perception in class based on 3-D multiscale residual dense network for the analysis of case teaching
Qiao et al. Two-Stream Convolutional Neural Network for Video Action Recognition.
Li et al. Trajectory-pooled spatial-temporal architecture of deep convolutional neural networks for video event detection
Luo et al. An modified video stream classification method which fuses three-dimensional convolutional neural network
CN115311518A (zh) 一种获取视觉属性信息的方法、装置、介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20210305

Address after: 101, 1st floor, building 2, yard 20, Suzhou street, Haidian District, Beijing 100080

Applicant after: Beijing Jingbangda Trading Co.,Ltd.

Address before: 100195 Beijing Haidian Xingshikou Road 65 West Cedar Creative Garden 4 District 11 Building East 1-4 Floor West 1-4 Floor

Applicant before: BEIJING JINGDONG SHANGKE INFORMATION TECHNOLOGY Co.,Ltd.

Applicant before: BEIJING JINGDONG CENTURY TRADING Co.,Ltd.

Effective date of registration: 20210305

Address after: Room a1905, 19 / F, building 2, No. 18, Kechuang 11th Street, Daxing District, Beijing, 100176

Applicant after: Beijing Jingdong Qianshi Technology Co.,Ltd.

Address before: 101, 1st floor, building 2, yard 20, Suzhou street, Haidian District, Beijing 100080

Applicant before: Beijing Jingbangda Trading Co.,Ltd.

TA01 Transfer of patent application right
RJ01 Rejection of invention patent application after publication

Application publication date: 20190514

RJ01 Rejection of invention patent application after publication