CN111008280A - 一种视频分类方法、装置、设备和存储介质 - Google Patents

一种视频分类方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN111008280A
CN111008280A CN201911228426.1A CN201911228426A CN111008280A CN 111008280 A CN111008280 A CN 111008280A CN 201911228426 A CN201911228426 A CN 201911228426A CN 111008280 A CN111008280 A CN 111008280A
Authority
CN
China
Prior art keywords
video
model
data
tsm
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911228426.1A
Other languages
English (en)
Other versions
CN111008280B (zh
Inventor
迟至真
李甫
孙昊
何栋梁
龙翔
周志超
王平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201911228426.1A priority Critical patent/CN111008280B/zh
Publication of CN111008280A publication Critical patent/CN111008280A/zh
Application granted granted Critical
Publication of CN111008280B publication Critical patent/CN111008280B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种视频分类方法、装置、设备和存储介质,涉及视频分类技术领域。具体实现方案为:对待分类视频进行抽帧处理,得到待分类视频的多个视频帧的帧数据;将待分类视频的多个视频帧的帧数据输入至预先训练出的特征抽取模型,获得待分类视频的特征数据;特征抽取模型包括TSM模型;TSM模型的各时序卷积层对本层的输入数据进行方向随机的时序偏移操作;将特征数据输入至预先训练出的序列模型,得到待分类视频的分类结果。本申请实施例特征抽取时引入TSM模型,在TSM模型的各时序卷积层对各层输入数据进行方向随机的时序偏移操作,有利于数据增广,使所抽取的特征数据更加丰富全面,进而提升了视频分类结果的准确度。

Description

一种视频分类方法、装置、设备和存储介质
技术领域
本申请涉及数据处理技术,尤其涉及视频分类技术领域。
背景技术
视频分类技术,即通过分析、理解视频的图像特征、音频特征或者用户弹幕信息等,为视频输出具体的类别信息。
现有技术中,视频分类的实现方案主要包括以下三种:第一,将视频的关键帧的特征数据输入至分类模型,得到输出的分类结果;第二,将视频的标题/属性输入至分类模型,得到输出的分类结果;第三,从用户上传的标签中识别出视频的分类信息。
然而,上述三种方案均存在对视频分类的准确性较低的问题。
发明内容
本申请实施例提供了一种视频分类方法、装置、设备和存储介质,以提高视频分类结果的准确度。
第一方面,本申请提供了一种视频分类方法,包括:
对待分类视频进行抽帧处理,得到待分类视频的多个视频帧的帧数据;
将待分类视频的多个视频帧的帧数据输入至预先训练出的特征抽取模型,获得所述特征抽取模型输出的所述待分类视频的特征数据;其中,所述特征抽取模型包括时序转换模型TSM模型;所述TSM模型的各时序卷积层对本层的输入数据进行方向随机的时序偏移操作;
将所述特征数据输入至预先训练出的序列模型,获得所述序列模型输出的所述待分类视频的分类结果。
本申请实施例通过对待分类视频进行抽帧处理,得到待分类视频的多个视频帧的帧数据;将待分类视频的多个视频帧的帧数据输入至预先训练出的特征抽取模型,获得特征抽取模型输出的待分类视频的特征数据;其中,特征抽取模型包括TSM模型;所述TSM模型的各时序卷积层对本层的输入数据进行方向随机的时序偏移操作;将特征数据输入至预先训练出的序列模型,获得序列模型输出的待分类视频的分类结果。上述技术方案通过引入包括TSM模型的特征抽取模型,并在特征抽取过程中,在TSM模型的各时序卷积层对各层输入数据进行方向随机的时序偏移操作,有利于数据增广,便于挖掘各层输入数据中的隐藏信息,使所抽取的特征数据更加丰富、全面,进而提升了视频分类结果的准确度。
可选的,所述TSM模型中的各时序卷积层,针对本层的输入数据的前1/N的元素,进行方向随机的时序偏移操作,其中N的取值为2或3。
上述申请中的一个可选实施方式,在TSM模型中的各时序卷积层,针对本层的输入数据的前1/2或1/3的元素,进行方向随机的时序偏移操作,完善了TSM模型的使用机制,使得各时序卷积层的输入数据在时间维度上有更大的感受野。
可选的,在对待分类视频进行抽帧处理之前,所述方法还包括:
对第一样本视频进行抽帧处理,得到第一样本视频的多个视频帧的帧数据;
将第一样本视频的多个视频帧的帧数据以及第一样本视频的特征数据,作为样本数据,对初始建立的特征抽取模型进行训练。
上述申请中的一个可选实施方式,在对待分类视频进行抽帧处理之前,对第一样本视频进行抽帧处理,并将得到的帧数据以及第一样本视频的特征数据作为样本数据,对初始建立的特征抽取模型进行训练,从而完善了特征抽取模型的训练机制,为特征抽取模型的正常使用提供了保障。
可选的,所述特征抽取模型包括第一TSM模型;对特征抽取模型的训练包括对第一TSM模型的训练;
所述第一TSM模型的输入数据为第一样本视频的多个视频帧中各帧的RGB图像;
所述特征抽取模型输出的所述待分类视频的特征数据,是第一TSM模型输出的特征数据。
上述申请中的一个可选实施方式,将特征抽取模型细化为包括第一TSM模型,完善了特征抽取模型的构成细节和训练内容。在进行特征抽取模型时对第一TSM模型进行训练,在训练第一TSM模型时,将第一样本视频的多个视频帧中各帧的RGB图像作为输入数据,完善了对第一TSM模型的训练机制;在特征抽取模型的使用过程中,直接将第一TSM模型输出的特征数据作为特征抽取模型输出的待分类视频的特征数据,为基于视频帧中的RGB图像进行视频分类提供了可能。
可选的,所述特征抽取模型包括第一TSM模型和第二TSM模型;对特征抽取模型的训练,包括对第一TSM模型和第二TSM模型的训练;
所述第一TSM模型的输入数据为第一样本视频的多个视频帧中各帧的RGB图像;
所述第二TSM模型的输入数据为第一样本视频的多个视频帧中各帧的光流场图像;
所述特征抽取模型输出的所述待分类视频的特征数据,是对第一TSM模型输出的特征数据和第二TSM模型输出的特征数据进行叠加后得到的特征数据。
上述申请中的一个可选实施方式,将特征抽取模型细化为包括第一TSM模型和第二TSM模型,完善了特征抽取模型的构成细节;分别对第一TSM模型和第二TSM模型进行训练,在特征抽取模型的训练过程中,将RGB图像作为第一TSM模型的输入数据,将光流场图像作为第二TSM模型的输入数据,进一步完善了特征抽取模型的模型训练机制;在特征抽取模型的使用过程中,将第一TSM模型的特征数据和第二TSM模型的特征数据进行叠加,得到最终的待分类视频的特征数据,使得在特征提取过程中结合空间信息和时序信息,使得分类模型的鲁棒性有了显著提升,并为分类模型的准确率和召回率提供保障。
可选的,在将所述特征数据输入至预先训练出的序列模型之前,所述方法还包括:
对第二样本视频进行抽帧处理,得到第二样本视频的多个视频帧的帧数据;
将第二样本视频的多个视频帧的帧数据输入至训练出的特征抽取模块中,获得第二样本视频的特征数据;
将第二样本视频的特征数据和第二样本视频的分类标签信息,作为样本数据对初始建立的序列模型进行训练。
上述申请中的一个可选实施方式,在将特征数据输入至预先训练出的序列模型之前,追加对第二样本视频进行抽帧处理,并对得到的多个视频帧的帧数据进行特征抽取的操作,从而采用第二样本视频的特征数据和分类标签信息进行序列模型的训练操作,完善了序列模型的训练机制,为序列模型的正常使用提供保障。
可选的,所述序列模型包括NeXtVLAD层,所述NeXtVLAD层对输入的特征向量分解为设定数目的低维特征向量。
上述申请中的一个可选实施方式,通过将序列模型细化为包括对输入的特征向量分解的NeXtVLAD层,将高维特征向量进行低维分解处理,减少了视频分类过程中的时间复杂度和空间复杂度,提高了分类效率。
可选的,所述序列模型包括:顺次连接的白化层、NeXtVLAD层、过滤层、全连接层、上下文门控层和分类器。
上述申请中的一个可选实施方式,通过上下文门控层引入注意力机制,以保证不同特征对不同类别有更好的区分性,进而提升视频分类结果的准确度。
可选的,所述设定数目为大于8的整数值。
上述申请中的一个可选实施方式,通过将NeXtVLAD层输入的特征向量具体分解成大于8个的低维特征向量,能够显著降低序列模型的时间复杂度和空间复杂度,提高了视频分类效率。
第二方面,本申请实施例还提供了一种视频分类装置,包括:
视频抽帧模块,用于对待分类视频进行抽帧处理,得到待分类视频的多个视频帧的帧数据;
特征抽取模块,用于将待分类视频的多个视频帧的帧数据输入至预先训练出的特征抽取模型,获得所述特征抽取模型输出的所述待分类视频的特征数据;其中,所述特征抽取模型包括时序转换模型TSM模型;所述TSM模型的各时序卷积层对本层的输入数据进行方向随机的时序偏移操作;
分类模块,用于将所述特征数据输入至预先训练出的序列模型,获得所述序列模型输出的所述待分类视频的分类结果。
第三方面,本申请实施例还提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如第一方面实施例所提供的一种视频分类方法。
第四方面,本申请实施例还提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行如第一方面实施例所提供的一种视频分类方法。
上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是本申请实施例一中的一种视频分类方法的流程图;
图2A是本申请实施例二中的一种视频分类方法的流程图;
图2B是本申请实施例二中的时序偏移操作的流程示意图;
图3是本申请实施例三中的一种视频分类方法的流程图;
图4A是本申请实施例四中的一种视频分类方法的流程图;
图4B是本申请实施例四中的一种序列模型的结构图;
图5A是本申请实施例五中的一种视频分类方法的流程图;
图5B是本申请实施例五中的一种视频分类模型框架示意图;
图5C是本申请实施例五中的一种TSN模型结构示意图;
图5D是本申请实施例五中的一种NetVLAD层的结构示意图;
图5E是本申请实施例五中的一种NeXtVLAD层的结构示意图;
图6是本申请实施例六中的一种视频分类装置的结构图;
图7是用来实现本申请实施例的视频分类方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
实施例一
图1是本申请实施例一中的一种视频分类方法的流程图,本申请实施例适用于结合TSM模型对视频(例如动漫)进行分类的情况,该方法采用视频分类装置执行,该装置通过软件和/或硬件实现,并具体配置于具备一定数据运算能力的电子设备中。
如图1所示的一种视频分类方法,包括:
S101、对待分类视频进行抽帧处理,得到待分类视频的多个视频帧的帧数据。
其中,对待分类视频进行抽帧处理,可以对整个待分类视频在时间维度上进行抽帧处理,以保证在时间维度上能够涵盖整个视频。当然,为了保证抽帧得到的帧数据能够均匀遍布在待分类视频的时间维度上,典型的,可以将视频等间隔分为多段,从每段中随机抽取一个视频帧,以实现等间隔抽帧采样。
可以理解的是,为了尽可能捕获视频的全局信息,同时避免在视频分类过程中出现大量的冗余,减少数据运算量,典型是采用稀疏采样视频帧的方式代替稠密采样的方式,对待分类视频的视频帧进行抽帧处理。
S102、将待分类视频的多个视频帧的帧数据输入至预先训练出的特征抽取模型,获得所述特征抽取模型输出的所述待分类视频的特征数据;其中,所述特征抽取模型包括时序转换模型TSM模型;所述TSM模型的各时序卷积层对本层的输入数据进行方向随机的时序偏移操作。
其中,特征抽取模型用于抽取各视频帧的帧数据中的特征数据作为待分类视频的特征数据。该特征抽取模型的输入数据为各视频帧的帧数据;输出结果为各帧数据的特征数据。
可以理解的是,在使用特征抽取模型进行特征抽取时,需要通过大量的数据进行模型训练,以使训练后的模型满足精度需求。
在特征抽取模型的训练阶段,可以采用以下方式加以实现:对第一样本视频进行抽帧处理,得到第一样本视频的多个视频帧的帧数据;将第一样本视频的多个视频帧的帧数据以及第一样本视频的特征数据,作为样本数据,对初始建立的特征抽取模型进行训练。
其中,对第一样本视频进行抽帧处理,对整个第一样本视频在时间维度上进行抽帧处理,以保证在时间维度上能够涵盖整个视频。当然,为了保证抽帧得到的帧数据能够均匀遍布在第一样本视频的时间维度上,典型的,可以将视频等间隔分为多段,从每段中随机抽取一个视频帧,以实现等间隔抽帧采样。
在对特征抽取模型进行训练时,采用第一样本视频的多个视频帧的帧数据以及第一样本视频的特征数据,作为样本数据,对初始建立的特征抽取模型的模型参数进行训练,并根据训练结果不断对特征抽取模型的模型参数进行调整,以使模型输出的特征数据与样本数据中的特征数据之间的距离逐渐逼近且趋于稳定,得到最终的特征抽取模型。
可以理解的是,为了保证特征抽取模型的特征抽取效果,在使用特征抽取模型对待分类视频进行特征抽取时,特征抽取模型的输入数据的生成方式需要与模型训练过程保持一致,也即在模型试用阶段对待分类视频进行抽帧处理和在模型训练阶段对第一样本视频进行抽帧处理的方式相同。
需要说明的是,由于特征抽取模型包括时序转换模型(Temporal Shift Module,TSM),而TSM模型的各时序卷积层对本层的输入数据进行方向随机的时序偏移操作,使得采用包括有TSM模型的特征抽取模型进行特征抽取时,能够获得更加丰富全面的特征数据,进而为特征抽取模型的模型精度的进一步提升提供保障。
由于TSM模型在使用的过程中,能够在各时序卷积层对本层的输入数据进行时序偏移操作,使得各层的输入数据能够在时间维度上具有更大的感受野,便于挖掘本层输入数据中的隐藏信息,从而使最终抽取的特征数据更加丰富、全面。
本申请实施例在进行时序偏移过程中,采用随机偏移的方式加以实现,对时序偏移方向不做任何限定,有利于数据增广,从而实现对各层输入数据的隐藏信息的进一步挖掘。
需要说明的是,本申请所使用的TSM模型,可以在现有的时序分段网络(TemporalSegment Network,TSN)模型的基础上,进行模型改进得到,也即在卷积层内嵌入时序偏移层,并未引入新的网络参数和数据计算量,较为灵活的实现了网络结构的升级。
在使用TSM模型的各时序卷积层对本层输入数据(即输入张量)进行方向随机的时序偏移操作时,为了避免由于过量的随机操作导致时序信息的丢失,最终导致视频分类结果不够理想,通常会对时序偏移的位置进行一定的限定。在本申请实施例的一个可选实施方式中,在TSM模型中的各时序卷积层对本层输入数据进行方向随机的时序偏移操作时,TSM模型中的各时序卷积层可以针对本层的输入数据(即输入张量)的前1/N的元素,进行方向随机的时序偏移操作,其中N的取值为2或3。也即,时序卷积层仅对本层的输入数据的前1/2或1/3的元素进行方向随机的时序偏移操作。
可以理解的是,通过将时序偏移操作的位置设置在本层输入数据的前1/2或前1/3,能够在扩大时间维度的感受野的同时,避免时序信息的混乱带来不良的影响,从而在时间维度感受野和时序信息丰富性之间得以平衡,同时有利于数据增广,从而使视频分类模型的整体识别能力有了显著提升。
S103、将所述特征数据输入至预先训练出的序列模型,获得所述序列模型输出的所述待分类视频的分类结果。
其中,序列模型用于对各待分类视频的特征数据进行分类处理,从而得到各待分类视频的视频分类结果。示例性地,序列模型可以是二分类模型,也可以所多个二分类模型组合得到的多分类模型,从而实现对待分类模型的多类别识别。
其中,视频的分类结果可以是粗粒度分类,例如“教育类”、“生活类”、“游戏类”以及“动漫类”等类别标签。当然,视频的分类结果可以是细粒度分类,例如直接输出视频名称作为分类结果。例如,待分类视频时动漫视频时,视频分类结果可以是该动漫视频的动漫名称。
本申请实施例通过对待分类视频进行抽帧处理,得到待分类视频的多个视频帧的帧数据;将待分类视频的多个视频帧的帧数据输入至预先训练出的特征抽取模型,获得特征抽取模型输出的待分类视频的特征数据;其中,特征抽取模型包括TSM模型;所述TSM模型的各时序卷积层对本层的输入数据进行方向随机的时序偏移操作;将特征数据输入至预先训练出的序列模型,获得序列模型输出的待分类视频的分类结果。上述技术方案通过引入包括TSM模型的特征抽取模型,并在特征抽取过程中,在TSM模型的各时序卷积层对各层输入数据进行方向随机的时序偏移操作,有利于数据增广,便于挖掘各层输入数据中的隐藏信息,从而使所抽取的特征数据更加丰富、全面,进而提升了视频分类结果的准确度。
实施例二
图2A是本申请实施例二中的一种视频分类方法的流程图,本申请实施例在上述各实施例的技术方案的基础上,进行了优化改进。
进一步地,在“对待分类视频进行抽帧处理”操作之前,追加“对第一样本视频进行抽帧处理,得到第一样本视频的多个视频帧的帧数据;将第一样本视频的多个视频帧的帧数据以及第一样本视频的特征数据,作为样本数据,对初始建立的特征抽取模型进行训练”,以完善特征抽取模型的训练机制。
进一步地,将特征抽取模型细化为“所述特征抽取模型包括第一TSM模型”,将对特征抽取模型的训练细化为“对特征抽取模型的训练包括对第一TSM模型的训练;所述第一TSM模型的输入数据为第一样本视频的多个视频帧中各帧的RGB图像”;相应的,在特征抽取模型使用过程中,对特征抽取模型的输出,进一步细化为“所述特征抽取模型输出的所述待分类视频的特征数据,是第一TSM模型输出的特征数据”,以完善特征抽取模型的构成细节和训练内容。
如图2A所示的一种视频分类方法,包括:
S201、对第一样本视频进行抽帧处理,得到第一样本视频的多个视频帧的帧数据。
其中,帧数据包括RGB图像对应的帧数据。
S202、将第一样本视频的多个视频帧中各帧的RGB图像以及第一样本视频的特征数据,作为样本数据,对初始建立的第一TSM模型进行训练。其中,所述第一TSM模型的各时序卷积层对本层的输入数据进行方向随机的时序偏移操作。
其中,特征抽取模型包括第一TSM模型。在对第一TSM模型进行模型训练时,将第一样本视频的视频帧中各帧的RGB图像和第一样本视频的特征数据作为样本数据,对初始建立的第一TSM模型进行训练,并通过不断调整第一TSM模型的模型参数,使模型输出的特征数据与第一样本视频的特征数据之间的距离逐渐逼近且数值结果趋于稳定,从而得到最终的第一TSM模型。
在对第一TSM模型进行模型训练过程中,会对第一TSM模型的各时序卷积层的输入数据进行方向随机的时序偏移操作。参见图2B所示的时序偏移操作的流程示意图,C表示通道,T表示时序的维度。每一行同一颜色代表一个视频帧,每一个小块代表不同的通道。
图2B中的(1)为普通输入数据的正常二维卷积通道图,每一次卷积操作都是对Ti帧上的特征(也即每一行的特征)进行处理;图2B中的(2)显示的是一个时序上的移动,对于最前与最后的部分,采用填零的形式进行补充。图2B中的(3)显示的是循环偏移的方式,相对于填零部分,将多出来的补充到后面去,从而使输入数据的大小不变。
为了避免过多的时序偏移导致时序信息的丢失,通常会对时序偏移的位置进行限定。本申请实施例仅针对各时序卷积层的前1/2或前1/3的元素进行时序偏移操作。图2B以前1/2为例进行示例性说明。
S203、对待分类视频进行抽帧处理,得到待分类视频的多个视频帧的帧数据。
S204、将待分类视频的多个视频帧的RGB图像输入至预先训练出的第一TSM模型,获得第一TSM模型输出的所述待分类视频的特征数据。
S205、将所述特征数据输入至预先训练出的序列模型,获得所述序列模型输出的所述待分类视频的分类结果。
本申请实施例通过将特征抽取模型细化为包括第一TSM模型,并通过第一样本视频的多个视频帧中各帧的RGB图像和第一样本视频的特征数据对第一TSM模型进行模型训练,从而使用训练好的第一TSM模型对待分类视频的各视频帧的RGB图像进行特征抽取,得到待分类视频的特征数据。上述技术方案完善了特征抽取模型的构成细节和训练内容,同时通过完善对第一TSM模型的模型训练,为基于视频帧中的RGB图像进行视频分类提供了可能。
实施例三
图3是本申请实施例三中的一种视频分类方法的流程图,本申请实施例在上述各实施例的技术方案的基础上,进行了优化改进。
进一步地,将所述特征抽取模型细化为“所述特征抽取模型包括第一TSM模型和第二TSM模型”;将对特征抽取模型的训练细化为“对特征抽取模型的训练,包括对第一TSM模型和第二TSM模型的训练;所述第一TSM模型的输入数据为第一样本视频的多个视频帧中各帧的RGB图像;所述第二TSM模型的输入数据为第一样本视频的多个视频帧中各帧的光流场图像”;在特征抽取模型使用过程中,对特征抽取模型的输出,进一步细化为“所述特征抽取模型输出的所述待分类视频的特征数据,是对第一TSM模型输出的特征数据和第二TSM模型输出的特征数据进行叠加后得到的特征数据”,以通过多模态方式提升所提取特征的全面性,从而提升模型分类能力。
如图3所示的一种视频分类方法,包括:
S301、对第一样本视频进行抽帧处理,得到第一样本视频的多个视频帧的帧数据。
其中,帧数据包括RGB图像对应的帧数据和光流场图像对应的帧数据。
S302、将第一样本视频的多个视频帧中各帧的RGB图像以及第一样本视频的特征数据,作为样本数据,对初始建立的第一TSM模型进行训练。其中,所述第一TSM模型的各时序卷积层对本层的输入数据进行方向随机的时序偏移操作。
对第一TSM模型的训练过程参见前述实施例,在此不再赘述。
S303、第一样本视频的多个视频帧中各帧的光流场图像以及第一样本视频的特征数据,作为样本数据,对初始建立的第二TSM模型进行训练。其中,所述第二TSM模型的各时序卷积层对本层的输入数据进行方向随机的时序偏移操作。
其中,光流场图像可以利用视频帧中图像序列的像素在时域上的变化以及相邻帧之间的相关性,找到上一帧跟当前帧之间存在的对应关系,从而计算出相邻帧之间物体的运动信息,得到与视频帧中相对应的光流场图像。
需要说明的是,由于光流场图像与RGB图像本质不同,因此需要针对光流场图像额外构建第二TSM模型进行训练,并分别使用训练出的第二TSM模型与第一TSM模型进行特征数据的提取。
在对第二TSM模型进行模型训练时,将第一样本视频的视频帧中各帧的光流场图像和第一样本视频的特征数据作为样本数据,对初始构建的第二TSM模型进行训练,并通过不断调整第二TSM模型的模型参数,使模型输出的特征数据与第一样本视频的特征数据之间的距离逐渐逼近且数值结果趋于稳定,从而得到最终的第二TSM模型。
S304、对待分类视频进行抽帧处理,得到待分类视频的多个视频帧的帧数据。
S305、将待分类视频的多个视频帧中各帧的RGB图像输入至预先训练出的第一TSM模型输出待分类视频的特征数据。
S306、将待分类视频的多个视频帧中各帧的光流场图像输入至预先训练出的第二TSM模型输出待分类视频的特征数据。
S307、对第一TSM模型输出的特征数据和第二TSM模型输出的特征数据进行叠加。
由于TSM模型采用双流法的结构,包括第二TSM模型和第二TSM模型,所以需要对双流进行结合,也即对第一TSM模型输出的特征数据和第二TSM模型输出的特征数据进行叠加,得到最终的特征数据。
需要说明的是,由于RGB图像中仅包含视频帧中某个时间的静态信息,缺乏上下文信息,而光流场图像能够提供前后帧的时序信息,所以通过将第一TSM模型输出的特征数据和第二TSM模型输出的特征数据进行叠加,使得所提取的特征数据更加丰富、全面。
S308、将叠加后的特征数据输入至预先训练出的序列模型,获得所述序列模型输出的所述待分类视频的分类结果。
可以理解的是,由于最终确定的特征数据可以在时间维度增加更多信息,所包含内容更加丰富,所以在进行视频分类时所参考的特征更加丰富全面,从而侧面提升了序列模型的准确率和召回率,同时通过引入时间维度信息,提升了分类模型的鲁棒性。
本申请实施例通过将特征抽取模型细化为包括第一TSM模型和第二TSM模型,并通过第一样本视频的多个视频帧中各帧的RGB图像和第一样本视频的特征数据对第一TSM模型进行模型训练,通过第一样本视频的多个视频帧中各帧的光流场图像和第一样本视频的特征数据对第二TSM模型进行模型训练,从而使用训练好的第一TSM模型和第二TSM模型分别对待分类视频进行特征抽取,并将第一TSM模型和第二TSM模型的所抽取的特征数据进行叠加,从而使最终得到的特征数据中包含有视频中的空间信息和时间信息,提升了所提取特征的全面性,进而提升了分类模型的鲁棒性,并为分类模型的准确率和召回率提供了保障。
实施例四
图4A是本申请实施例四中的一种视频分类方法的流程图,本申请实施例在上述各实施例的技术方案的基础上进行优化改进。
进一步的,在操作“将所述特征数据输入至预先训练出的序列模型”之前,追加“对第二样本视频进行抽帧处理,得到第二样本视频的多个视频帧的帧数据;将第二样本视频的多个视频帧的帧数据输入至训练出的特征抽取模块中,获得第二样本视频的特征数据;将第二样本视频的特征数据和第二样本视频的分类标签信息,作为样本数据对初始建立的序列模型进行训练”,以完善序列模型的模型训练机制。
如图4A所示的一种视频分类方法,包括
S401、对第二样本视频进行抽帧处理,得到第二样本视频的多个视频帧的帧数据。
其中,对第二样本视频进行抽帧处理,可以对整个第二样本视频在时间维度上进行抽帧处理,以保证在时间维度上能够涵盖整个视频。当然,为了保证抽帧得到的帧数据能够均匀遍布在第二样本视频的时间维度上,典型的,可以将视频等间隔分为多段,从每段中随机抽取一个视频帧,以实现等间隔抽帧采样。
S402、将第二样本视频的多个视频帧的帧数据输入至训练出的特征抽取模块中,获得第二样本视频的特征数据。
其中,所述特征抽取模型包括时序转换模型TSM模型;所述TSM模型的各时序卷积层对本层的输入数据进行方向随机的时序偏移操作。
示例性地,特征抽取模型包括第一TSM模型,或者,特征抽取模型还可以包括第二TSM模型。第一TSM模型和第二TSM模型的训练方式可参见前述实施例,在此不再赘述。
S403、将第二样本视频的特征数据和第二样本视频的分类标签信息,作为样本数据对初始建立的序列模型进行训练。
在对序列模型进行模型训练时,将第二样本视频的特征数据和第二样本视频的分类标签信息,作为样本数据,对初始建立的序列模型进行训练,并根据训练结果不断对序列模型中的模型参数进行调整,以使模型输出的分类结果与第二样本视频的分类标签信息之间的误差值,满足设定精度要求。其中,设定精度可以由技术人员根据需要或经验值进行设定。
参见图4B所示的序列模型的结构图,其中,序列模型包括顺次连接的白化层、NetVLAD层或NeXtVLAD层、过滤层、全连接层、上下文门控层和分类器。
白化层,用于去除特征数据间的冗余信息,以减少所输入的特征数据之间的相关性。可选的,白化层可以采用反向白化层(Reverse Whitening)。
NetVLAD层或NeXtVLAD层,用于将frame-level(帧级)特征融合为video-level(视频级)特征,强调特征之间的分布关联,主要出发点都是在于学习视频帧的聚类,聚类中心向量作为video-level特征。
上下文门控层,用于在通道维度上引入注意力机制,旨在对分类结果之间的依赖性进行建模,以学习更好的特征表示,从而保证不同特征对不同类别有更好的区分性。可选的,上下文门控层,可以采用SE上下文门控层(SE Context Gating)。
可选的,分类器可以采用逻辑回归方式加以实现。
在本申请实施例的一种可选实施方式中,采用NeXtVLAD层可以在NetVLAD聚合的基础上,对输入的特征向量分解为设定数目的低维特征向量,以减少帧级特征向量向视频级特征向量转化时的数据运算量。
在执行本申请实施例过程中,由于低维特征向量的数目的不同,将会导致序列模型在数据运算过程中的时间复杂度和空间复杂度均存在不同幅度的变化。为了保证在数据运算过程中的时间复杂度和空间复杂度都有所降低,典型的,设定数目为大于8的整数值。
需要说明的是,由于特征抽取时对视频帧的对视频帧的RGB图像和/或光流场图像进行处理,使得所提取的特征数据中仅包含视频特征数据,不包含音频特征数据,从而减少了采用序列模型进行视频分类的数据计算量。
S404、对待分类视频进行抽帧处理,得到待分类视频的多个视频帧的帧数据。
S405、将待分类视频的多个视频帧的帧数据输入至预先训练出的特征抽取模型,获得所述特征抽取模型输出的所述待分类视频的特征数据;其中,所述特征抽取模型包括时序转换模型TSM模型;所述TSM模型的各时序卷积层对本层的输入数据进行方向随机的时序偏移操作。
S406、将所述特征数据输入至预先训练出的序列模型,获得所述序列模型输出的所述待分类视频的分类结果。
本申请实施例在将特征数据输入至预先训练出的序列模型之前,追加对第二样本视频进行抽帧处理,并对得到的多个视频帧的帧数据进行特征抽取的操作,从而采用第二样本视频的特征数据和分类标签信息进行序列模型的训练操作,完善了序列模型的训练机制,为序列模型的正常使用提供保障。
实施例五
图5A是本申请实施例五中的一种视频分类方法的流程图,本申请实施例在上述各实施例的技术方案的基础上,提供了一种优选实施方式,并结合图5B所示的视频分类模型框架示意图进行详细说明。
如图5A所示的一种视频分类方法,包括:
S510、视频预处理阶段;
S520、模型训练阶段;
S530、模型使用阶段。
其中,在视频预处理阶段,包括:
S511、获取待训练视频和待分类视频,将各视频等间隔分为多段,从每段中随机抽取出一个视频帧。
S512、确定抽取的各视频帧的RGB图像和光流场图像。
其中,在TSM模型训练阶段,包括:
S521、将待训练视频中各视频帧的RGB图像和待训练视频的特征数据,作为训练样本输入至初始构建的第一TSM模型中,对第一TSM模型进行训练。
S522、将待训练视频中各视频帧的光流场图像和待训练视频的特征数据,作为训练样本输入至初始构建的第二TSM模型中,对第二TSM模型进行训练。
其中,第一TSM模型与第二TSM模型的原理相同,以对第一TSM模型为例进行详细说明。
本申请中所采用的第一TSM模型基于TSN模型改进得到,首先对TSN模型进行详细说明。
参见图5C所示的TSN模型结构示意图,TSN模型的输入数据为将完整视频拆分后的视频片段,并从所拆分的视频片段中所选取部分视频帧的帧数据。
TSN模型500包括特征提取51和特征融合52。其中,特征提取51包括时序特征提取511和语义特征提取512。其中,时序特征提取511,用于提取视频片段中的时序特征信息;语义特征提取512,用于提取视频片段中的空间特征信息。特征融合52,用于将所提取的时序特征信息和空间信息融合,得到最终的特征数据。
具体的,一个输入视频被划分为N段(segment),一个片段从他对应的段中随机采样得到。为了保证整个视频级别的输入,典型时采用均匀采样的方式保证整个视频的特征。也即,给定一段视频V,将其等间隔划分为k段,并随机在各段中抽取视频片段{S1,S2,S3,…,Sk}。随后参照以下方式进行建模:
TSN(S1,S2,…,Sk)=H(g(F(S1;W),F(S2;W),…,F(Sk;W)));
其中,H()、g()和F()分别为某一层的函数,W为待训练的模型参数。
在得到每帧特征后,由于TSN是可微的,所以可通过反向传导来优化模型参数,损失函数如下图:
Figure BDA0002302877300000161
其中,y为输出的某个类别标签,G为TSN模型中softmax层的输出,C为迭代次数。
而TSM模型在TSN模型的基础上,添加了方向随机的时序偏移操作,也即在TSN模型的各时序卷积层,进行卷积操作前,需要随本层的输入数据的前1/2进行方向随机的时序偏移操作,具体的时序偏移操作可参见图2B,以及前述实施例的相关描述,在此不再赘述。
需要说明的是,TSM模型通过多模态方式来提升分类能力,将RGB图像作为空间卷积网络(也即第一TSM模型)的输入数据,将光流场图像作为时间卷积网络(也即第二TSM模型)的输入数据,使得RGB图像提供某一时间的静态信息,通过光流场图像提供前后帧的时序信息,并通过将第一TSM模型输出的特征数据和第二TSM模型输出的特征数据进行叠加,从而时特征数据在时间维度增加了更多信息,也即在相同感受野的情况下,能够得到更加丰富全面的特征信息,有助于提升模型的识别能力。
其中,在序列模型的训练阶段,包括:
S523、将待训练样本的特征数据和分类标签信息,作为样本数据对初始建立的序列模型进行训练。
序列模型的模型结构可参见图4B。其中,序列模型包括顺次连接的白化层、NetVLAD层或NeXtVLAD层、过滤层、全连接层、上下文门控层和分类器。
白化层,用于去除特征数据间的冗余信息,以减少所输入的特征数据之间的相关性。可选的,白化层可以采用反向白化层(Reverse Whitening)。
NetVLAD层或NeXtVLAD层,用于将frame-level(帧级)特征融合为video-level(视频级)特征,强调特征之间的分布关联,主要出发点都是在于学习视频帧的聚类,聚类中心向量作为video-level特征。
上下文门控层,用于在上下文门控在通道维度上引入注意力机制,旨在对分类结果之间的依赖性进行建模,以学习更好的特征表示,从而保证不同特征对不同类别有更好的区分性。可选的,上下文门控层,可以采用SE上下文门控层(SE Context Gating)。
参见图5D所示的NetVLAD层的结构示意图。给定M帧视频的N维特征向量x,在K个簇的NetVLAD聚合中,首先采用以下公式将各帧视频转化为N×K维的特征向量:
vijk=αk(xi)(xij-ckj)
i∈{1,2,…,M},j∈{1,2,…,N},k∈{1,2,…,K}
其中,xij是第i个帧视频的第j个特征值;ckj是第k个聚类中心的第j个特征值。
αk(xi)可以理解为第i个帧视频属于第k个聚类的权重,用于表征xij与聚类k的接近度。
其中,αk(xi)可以使用softmax激活的单个全连接层建模得到,例如可以采用以下公式构建得到:
Figure BDA0002302877300000181
其中,wk和bk为模型的待训练参数。
其次,可以通过汇总所有帧级特征来获得视频级特征向量:
Figure BDA0002302877300000182
然后,通过帧内归一化(l2)的方式抑制突发。同时,通过全连接层(FC)将视频级特征向量缩减为H维隐层向量。
具体的,采用NetVLAD层的参数总量为:N×K×(H+2)个。
参加图5E所示的NeXtVLAD层的结构示意图。在NeXtVLAD层中,首先对输入向量
Figure BDA0002302877300000183
通过整形操作扩展为
Figure BDA0002302877300000184
其维度为λN,通过线性全连接层实现,其中λ为宽度系数,可以根据经验值或反复试验进行确定。其中整形操作将形状为(M,λN)的高维特征向量
Figure BDA0002302877300000185
转化为形状为(M,G,λN/G)的低维特征向量
Figure BDA0002302877300000186
其中,G为低维特征向量的个数。
其次,确定每一低维特征向量距离聚类中心的残差:
Figure BDA0002302877300000187
Figure BDA0002302877300000188
其中,
Figure BDA0002302877300000189
与聚类k的接近度由以下两部分构成:
Figure BDA00023028773000001810
Figure BDA00023028773000001811
其中,σ()为激活函数,输出0~1之间的数值。其中,
Figure BDA00023028773000001812
用于度量
Figure BDA0002302877300000191
对聚类k的软分配,而
Figure BDA0002302877300000192
用于作为各组低维特征向量的注意力函数;其中,wg和bg为模型的待训练参数。
然后,通过在时间维度和组内维度通过聚合得到视频级特征向量:
Figure BDA0002302877300000193
最后,通过帧内归一化(l2)的方式抑制突发。同时,通过与NetVLAD层类似的全连接层(FC)缩减视频级特征向量。
具体的,采用NeXtVLAD层的参数总量为:λN(N+G+K(G+(H+1)/G))个。因为G远小于H和N,所以总体来说NeXtVLAD的参数约比NetVLAD小G/λ倍NetVLAD小G/λ倍。
需要说明的是,采用NeXtVLAD层可以在NetVLAD聚合的基础上,对输入的特征向量分解为大于8个(也即G>8)的低维特征向量,使得序列模型在时间复杂度和空间复杂度上都有降低。
需要说明的是,由于特征抽取时对视频帧的对视频帧的RGB图像和/或光流场图像进行处理,使得所提取的特征数据中仅包含视频特征数据,不包含音频特征数据,从而减少了采用序列模型进行视频分类的数据计算量。
其中,模型使用阶段,包括:
S531、将待分类视频的多个视频帧的RGB图像,输入至训练好的第一TSM模型中,输出第一特征数据;
S532、将待分类视频的多个视频帧的光流场图像,输入至训练好的第二TSM模型中,输出第二特征数据;
S533、将第一特征数据和第二特征数据进行叠加后,得到目标特征数据。
S534、将目标特征数据输入至训练好的序列模型中,得到待分类视频的分类结果。
实施例六
图6是本申请实施例六中的一种视频分类装置的结构图,本申请实施例适用于结合TSM模型对视频(例如动漫)进行分类的情况,该装置通过软件和/或硬件实现,并具体配置于具备一定数据运算能力的电子设备中。
如图6所示的一种视频分类装置600,包括:视频抽帧模块601、特征抽取模块602和分类模块603。其中,
视频抽帧模块601,用于对待分类视频进行抽帧处理,得到待分类视频的多个视频帧的帧数据;
特征抽取模块602,用于将待分类视频的多个视频帧的帧数据输入至预先训练出的特征抽取模型,获得所述特征抽取模型输出的所述待分类视频的特征数据;其中,所述特征抽取模型包括时序转换模型TSM模型;所述TSM模型的各时序卷积层对本层的输入数据进行方向随机的时序偏移操作;
分类模块603,用于将所述特征数据输入至预先训练出的序列模型,获得所述序列模型输出的所述待分类视频的分类结果。
本申请实施例通过视频抽帧模块对待分类视频进行抽帧处理,得到待分类视频的多个视频帧的帧数据;通过特征抽取模块将待分类视频的多个视频帧的帧数据输入至预先训练出的特征抽取模型,获得特征抽取模型输出的待分类视频的特征数据;其中,特征抽取模型包括TSM模型;所述TSM模型的各时序卷积层对本层的输入数据进行方向随机的时序偏移操作;通过分类模块将特征数据输入至预先训练出的序列模型,获得序列模型输出的待分类视频的分类结果。上述技术方案通过引入包括TSM模型的特征抽取模型,并在特征抽取过程中,在TSM模型的各时序卷积层对各层输入数据进行方向随机的时序偏移操作,有利于数据增广,便于挖掘输入数据中的隐藏信息,使所抽取的特征数据更加丰富、全面,进而提升了视频分类结果的准确度。
进一步地,所述TSM模型中的各时序卷积层,针对本层的输入数据的前1/N的元素,进行方向随机的时序偏移操作,其中N的取值为2或3。
进一步地,该装置还包括,特征抽取模型训练模块,用于:
在对待分类视频进行抽帧处理之前,对第一样本视频进行抽帧处理,得到第一样本视频的多个视频帧的帧数据;
将第一样本视频的多个视频帧的帧数据以及第一样本视频的特征数据,作为样本数据,对初始建立的特征抽取模型进行训练。
进一步地,所述特征抽取模型包括第一TSM模型;对特征抽取模型的训练包括对第一TSM模型的训练;
所述第一TSM模型的输入数据为第一样本视频的多个视频帧中各帧的RGB图像;
所述特征抽取模型输出的所述待分类视频的特征数据,是第一TSM模型输出的特征数据。
进一步地,所述特征抽取模型包括第一TSM模型和第二TSM模型;对特征抽取模型的训练,包括对第一TSM模型和第二TSM模型的训练;
所述第一TSM模型的输入数据为第一样本视频的多个视频帧中各帧的RGB图像;
所述第二TSM模型的输入数据为第一样本视频的多个视频帧中各帧的光流场图像;
所述特征抽取模型输出的所述待分类视频的特征数据,是对第一TSM模型输出的特征数据和第二TSM模型输出的特征数据进行叠加后得到的特征数据。
进一步地,该装置还包括,序列模型训练模块,用于:
在将所述特征数据输入至预先训练出的序列模型之前,对第二样本视频进行抽帧处理,得到第二样本视频的多个视频帧的帧数据;
将第二样本视频的多个视频帧的帧数据输入至训练出的特征抽取模块中,获得第二样本视频的特征数据;
将第二样本视频的特征数据和第二样本视频的分类标签信息,作为样本数据对初始建立的序列模型进行训练。
进一步地,所述序列模型包括NeXtVLAD层,所述NeXtVLAD层对输入的特征向量分解为设定数目的低维特征向量。
进一步地,所述序列模型包括:顺次连接的反向白化层、NeXtVLAD层、过滤层、全连接层、上下文门控层和分类器。
进一步地,所述设定数目为大于8的整数值。
上述视频分类装置可执行本申请任意实施例所提供的视频分类方法,具备执视频分类方法相应的功能模块和有益效果。
实施例七
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图7所示,是执行本申请实施例的视频分类方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图7所示,该电子设备包括:一个或多个处理器701、存储器702,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器***)。图7中以一个处理器701为例。
存储器702即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的视频分类方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的视频分类方法。
存储器702作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的视频分类方法对应的程序指令/模块(例如,附图6所示的视频抽帧模块601、特征抽取模块602和分类模块603)。处理器701通过运行存储在存储器702中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的视频分类方法。
存储器702可以包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需要的应用程序;存储数据区可存储执行视频分类方法的电子设备的使用所创建的数据等。此外,存储器702可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器702可选包括相对于处理器701远程设置的存储器,这些远程存储器可以通过网络连接至执行视频分类方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
执行视频分类方法的电子设备还可以包括:输入装置703和输出装置704。处理器701、存储器702、输入装置703和输出装置704可以通过总线或者其他方式连接,图7中以通过总线连接为例。
输入装置703可接收输入的数字或字符信息,以及产生与执行视频分类方法的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置704可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的***和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的***和技术实施在包括后台部件的计算***(例如,作为数据服务器)、或者包括中间件部件的计算***(例如,应用服务器)、或者包括前端部件的计算***(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将***的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
根据本申请实施例的技术方案,通过对待分类视频进行抽帧处理,得到待分类视频的多个视频帧的帧数据;将待分类视频的多个视频帧的帧数据输入至预先训练出的特征抽取模型,获得特征抽取模型输出的待分类视频的特征数据;其中,特征抽取模型包括TSM模型;所述TSM模型的各时序卷积层对本层的输入数据进行方向随机的时序偏移操作;将特征数据输入至预先训练出的序列模型,获得序列模型输出的待分类视频的分类结果。上述技术方案通过引入包括TSM模型的特征抽取模型,并在特征抽取过程中,在TSM模型的各时序卷积层对各层输入数据进行方向随机的时序偏移操作,有利于数据增广,便于挖掘输入数据中的隐藏信息,使所抽取的特征数据更加丰富、全面,进而提升了视频分类结果的准确度。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

Claims (12)

1.一种视频分类方法,其特征在于,包括:
对待分类视频进行抽帧处理,得到待分类视频的多个视频帧的帧数据;
将待分类视频的多个视频帧的帧数据输入至预先训练出的特征抽取模型,获得所述特征抽取模型输出的所述待分类视频的特征数据;其中,所述特征抽取模型包括时序转换模型TSM模型;所述TSM模型的各时序卷积层对本层的输入数据进行方向随机的时序偏移操作;
将所述特征数据输入至预先训练出的序列模型,获得所述序列模型输出的所述待分类视频的分类结果。
2.根据权利要求1所述的方法,其特征在于,所述TSM模型中的各时序卷积层,针对本层的输入数据的前1/N的元素,进行方向随机的时序偏移操作,其中N的取值为2或3。
3.根据权利要求1或2所述的方法,其特征在于,在对待分类视频进行抽帧处理之前,所述方法还包括:
对第一样本视频进行抽帧处理,得到第一样本视频的多个视频帧的帧数据;
将第一样本视频的多个视频帧的帧数据以及第一样本视频的特征数据,作为样本数据,对初始建立的特征抽取模型进行训练。
4.根据权利要求3所述的方法,其特征在于,所述特征抽取模型包括第一TSM模型;对特征抽取模型的训练包括对第一TSM模型的训练;
所述第一TSM模型的输入数据为第一样本视频的多个视频帧中各帧的RGB图像;
所述特征抽取模型输出的所述待分类视频的特征数据,是第一TSM模型输出的特征数据。
5.根据权利要求3所述的方法,其特征在于,所述特征抽取模型包括第一TSM模型和第二TSM模型;对特征抽取模型的训练,包括对第一TSM模型和第二TSM模型的训练;
所述第一TSM模型的输入数据为第一样本视频的多个视频帧中各帧的RGB图像;
所述第二TSM模型的输入数据为第一样本视频的多个视频帧中各帧的光流场图像;
所述特征抽取模型输出的所述待分类视频的特征数据,是对第一TSM模型输出的特征数据和第二TSM模型输出的特征数据进行叠加后得到的特征数据。
6.根据权利要求1或2所述的方法,其特征在于,在将所述特征数据输入至预先训练出的序列模型之前,所述方法还包括:
对第二样本视频进行抽帧处理,得到第二样本视频的多个视频帧的帧数据;
将第二样本视频的多个视频帧的帧数据输入至训练出的特征抽取模块中,获得第二样本视频的特征数据;
将第二样本视频的特征数据和第二样本视频的分类标签信息,作为样本数据对初始建立的序列模型进行训练。
7.根据权利要求6所述的方法,其特征在于,所述序列模型包括NeXtVLAD层,所述NeXtVLAD层对输入的特征向量分解为设定数目的低维特征向量。
8.根据权利要求7所述的方法,其特征在于,所述序列模型包括:顺次连接的白化层、NeXtVLAD层、过滤层、全连接层、上下文门控层和分类器。
9.根据权利要求7所述的方法,其特征在于,所述设定数目为大于8的整数值。
10.一种视频分类装置,其特征在于,包括:
视频抽帧模块,用于对待分类视频进行抽帧处理,得到待分类视频的多个视频帧的帧数据;
特征抽取模块,用于将待分类视频的多个视频帧的帧数据输入至预先训练出的特征抽取模型,获得所述特征抽取模型输出的所述待分类视频的特征数据;其中,所述特征抽取模型包括时序转换模型TSM模型;所述TSM模型的各时序卷积层对本层的输入数据进行方向随机的时序偏移操作;
分类模块,用于将所述特征数据输入至预先训练出的序列模型,获得所述序列模型输出的所述待分类视频的分类结果。
11.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-9中任一项所述的一种视频分类方法。
12.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行权利要求1-9中任一项所述的一种视频分类方法。
CN201911228426.1A 2019-12-04 2019-12-04 一种视频分类方法、装置、设备和存储介质 Active CN111008280B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911228426.1A CN111008280B (zh) 2019-12-04 2019-12-04 一种视频分类方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911228426.1A CN111008280B (zh) 2019-12-04 2019-12-04 一种视频分类方法、装置、设备和存储介质

Publications (2)

Publication Number Publication Date
CN111008280A true CN111008280A (zh) 2020-04-14
CN111008280B CN111008280B (zh) 2023-09-05

Family

ID=70115331

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911228426.1A Active CN111008280B (zh) 2019-12-04 2019-12-04 一种视频分类方法、装置、设备和存储介质

Country Status (1)

Country Link
CN (1) CN111008280B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111967382A (zh) * 2020-08-14 2020-11-20 北京金山云网络技术有限公司 年龄估计方法、年龄估计模型的训练方法及装置
CN112257595A (zh) * 2020-10-22 2021-01-22 广州市百果园网络科技有限公司 视频匹配方法、装置、设备及存储介质
CN112507920A (zh) * 2020-12-16 2021-03-16 重庆交通大学 一种基于时间位移和注意力机制的考试异常行为识别方法
CN112580696A (zh) * 2020-12-03 2021-03-30 星宏传媒有限公司 一种基于视频理解的广告标签分类方法、***及设备
CN113177138A (zh) * 2021-04-30 2021-07-27 南开大学 一种基于弹幕和标题分析的有监督视频分类方法
CN113222916A (zh) * 2021-04-28 2021-08-06 北京百度网讯科技有限公司 采用目标检测模型检测图像的方法、装置、设备和介质
CN113392269A (zh) * 2020-10-22 2021-09-14 腾讯科技(深圳)有限公司 一种视频分类方法、装置、服务器及计算机可读存储介质
CN113473628A (zh) * 2021-08-05 2021-10-01 深圳市虎瑞科技有限公司 智能平台的通信方法以及***
CN113688951A (zh) * 2021-10-25 2021-11-23 腾讯科技(深圳)有限公司 视频数据处理方法以及装置
CN115205768A (zh) * 2022-09-16 2022-10-18 山东百盟信息技术有限公司 一种基于分辨率自适应网络的视频分类方法
WO2022247344A1 (zh) * 2021-05-28 2022-12-01 北京百度网讯科技有限公司 视频识别模型训练方法、装置、设备以及存储介质
CN115953722A (zh) * 2023-03-03 2023-04-11 阿里巴巴(中国)有限公司 一种用于视频分类任务的处理方法、装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160360970A1 (en) * 2015-06-14 2016-12-15 Facense Ltd. Wearable device for taking thermal and visual measurements from fixed relative positions
CN109086873A (zh) * 2018-08-01 2018-12-25 北京旷视科技有限公司 递归神经网络的训练方法、识别方法、装置及处理设备
CN109376683A (zh) * 2018-11-09 2019-02-22 中国科学院计算技术研究所 一种基于稠密图的视频分类方法和***
CN109934845A (zh) * 2019-03-15 2019-06-25 腾讯科技(深圳)有限公司 基于自注意力网络的时序行为捕捉框生成方法及装置
CN110119757A (zh) * 2019-03-28 2019-08-13 北京奇艺世纪科技有限公司 模型训练方法、视频类别检测方法、装置、电子设备和计算机可读介质
CN110163052A (zh) * 2018-08-01 2019-08-23 腾讯科技(深圳)有限公司 视频动作识别方法、装置和机器设备
CN110287789A (zh) * 2019-05-23 2019-09-27 北京百度网讯科技有限公司 基于互联网数据的游戏视频分类方法以及***
CN110418138A (zh) * 2019-07-29 2019-11-05 北京奇艺世纪科技有限公司 视频处理方法、装置、电子设备及存储介质
CN110443171A (zh) * 2019-07-25 2019-11-12 腾讯科技(武汉)有限公司 视频文件的分类方法、装置、存储介质及终端

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160360970A1 (en) * 2015-06-14 2016-12-15 Facense Ltd. Wearable device for taking thermal and visual measurements from fixed relative positions
CN109086873A (zh) * 2018-08-01 2018-12-25 北京旷视科技有限公司 递归神经网络的训练方法、识别方法、装置及处理设备
CN110163052A (zh) * 2018-08-01 2019-08-23 腾讯科技(深圳)有限公司 视频动作识别方法、装置和机器设备
CN109376683A (zh) * 2018-11-09 2019-02-22 中国科学院计算技术研究所 一种基于稠密图的视频分类方法和***
CN109934845A (zh) * 2019-03-15 2019-06-25 腾讯科技(深圳)有限公司 基于自注意力网络的时序行为捕捉框生成方法及装置
CN110119757A (zh) * 2019-03-28 2019-08-13 北京奇艺世纪科技有限公司 模型训练方法、视频类别检测方法、装置、电子设备和计算机可读介质
CN110287789A (zh) * 2019-05-23 2019-09-27 北京百度网讯科技有限公司 基于互联网数据的游戏视频分类方法以及***
CN110443171A (zh) * 2019-07-25 2019-11-12 腾讯科技(武汉)有限公司 视频文件的分类方法、装置、存储介质及终端
CN110418138A (zh) * 2019-07-29 2019-11-05 北京奇艺世纪科技有限公司 视频处理方法、装置、电子设备及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JI LIN,CHUANG GAN,SONG HAN: "TSM: Temporal Shift Module for Efficient Video Understanding", 《ARXIV》 *
JI LIN,CHUANG GAN,SONG HAN: "TSM: Temporal Shift Module for Efficient Video Understanding", 《ARXIV》, 22 August 2019 (2019-08-22) *
贾传令;雷程;贾得稳;: "嵌入式端视频行为识别算法", 电视技术, no. 14 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111967382A (zh) * 2020-08-14 2020-11-20 北京金山云网络技术有限公司 年龄估计方法、年龄估计模型的训练方法及装置
CN112257595A (zh) * 2020-10-22 2021-01-22 广州市百果园网络科技有限公司 视频匹配方法、装置、设备及存储介质
CN113392269A (zh) * 2020-10-22 2021-09-14 腾讯科技(深圳)有限公司 一种视频分类方法、装置、服务器及计算机可读存储介质
CN112580696A (zh) * 2020-12-03 2021-03-30 星宏传媒有限公司 一种基于视频理解的广告标签分类方法、***及设备
CN112507920A (zh) * 2020-12-16 2021-03-16 重庆交通大学 一种基于时间位移和注意力机制的考试异常行为识别方法
CN113222916A (zh) * 2021-04-28 2021-08-06 北京百度网讯科技有限公司 采用目标检测模型检测图像的方法、装置、设备和介质
CN113222916B (zh) * 2021-04-28 2023-08-18 北京百度网讯科技有限公司 采用目标检测模型检测图像的方法、装置、设备和介质
CN113177138A (zh) * 2021-04-30 2021-07-27 南开大学 一种基于弹幕和标题分析的有监督视频分类方法
WO2022247344A1 (zh) * 2021-05-28 2022-12-01 北京百度网讯科技有限公司 视频识别模型训练方法、装置、设备以及存储介质
CN113473628A (zh) * 2021-08-05 2021-10-01 深圳市虎瑞科技有限公司 智能平台的通信方法以及***
CN113688951A (zh) * 2021-10-25 2021-11-23 腾讯科技(深圳)有限公司 视频数据处理方法以及装置
CN115205768A (zh) * 2022-09-16 2022-10-18 山东百盟信息技术有限公司 一种基于分辨率自适应网络的视频分类方法
CN115953722A (zh) * 2023-03-03 2023-04-11 阿里巴巴(中国)有限公司 一种用于视频分类任务的处理方法、装置

Also Published As

Publication number Publication date
CN111008280B (zh) 2023-09-05

Similar Documents

Publication Publication Date Title
CN111008280A (zh) 一种视频分类方法、装置、设备和存储介质
CN111639710B (zh) 图像识别模型训练方法、装置、设备以及存储介质
US11307864B2 (en) Data processing apparatus and method
CN111931591B (zh) 用于构建关键点学习模型的方法、装置、电子设备及可读存储介质
CN111598216B (zh) 学生网络模型的生成方法、装置、设备及存储介质
CN111523597B (zh) 目标识别模型训练方法、装置、设备以及存储介质
CN111461203A (zh) 跨模态处理方法、装置、电子设备和计算机存储介质
CN111708922A (zh) 用于表示异构图节点的模型生成方法及装置
CN112001180A (zh) 多模态预训练模型获取方法、装置、电子设备及存储介质
CN111753914A (zh) 模型优化方法和装置、电子设备及存储介质
US11775845B2 (en) Character recognition method and apparatus, electronic device and computer readable storage medium
CN111737995A (zh) 基于多种词向量训练语言模型的方法、装置、设备及介质
Zhao et al. A temporal-aware relation and attention network for temporal action localization
CN111275190A (zh) 神经网络模型的压缩方法及装置、图像处理方法及处理器
CN111539227A (zh) 训练语义表示模型的方法、装置、设备和计算机存储介质
CN112016633A (zh) 一种模型训练方法、装置、电子设备及存储介质
CN112149741B (zh) 图像识别模型的训练方法、装置、电子设备及存储介质
CN111950254A (zh) 搜索样本的词特征提取方法、装置、设备以及存储介质
CN111680517A (zh) 用于训练模型的方法、装置、设备以及存储介质
CN114386503A (zh) 用于训练模型的方法和装置
CN113361344A (zh) 视频事件识别方法、装置、设备及存储介质
CN112001265A (zh) 视频事件识别方法、装置、电子设备及存储介质
CN111078881B (zh) 细粒度情感分析方法、***、电子设备和存储介质
CN111563198A (zh) 一种物料召回方法、装置、设备及存储介质
CN111640103A (zh) 图像检测方法、装置、设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant