CN109871828B

CN109871828B - 视频识别方法和识别装置、存储介质

Info

Publication number: CN109871828B
Application number: CN201910197160.2A
Authority: CN
Inventors: 贾红红; 崔延镇
Original assignee: BOE Technology Group Co Ltd
Current assignee: BOE Technology Group Co Ltd
Priority date: 2019-03-15
Filing date: 2019-03-15
Publication date: 2022-12-02
Anticipated expiration: 2039-03-15
Also published as: US11113536B2; CN109871828A; US20200293786A1

Abstract

本公开提供一种视频识别方法和识别装置、存储介质。视频识别装置从视频中提取出图像和光流图，利用第一机器学习模型对图像进行分类处理，以得到第一分类结果，利用第二机器学习模型对光流图进行分类处理，以得到第二分类结果，其中第一机器学习模型的深度大于第二机器学习模型的深度，对第一分类结果和第二分类结果进行融合，以得到视频的识别结果。由于第一机器学习模型的深度大于第二机器学习模型的深度，因此能够从图像中提取出更多的特征信息，此外，本公开将两个互不相同的机器学习模型的分类结果进行融合，从而能够在识别视频的过程中，不仅借助图像自身的特征信息，还借助相邻帧之间的变化情况，从而提升视频识别的准确度。

Description

视频识别方法和识别装置、存储介质

技术领域

本公开涉及图像处理领域，特别涉及一种视频识别方法和识别装置、存储介质。

背景技术

在对视频进行识别的相关技术中，通过直接对视频帧中的图像进行识别，以识别出视频中的内容。

发明内容

发明人通过研究发现，在相关技术中，仅针对视频帧中的图像进行识别，并未考虑相邻帧之间的变化情况，从而无法有效提升视频识别准确率。

据此，本公开提出一种能够提升视频识别准确率的方案。

根据本公开实施例的第一方面，提供一种视频识别方法，包括：从视频中提取出图像和光流图；利用第一机器学习模型对所述图像进行分类处理，以得到第一分类结果；利用第二机器学习模型对所述光流图进行分类处理，以得到第二分类结果，其中所述第一机器学习模型的深度大于所述第二机器学习模型的深度；对所述第一分类结果和所述第二分类结果进行融合，以得到所述视频的识别结果。

在一些实施例中，所述第一机器学习模型包括第一机器学习子模型、第二机器学习子模型、第一全连接层和第一分类器；利用第一机器学习模型对所述图像进行处理包括：将所述图像输入所述第一机器学习子模型，以得到第一特征信息；将所述第一特征信息输入所述第二机器学习子模型，以得到第二特征信息；将所述第二特征信息输入所述第一全连接层，以得到第三特征信息；将所述第三特征信息输入所述第一分类器，以得到所述第一分类结果。

在一些实施例中，所述第二机器学习子模型包括多层卷积层。

在一些实施例中，所述卷积层的数量为3层。

在一些实施例中，所述第二机器学习模型包括所述第一机器学习子模型、第二全连接层和第二分类器；利用第二机器学习模型对所述光流图进行处理包括：将所述光流图输入所述第一机器学习子模型，以得到第四特征信息；将所述第四特征信息输入所述第二全连接层，以得到第五特征信息；将所述第五特征信息输入所述第二分类器，以得到所述第二分类结果。

在一些实施例中，所述第一机器学习模型和所述第二机器学习模型分别包括预定数量个第一机器学习子模型；将输入信息输入所述第一机器学习子模型包括：将所述输入信息划分为所述预定数量个信息片段，所述信息片段与所述第一机器学习子模型一一对应，所述输入信息为所述图像或所述光流图；将所述信息片段输入对应的第一机器学习子模型。

根据本公开实施例的第二方面，提供一种视频识别装置，包括：信息提取模块，被配置为从视频中提取出图像和光流图；处理模块，被配置为利用第一机器学习模型对所述图像进行分类处理，以得到第一分类结果，利用第二机器学习模型对所述光流图进行分类处理，以得到第二分类结果，其中所述第一机器学习模型的深度大于所述第二机器学习模型的深度；融合模块，被配置为对所述第一分类结果和所述第二分类结果进行融合，以得到所述视频的识别结果。

在一些实施例中，所述第一机器学习模型包括第一机器学习子模型、第二机器学习子模型、第一全连接层和第一分类器；所述处理模块被配置为将所述图像输入所述第一机器学习子模型，以得到第一特征信息，将所述第一特征信息输入所述第二机器学习子模型，以得到第二特征信息，将所述第二特征信息输入所述第一全连接层，以得到第三特征信息，将所述第三特征信息输入所述第一分类器，以得到所述第一分类结果。

在一些实施例中，所述卷积层的数量为3层。

在一些实施例中，所述第二机器学习模型包括所述第一机器学习子模型、第二全连接层和第二分类器；所述处理模块还被配置为将所述光流图输入所述第一机器学习子模型，以得到第四特征信息，将所述第四特征信息输入所述第二全连接层，以得到第五特征信息，将所述第五特征信息输入所述第二分类器，以得到所述第二分类结果。

在一些实施例中，所述第一机器学习模型和所述第二机器学习模型分别包括预定数量个第一机器学习子模型；所述处理模块还被配置为将输入信息划分为所述预定数量个信息片段，所述信息片段与所述第一机器学习子模型一一对应，所述输入信息为所述图像或所述光流图，将所述信息片段输入对应的第一机器学习子模型。

根据本公开实施例的第三方面，提供一种视频识别装置，包括：存储器，被配置为存储指令；处理器，耦合到存储器，处理器被配置为基于存储器存储的指令执行实现如上述任一实施例所述的方法。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，其中，计算机可读存储介质存储有计算机指令，指令被处理器执行时实现如上述任一实施例涉及的方法。

通过以下参照附图对本公开的示例性实施例的详细描述，本公开的其它特征及其优点将会变得清楚。

附图说明

构成说明书的一部分的附图描述了本公开的实施例，并且连同说明书一起用于解释本公开的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本公开，其中：

图1是根据本公开一个实施例的视频识别方法的流程示意图；

图2是根据本公开一个实施例的机器学习模型的结构示意图；

图3是根据本公开另一个实施例的机器学习模型的结构示意图；

图4是根据本公开另一个实施例的视频识别方法的流程示意图；

图5是根据本公开又一个实施例的机器学习模型的结构示意图；

图6是根据本公开一个实施例的信息划分示意图；

图7是根据本公开一个实施例的视频识别装置的结构示意图；

图8是根据本公开另一个实施例的视频识别装置的结构示意图。

应当明白，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。此外，相同或类似的参考标号表示相同或类似的构件。

具体实施方式

现在将参照附图来详细描述本公开的各种示例性实施例。对示例性实施例的描述仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。本公开可以以许多不同的形式实现，不限于这里所述的实施例。提供这些实施例是为了使本公开透彻且完整，并且向本领域技术人员充分表达本公开的范围。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、材料的组分和数值应被解释为仅仅是示例性的，而不是作为限制。

本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的部分。“包括”或者“包含”等类似的词语意指在该词前的要素涵盖在该词后列举的要素，并不排除也涵盖其他要素的可能。

本公开使用的所有术语(包括技术术语或者科学术语)与本公开所属领域的普通技术人员理解的含义相同，除非另外特别定义。还应当理解，在诸如通用字典中定义的术语应当被解释为具有与它们在相关技术的上下文中的含义相一致的含义，而不应用理想化或极度形式化的意义来解释，除非这里明确地这样定义。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

图1是根据本公开一个实施例的视频识别方法的流程示意图。在一些实施例中，视频识别方法由视频识别装置执行。

在步骤101，从视频中提取出图像和光流图。

这里需要说明的是，所提取出的图像是视频中的一帧。例如，所提取出的图像是RGB颜色空间中的图像，或者是其它颜色空间中的图像。

此外，光流图用来描述视频中相邻帧之间的变化情况。

在步骤102，利用第一机器学习模型对图像进行分类处理，以得到第一分类结果。

在步骤103，利用第二机器学习模型对光流图进行分类处理，以得到第二分类结果。第一机器学习模型的深度大于第二机器学习模型的深度。

这里需要说明的是，图像的纹理和色彩比较丰富，而光流图的纹理和内容相对单一。因此通过增加处理图像的第一机器学习模型的深度，能够进一步提取出图像中所包含的特征信息。由此可提升视频识别的准确度。

在一些实施例中，第一机器学习模型和第二机器学习模型为经过训练的神经网络。例如，第一机器学习模型和第二机器学习模型为经过训练的卷积神经网络。

在步骤104，对第一分类结果和第二分类结果进行融合，以得到视频的识别结果。

在一些实施例中，可通过计算第一分类结果和第二分类结果的平均值、加权平均值或其它适当的方式，将第一分类结果和第二分类结果进行融合。

例如，利用上述实施例对视频片段进行识别，第一机器学习模型输出的第一分类结果为：用户仅伸出右手食指的概率为0.7，用户同时伸出右手的拇指和食指的概率为0.2，其它情况的概率为0.1。第二机器学习模型输出的第二分类结果为：用户仅伸出右手食指的概率为0.8，用户同时伸出右手的拇指和食指的概率为0.1，其它情况的概率为0.1。若第一机器学习模型的权值为2，第二机器学习模型的权值为1，则在融合过程中，用户仅伸出右手食指的概率为：

(2×0.7+1×0.8)/3＝0.733

而用户同时伸出右手的拇指和食指的概率为：

(2×0.2+1×0.1)/3＝0.167

由于0.733>0.167，因此判定出在所识别的视频中，用户仅伸出了右手食指。

图2是根据本公开一个实施例的机器学习模型的结构示意图。如图2所示，机器学习模型20中包括第一机器学习模型21和第二机器学习模型22。第一机器学习模型21的深度大于第二机器学习模型22的深度。

在一些实施例中，第一机器学习模型21和第二机器学习模型22为经过训练的神经网络。例如，第一机器学习模型21和第二机器学习模型22为经过训练的卷积神经网络。

在从视频中提取出图像和光流图后，将图像输入第一机器学习模型21，将光流图输入第二机器学习模型22。第一机器学习模型21对图像进行分类处理，以得到第一分类结果。第二机器学习模型22对光流图进行分类处理，以得到第二分类结果。接下来，通过对第一分类结果和第二分类结果进行融合处理，以得到视频识别结果。

在本公开上述实施例提供的视频识别方法中，在对视频进行识别的过程中，用于图像识别的第一机器学习模型的深度大于用于光流图识别的第二机器学习模型的深度，因此能够从图像中提取出更多的特征信息。此外，本公开将两个互不相同的机器学习模型的分类结果进行融合，从而能够在识别视频的过程中，不仅借助图像自身的特征信息，还借助相邻帧之间的变化情况，从而能够提升视频识别的准确度。

图3是根据本公开另一个实施例的机器学习模型的结构示意图。图3与图2的不同之处在于，在图3所示实施例中，第一机器学习模型21包括第一机器学习子模型211、第二机器学习子模型212、第一全连接层213和第一分类器214。第二机器学习模型22包括第一机器学习子模型211、第二全连接层223和第二分类器224。

在一些实施例中，第一机器学习子模型211和第二机器学习子模型212为经过训练的神经网络。例如，第一机器学习子模型211和第二机器学习子模型212为经过训练的卷积神经网络。

在一些实施例中，第一分类器214和第二分类器224利用softmax函数进行分类处理。

图4是根据本公开另一个实施例的视频识别方法的流程示意图。所使用的机器学习模型如图3所示。在一些实施例中，视频识别方法由视频识别装置执行。

在步骤401，从视频中提取出图像和光流图。

在步骤402，将图像输入第一机器学习子模型，以得到第一特征信息。

在步骤403，将第一特征信息输入第二机器学习子模型，以得到第二特征信息。

在步骤404，将第二特征信息输入第一全连接层，以得到第三特征信息。

第一全连接层能够将第二特征信息中的局部特征转换为全局特征，以便提升视频识别的准确度。

在步骤405，将第三特征信息输入第一分类器，以得到第一分类结果。

在步骤406，将光流图输入第一机器学习子模型，以得到第四特征信息。

在步骤407，将第四特征信息输入第二全连接层，以得到第五特征信息。

第二全连接层能够将第四特征信息中的局部特征转换为全局特征，以便提升视频识别的准确度。

在步骤408，将第五特征信息输入第二分类器，以得到第二分类结果。

在步骤409，对第一分类结果和第二分类结果进行融合，以得到视频的识别结果。

这里需要说明的是，在第二机器学习子模型包括多层卷积层的情况下，随着卷积层的层数的增加，视频识别准确度会随之提升。但在卷积层的层数超过门限值后，视频识别准确度并不会得到进一步改善，同时还导致计算成本显著增加。

在一些实施例中，第二机器学习子模型中的卷积层的层数为3层。由此，既可以得到理想的视频识别准确度，又能够将计算成本控制在可接受范围内。

图5是根据本公开又一个实施例的机器学习模型的结构示意图。图5与图3的不同之处在于，在图5所示实施例中，第一机器学习模型21中包括多个第一机器学习子模型211。第二机器学习模型22中包括多个第一机器学习子模型211。这些第一机器学习子模型211能够相互独立地对输入信息进行处理，从而能够有效提升处理效率。

在一些实施例中，第一机器学习模型21中的第一机器学习子模型211的数量与第二机器学习模型22中的第一机器学习子模型211的数量相同。

在一些实施例中，在第一机器学习模型21和第二机器学习模型22中分别设置3个第一机器学习子模型211。由此，既可以得到理想的处理速度，又能够将计算成本控制在可接受范围内。

图6是根据本公开一个实施例的信息划分示意图。

如图6所示，从视频段V中提取出图像P和光流图F。在第一机器学习模型包括n个第一机器学习子模型的情况下，将输入给第一机器学习模型的图像P也划分为n个信息片段P₁、P₂、…、P_n。信息片段与第一机器学习子模型一一对应。接下来，将P₁输入对应的第一机器学习子模型C₁₁，将P₂输入对应的第一机器学习子模型C₁₂，…，将P_n输入对应的第一机器学习子模型C_1n。

在一些实施例中，信息片段P₁、P₂、…、P_n的长度相同。由此能够将计算负载进行均匀分配，从而提升整体的处理效率。

此外，在第二机器学习模型包括n个第一机器学习子模型的情况下，将输入给第二机器学习模型的光流图F也划分为n个信息片段F₁、F₂、…、F_n。信息片段与第一机器学习子模型一一对应。接下来，将F₁输入对应的第一机器学习子模型C₂₁，将F₂输入对应的第一机器学习子模型C₂₂，…，将F_n输入对应的第一机器学习子模型C_2n。

在一些实施例中，信息片段F₁、F₂、…、F_n的长度相同。由此能够将计算负载进行均匀分配，从而提升整体的处理效率。

在一些实施例中，从每个信息片段中以预定间隔提取出多个信息帧。将提取出的多个信息帧输入对应的第一机器学习子模型，由此可减小第一机器学习子模型的信息处理量。

例如，从信息片段P₁中随机选择一个起点i₁。然后从起点i₁开始，在信息片段P₁中等间距地选择出m个信息帧i₁、i₂、…、i_m。若在选择过程中，所选择的信息帧i_j位于信息片段P₁的尾部，则继续从信息片段P₁的第一帧开始选择下一信息帧i_j+1。

需要说明的是，虽然在附图中以一定顺序示出了各个方法步骤，但是这不意味着方法步骤必须以所示出的顺序来执行，相反在不背离本发明的精神和原则的情况下可以以相反或并行的顺序被执行。

图7是根据本公开一个实施例的视频识别装置的结构示意图。如图7所示，视频识别装置包括信息提取模块71、处理模块72和融合模块73。

信息提取模块71从视频中提取出图像和光流图。

此外，光流图用来描述视频中相邻帧之间的变化情况。

处理模块72利用第一机器学习模型对所述图像进行分类处理，以得到第一分类结果，利用第二机器学习模型对所述光流图进行分类处理，以得到第二分类结果。第一机器学习模型的深度大于第二机器学习模型的深度。

融合模块73对第一分类结果和第二分类结果进行融合，以得到视频的识别结果。

在本公开上述实施例提供的视频识别装置中，在对视频进行识别的过程中，用于图像识别的第一机器学习模型的深度大于用于光流图识别的第二机器学习模型的深度，因此能够从图像中提取出更多的特征信息。此外，本公开将两个互不相同的机器学习模型的分类结果进行融合，从而能够在识别视频的过程中，不仅借助图像自身的特征信息，还借助相邻帧之间的变化情况，从而提升视频识别的准确度。

在一些实施例中，如图3所示，第一机器学习模型包括第一机器学习子模型、第二机器学习子模型、第一全连接层和第一分类器。

处理模块72将所述图像输入所述第一机器学习子模型，以得到第一特征信息。处理模块72将所述第一特征信息输入所述第二机器学习子模型，以得到第二特征信息。处理模块72将所述第二特征信息输入所述第一全连接层，以得到第三特征信息。处理模块72将所述第三特征信息输入所述第一分类器，以得到所述第一分类结果。

在一些实施例中，第一分类器利用softmax函数进行分类处理。

在一些实施例中，第二机器学习子模型中包括多层卷积层。例如，第二机器学习子模型中的卷积层的层数为3层。由此，既可以得到理想的视频识别准确度，又能够将计算成本控制在可接受范围内。

在一些实施例中，如图3所示，第二机器学习模型包括第一机器学习子模型、第二全连接层和第二分类器。

处理模块72将所述光流图输入所述第一机器学习子模型，以得到第四特征信息。处理模块72将所述第四特征信息输入所述第二全连接层，以得到第五特征信息。处理模块72将所述第五特征信息输入所述第二分类器，以得到所述第二分类结果。

在一些实施例中，如图5所示，第一机器学习模型和第二机器学习模型分别包括预定数量个第一机器学习子模型。

如图6所示，在第一机器学习模型包括n个第一机器学习子模型的情况下，处理模块72将输入给第一机器学习模型的图像P划分为n个信息片段P₁、P₂、…、P_n。信息片段与第一机器学习子模型一一对应。接下来，处理模块72将每个信息片段输入第一机器学习模型中对应的第一机器学习子模型。

此外，在第二机器学习模型包括n个第一机器学习子模型的情况下，处理模块72将输入给第二机器学习模型的光流图F划分为n个信息片段F₁、F₂、…、F_n。信息片段与第一机器学习子模型一一对应。接下来，处理模块72将每个信息片段输入第二机器学习模型中对应的第一机器学习子模型。

在一些实施例中，各信息片段F₁、F₂、…、F_n的长度相同。由此能够将计算负载进行均匀分配，从而提升整体的处理效率。

在一些实施例中，上述功能模块可以实现为用于执行本公开所描述功能的通用处理器、可编程逻辑控制器(Programmable Logic Controller，简称：PLC)、数字信号处理器(Digital Signal Processor，简称：DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称：ASIC)、现场可编程门阵列(Field-Programmable Gate Array，简称：FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件或者其任意适当组合。

图8是根据本公开另一个实施例的视频识别装置的结构示意图。如图8所示，视频识别装置包括存储器81和处理器82。

存储器81用于存储指令。处理器82耦合到存储器81。处理器82被配置为基于存储器存储的指令执行实现如图1和图4中任一实施例涉及的方法。

如图8所示，视频识别装置还包括通信接口83，用于与其它设备进行信息交互。同时，该装置还包括总线84，处理器82、通信接口83、以及存储器81通过总线84完成相互间的通信。

存储器81可以包含高速RAM(Random Access Memory，随机存取存储器)，也可还包括NVM(Non-Volatile Memory，非易失性存储器)。例如至少一个磁盘存储器。存储器81也可以是存储器阵列。存储器81还可能被分块，并且块可按一定的规则组合成虚拟卷。

此外，处理器82可以是一个中央处理器，或者可以是ASIC(Application SpecificIntegrated Circuit，专用集成电路)，或者是被配置成实施本公开实施例的一个或多个集成电路。

本公开还提供一种计算机可读存储介质。计算机可读存储介质存储有计算机指令，指令被处理器执行时实现如图1和图4中任一实施例涉及的方法。

通过将本公开所提供的方案应用于手势数据集20BN-JESTER，能够获得95.6％的准确率。

至此，已经详细描述了本公开的实施例。为了避免遮蔽本公开的构思，没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述，完全可以明白如何实施这里公开的技术方案。

虽然已经通过示例对本公开的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上示例仅是为了进行说明，而不是为了限制本公开的范围。本领域的技术人员应该理解，可在不脱离本公开的范围和精神的情况下，对以上实施例进行修改或者对部分技术特征进行等同替换。本公开的范围由所附权利要求来限定。

Claims

1.一种视频识别方法，包括：

从视频中提取出图像和光流图；

利用第一机器学习模型对所述图像进行分类处理，以得到第一分类结果；

利用第二机器学习模型对所述光流图进行分类处理，以得到第二分类结果，其中所述第一机器学习模型的深度大于所述第二机器学习模型的深度；

对所述第一分类结果和所述第二分类结果进行融合，以得到所述视频的识别结果；

其中，所述第一机器学习模型包括n个第一机器学习子模型、第二机器学习子模型、第一全连接层和第一分类器；

利用第一机器学习模型对所述图像进行处理包括：

将所述图像输入所述第一机器学习子模型，以得到第一特征信息，其中将所述图像划分为n个图像信息片段，所述n个图像信息片段与所述n个第一机器学习子模型一一对应，在第i个图像信息片段中，随机选择一个信息帧作为起点i₁，从起点i₁开始等间距地选择出m个信息帧，若所选择的信息帧i_j位于所述第i个图像信息片段的尾部，则继续从所述第i个图像信息片段的第一帧开始选择下一信息帧i_j+1，1≤i≤n，1≤j<m，将从所述n个图像信息片段中选择出的m个信息帧输入对应的第一机器学习子模型；

将所述第一特征信息输入所述第二机器学习子模型，以得到第二特征信息；

将所述第二特征信息输入所述第一全连接层，以得到第三特征信息；

将所述第三特征信息输入所述第一分类器，以得到所述第一分类结果；

其中，所述第二机器学习模型包括n个第一机器学习子模型、第二全连接层和第二分类器；

利用第二机器学习模型对所述光流图进行处理包括：

将所述光流图输入所述第一机器学习子模型，以得到第四特征信息，其中将所述光流图划分为n个光流图信息片段，所述n个光流图信息片段与所述n个第一机器学习子模型一一对应，在第i个光流图信息片段中，随机选择一个信息帧作为起点i₁，从起点i₁开始等间距地选择出m个信息帧，若所选择的信息帧i_j位于所述第i个光流图信息片段的尾部，则继续从所述第i个光流图信息片段的第一帧开始选择下一信息帧i_j+1，1≤i≤n，1≤j<m，将从所述n个光流图信息片段中选择出的m个信息帧输入对应的第一机器学习子模型；

将所述第四特征信息输入所述第二全连接层，以得到第五特征信息；

将所述第五特征信息输入所述第二分类器，以得到所述第二分类结果。

2.根据权利要求1所述的识别方法，其中，所述第二机器学习子模型包括多层卷积层。

3.根据权利要求2所述的识别方法，其中，

所述卷积层的数量为3层。

4.一种视频识别装置，包括：

信息提取模块，被配置为从视频中提取出图像和光流图；

处理模块，被配置为利用第一机器学习模型对所述图像进行分类处理，以得到第一分类结果，利用第二机器学习模型对所述光流图进行分类处理，以得到第二分类结果，其中所述第一机器学习模型的深度大于所述第二机器学习模型的深度；

融合模块，被配置为对所述第一分类结果和所述第二分类结果进行融合，以得到所述视频的识别结果；

所述处理模块被配置为将所述图像输入所述第一机器学习子模型，以得到第一特征信息，其中将所述图像划分为n个图像信息片段，所述n个图像信息片段与所述n个第一机器学习子模型一一对应，在第i个图像信息片段中，随机选择一个信息帧作为起点i₁，从起点i₁开始等间距地选择出m个信息帧，若所选择的信息帧i_j位于所述第i个图像信息片段的尾部，则继续从所述第i个图像信息片段的第一帧开始选择下一信息帧i_j+1，1≤i≤n，1≤j<m，将从所述n个图像信息片段中选择出的m个信息帧输入对应的第一机器学习子模型，将所述第一特征信息输入所述第二机器学习子模型，以得到第二特征信息，将所述第二特征信息输入所述第一全连接层，以得到第三特征信息，将所述第三特征信息输入所述第一分类器，以得到所述第一分类结果；

所述处理模块还被配置为将所述光流图输入所述第一机器学习子模型，以得到第四特征信息，其中将所述光流图划分为n个光流图信息片段，所述n个光流图信息片段与所述n个第一机器学习子模型一一对应，在第i个光流图信息片段中，随机选择一个信息帧作为起点i₁，从起点i₁开始等间距地选择出m个信息帧，若所选择的信息帧i_j位于所述第i个光流图信息片段的尾部，则继续从所述第i个光流图信息片段的第一帧开始选择下一信息帧i_j+1，1≤i≤n，1≤j<m，将从所述n个光流图信息片段中选择出的m个信息帧输入对应的第一机器学习子模型，将所述第四特征信息输入所述第二全连接层，以得到第五特征信息，将所述第五特征信息输入所述第二分类器，以得到所述第二分类结果。

5.根据权利要求4所述的识别装置，其中，所述第二机器学习子模型包括多层卷积层。

6.根据权利要求5所述的识别装置，其中，

所述卷积层的数量为3层。

7.一种视频识别装置，包括：

存储器，被配置为存储指令；

处理器，耦合到存储器，处理器被配置为基于存储器存储的指令执行实现如权利要求1-3中任一项所述的方法。

8.一种计算机可读存储介质，其中，计算机可读存储介质存储有计算机指令，指令被处理器执行时实现如权利要求1-3中任一项所述的方法。