CN109871828B - 视频识别方法和识别装置、存储介质 - Google Patents
视频识别方法和识别装置、存储介质 Download PDFInfo
- Publication number
- CN109871828B CN109871828B CN201910197160.2A CN201910197160A CN109871828B CN 109871828 B CN109871828 B CN 109871828B CN 201910197160 A CN201910197160 A CN 201910197160A CN 109871828 B CN109871828 B CN 109871828B
- Authority
- CN
- China
- Prior art keywords
- machine learning
- information
- learning model
- optical flow
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/75—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/28—Recognition of hand or arm movements, e.g. recognition of deaf sign language
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Algebra (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本公开提供一种视频识别方法和识别装置、存储介质。视频识别装置从视频中提取出图像和光流图,利用第一机器学习模型对图像进行分类处理,以得到第一分类结果,利用第二机器学习模型对光流图进行分类处理,以得到第二分类结果,其中第一机器学习模型的深度大于第二机器学习模型的深度,对第一分类结果和第二分类结果进行融合,以得到视频的识别结果。由于第一机器学习模型的深度大于第二机器学习模型的深度,因此能够从图像中提取出更多的特征信息,此外,本公开将两个互不相同的机器学习模型的分类结果进行融合,从而能够在识别视频的过程中,不仅借助图像自身的特征信息,还借助相邻帧之间的变化情况,从而提升视频识别的准确度。
Description
技术领域
本公开涉及图像处理领域,特别涉及一种视频识别方法和识别装置、存储介质。
背景技术
在对视频进行识别的相关技术中,通过直接对视频帧中的图像进行识别,以识别出视频中的内容。
发明内容
发明人通过研究发现,在相关技术中,仅针对视频帧中的图像进行识别,并未考虑相邻帧之间的变化情况,从而无法有效提升视频识别准确率。
据此,本公开提出一种能够提升视频识别准确率的方案。
根据本公开实施例的第一方面,提供一种视频识别方法,包括:从视频中提取出图像和光流图;利用第一机器学习模型对所述图像进行分类处理,以得到第一分类结果;利用第二机器学习模型对所述光流图进行分类处理,以得到第二分类结果,其中所述第一机器学习模型的深度大于所述第二机器学习模型的深度;对所述第一分类结果和所述第二分类结果进行融合,以得到所述视频的识别结果。
在一些实施例中,所述第一机器学习模型包括第一机器学习子模型、第二机器学习子模型、第一全连接层和第一分类器;利用第一机器学习模型对所述图像进行处理包括:将所述图像输入所述第一机器学习子模型,以得到第一特征信息;将所述第一特征信息输入所述第二机器学习子模型,以得到第二特征信息;将所述第二特征信息输入所述第一全连接层,以得到第三特征信息;将所述第三特征信息输入所述第一分类器,以得到所述第一分类结果。
在一些实施例中,所述第二机器学习子模型包括多层卷积层。
在一些实施例中,所述卷积层的数量为3层。
在一些实施例中,所述第二机器学习模型包括所述第一机器学习子模型、第二全连接层和第二分类器;利用第二机器学习模型对所述光流图进行处理包括:将所述光流图输入所述第一机器学习子模型,以得到第四特征信息;将所述第四特征信息输入所述第二全连接层,以得到第五特征信息;将所述第五特征信息输入所述第二分类器,以得到所述第二分类结果。
在一些实施例中,所述第一机器学习模型和所述第二机器学习模型分别包括预定数量个第一机器学习子模型;将输入信息输入所述第一机器学习子模型包括:将所述输入信息划分为所述预定数量个信息片段,所述信息片段与所述第一机器学习子模型一一对应,所述输入信息为所述图像或所述光流图;将所述信息片段输入对应的第一机器学习子模型。
根据本公开实施例的第二方面,提供一种视频识别装置,包括:信息提取模块,被配置为从视频中提取出图像和光流图;处理模块,被配置为利用第一机器学习模型对所述图像进行分类处理,以得到第一分类结果,利用第二机器学习模型对所述光流图进行分类处理,以得到第二分类结果,其中所述第一机器学习模型的深度大于所述第二机器学习模型的深度;融合模块,被配置为对所述第一分类结果和所述第二分类结果进行融合,以得到所述视频的识别结果。
在一些实施例中,所述第一机器学习模型包括第一机器学习子模型、第二机器学习子模型、第一全连接层和第一分类器;所述处理模块被配置为将所述图像输入所述第一机器学习子模型,以得到第一特征信息,将所述第一特征信息输入所述第二机器学习子模型,以得到第二特征信息,将所述第二特征信息输入所述第一全连接层,以得到第三特征信息,将所述第三特征信息输入所述第一分类器,以得到所述第一分类结果。
在一些实施例中,所述第二机器学习子模型包括多层卷积层。
在一些实施例中,所述卷积层的数量为3层。
在一些实施例中,所述第二机器学习模型包括所述第一机器学习子模型、第二全连接层和第二分类器;所述处理模块还被配置为将所述光流图输入所述第一机器学习子模型,以得到第四特征信息,将所述第四特征信息输入所述第二全连接层,以得到第五特征信息,将所述第五特征信息输入所述第二分类器,以得到所述第二分类结果。
在一些实施例中,所述第一机器学习模型和所述第二机器学习模型分别包括预定数量个第一机器学习子模型;所述处理模块还被配置为将输入信息划分为所述预定数量个信息片段,所述信息片段与所述第一机器学习子模型一一对应,所述输入信息为所述图像或所述光流图,将所述信息片段输入对应的第一机器学习子模型。
根据本公开实施例的第三方面,提供一种视频识别装置,包括:存储器,被配置为存储指令;处理器,耦合到存储器,处理器被配置为基于存储器存储的指令执行实现如上述任一实施例所述的方法。
根据本公开实施例的第四方面,提供一种计算机可读存储介质,其中,计算机可读存储介质存储有计算机指令,指令被处理器执行时实现如上述任一实施例涉及的方法。
通过以下参照附图对本公开的示例性实施例的详细描述,本公开的其它特征及其优点将会变得清楚。
附图说明
构成说明书的一部分的附图描述了本公开的实施例,并且连同说明书一起用于解释本公开的原理。
参照附图,根据下面的详细描述,可以更加清楚地理解本公开,其中:
图1是根据本公开一个实施例的视频识别方法的流程示意图;
图2是根据本公开一个实施例的机器学习模型的结构示意图;
图3是根据本公开另一个实施例的机器学习模型的结构示意图;
图4是根据本公开另一个实施例的视频识别方法的流程示意图;
图5是根据本公开又一个实施例的机器学习模型的结构示意图;
图6是根据本公开一个实施例的信息划分示意图;
图7是根据本公开一个实施例的视频识别装置的结构示意图;
图8是根据本公开另一个实施例的视频识别装置的结构示意图。
应当明白,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。此外,相同或类似的参考标号表示相同或类似的构件。
具体实施方式
现在将参照附图来详细描述本公开的各种示例性实施例。对示例性实施例的描述仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。本公开可以以许多不同的形式实现,不限于这里所述的实施例。提供这些实施例是为了使本公开透彻且完整,并且向本领域技术人员充分表达本公开的范围。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、材料的组分和数值应被解释为仅仅是示例性的,而不是作为限制。
本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的部分。“包括”或者“包含”等类似的词语意指在该词前的要素涵盖在该词后列举的要素,并不排除也涵盖其他要素的可能。
本公开使用的所有术语(包括技术术语或者科学术语)与本公开所属领域的普通技术人员理解的含义相同,除非另外特别定义。还应当理解,在诸如通用字典中定义的术语应当被解释为具有与它们在相关技术的上下文中的含义相一致的含义,而不应用理想化或极度形式化的意义来解释,除非这里明确地这样定义。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
图1是根据本公开一个实施例的视频识别方法的流程示意图。在一些实施例中,视频识别方法由视频识别装置执行。
在步骤101,从视频中提取出图像和光流图。
这里需要说明的是,所提取出的图像是视频中的一帧。例如,所提取出的图像是RGB颜色空间中的图像,或者是其它颜色空间中的图像。
此外,光流图用来描述视频中相邻帧之间的变化情况。
在步骤102,利用第一机器学习模型对图像进行分类处理,以得到第一分类结果。
在步骤103,利用第二机器学习模型对光流图进行分类处理,以得到第二分类结果。第一机器学习模型的深度大于第二机器学习模型的深度。
这里需要说明的是,图像的纹理和色彩比较丰富,而光流图的纹理和内容相对单一。因此通过增加处理图像的第一机器学习模型的深度,能够进一步提取出图像中所包含的特征信息。由此可提升视频识别的准确度。
在一些实施例中,第一机器学习模型和第二机器学习模型为经过训练的神经网络。例如,第一机器学习模型和第二机器学习模型为经过训练的卷积神经网络。
在步骤104,对第一分类结果和第二分类结果进行融合,以得到视频的识别结果。
在一些实施例中,可通过计算第一分类结果和第二分类结果的平均值、加权平均值或其它适当的方式,将第一分类结果和第二分类结果进行融合。
例如,利用上述实施例对视频片段进行识别,第一机器学习模型输出的第一分类结果为:用户仅伸出右手食指的概率为0.7,用户同时伸出右手的拇指和食指的概率为0.2,其它情况的概率为0.1。第二机器学习模型输出的第二分类结果为:用户仅伸出右手食指的概率为0.8,用户同时伸出右手的拇指和食指的概率为0.1,其它情况的概率为0.1。若第一机器学习模型的权值为2,第二机器学习模型的权值为1,则在融合过程中,用户仅伸出右手食指的概率为:
(2×0.7+1×0.8)/3=0.733
而用户同时伸出右手的拇指和食指的概率为:
(2×0.2+1×0.1)/3=0.167
由于0.733>0.167,因此判定出在所识别的视频中,用户仅伸出了右手食指。
图2是根据本公开一个实施例的机器学习模型的结构示意图。如图2所示,机器学习模型20中包括第一机器学习模型21和第二机器学习模型22。第一机器学习模型21的深度大于第二机器学习模型22的深度。
在一些实施例中,第一机器学习模型21和第二机器学习模型22为经过训练的神经网络。例如,第一机器学习模型21和第二机器学习模型22为经过训练的卷积神经网络。
在从视频中提取出图像和光流图后,将图像输入第一机器学习模型21,将光流图输入第二机器学习模型22。第一机器学习模型21对图像进行分类处理,以得到第一分类结果。第二机器学习模型22对光流图进行分类处理,以得到第二分类结果。接下来,通过对第一分类结果和第二分类结果进行融合处理,以得到视频识别结果。
在本公开上述实施例提供的视频识别方法中,在对视频进行识别的过程中,用于图像识别的第一机器学习模型的深度大于用于光流图识别的第二机器学习模型的深度,因此能够从图像中提取出更多的特征信息。此外,本公开将两个互不相同的机器学习模型的分类结果进行融合,从而能够在识别视频的过程中,不仅借助图像自身的特征信息,还借助相邻帧之间的变化情况,从而能够提升视频识别的准确度。
图3是根据本公开另一个实施例的机器学习模型的结构示意图。图3与图2的不同之处在于,在图3所示实施例中,第一机器学习模型21包括第一机器学习子模型211、第二机器学习子模型212、第一全连接层213和第一分类器214。第二机器学习模型22包括第一机器学习子模型211、第二全连接层223和第二分类器224。
在一些实施例中,第一机器学习子模型211和第二机器学习子模型212为经过训练的神经网络。例如,第一机器学习子模型211和第二机器学习子模型212为经过训练的卷积神经网络。
在一些实施例中,第一分类器214和第二分类器224利用softmax函数进行分类处理。
图4是根据本公开另一个实施例的视频识别方法的流程示意图。所使用的机器学习模型如图3所示。在一些实施例中,视频识别方法由视频识别装置执行。
在步骤401,从视频中提取出图像和光流图。
在步骤402,将图像输入第一机器学习子模型,以得到第一特征信息。
在步骤403,将第一特征信息输入第二机器学习子模型,以得到第二特征信息。
在步骤404,将第二特征信息输入第一全连接层,以得到第三特征信息。
第一全连接层能够将第二特征信息中的局部特征转换为全局特征,以便提升视频识别的准确度。
在步骤405,将第三特征信息输入第一分类器,以得到第一分类结果。
在步骤406,将光流图输入第一机器学习子模型,以得到第四特征信息。
在步骤407,将第四特征信息输入第二全连接层,以得到第五特征信息。
第二全连接层能够将第四特征信息中的局部特征转换为全局特征,以便提升视频识别的准确度。
在步骤408,将第五特征信息输入第二分类器,以得到第二分类结果。
在步骤409,对第一分类结果和第二分类结果进行融合,以得到视频的识别结果。
这里需要说明的是,在第二机器学习子模型包括多层卷积层的情况下,随着卷积层的层数的增加,视频识别准确度会随之提升。但在卷积层的层数超过门限值后,视频识别准确度并不会得到进一步改善,同时还导致计算成本显著增加。
在一些实施例中,第二机器学习子模型中的卷积层的层数为3层。由此,既可以得到理想的视频识别准确度,又能够将计算成本控制在可接受范围内。
图5是根据本公开又一个实施例的机器学习模型的结构示意图。图5与图3的不同之处在于,在图5所示实施例中,第一机器学习模型21中包括多个第一机器学习子模型211。第二机器学习模型22中包括多个第一机器学习子模型211。这些第一机器学习子模型211能够相互独立地对输入信息进行处理,从而能够有效提升处理效率。
在一些实施例中,第一机器学习模型21中的第一机器学习子模型211的数量与第二机器学习模型22中的第一机器学习子模型211的数量相同。
在一些实施例中,在第一机器学习模型21和第二机器学习模型22中分别设置3个第一机器学习子模型211。由此,既可以得到理想的处理速度,又能够将计算成本控制在可接受范围内。
图6是根据本公开一个实施例的信息划分示意图。
如图6所示,从视频段V中提取出图像P和光流图F。在第一机器学习模型包括n个第一机器学习子模型的情况下,将输入给第一机器学习模型的图像P也划分为n个信息片段P1、P2、…、Pn。信息片段与第一机器学习子模型一一对应。接下来,将P1输入对应的第一机器学习子模型C11,将P2输入对应的第一机器学习子模型C12,…,将Pn输入对应的第一机器学习子模型C1n。
在一些实施例中,信息片段P1、P2、…、Pn的长度相同。由此能够将计算负载进行均匀分配,从而提升整体的处理效率。
此外,在第二机器学习模型包括n个第一机器学习子模型的情况下,将输入给第二机器学习模型的光流图F也划分为n个信息片段F1、F2、…、Fn。信息片段与第一机器学习子模型一一对应。接下来,将F1输入对应的第一机器学习子模型C21,将F2输入对应的第一机器学习子模型C22,…,将Fn输入对应的第一机器学习子模型C2n。
在一些实施例中,信息片段F1、F2、…、Fn的长度相同。由此能够将计算负载进行均匀分配,从而提升整体的处理效率。
在一些实施例中,从每个信息片段中以预定间隔提取出多个信息帧。将提取出的多个信息帧输入对应的第一机器学习子模型,由此可减小第一机器学习子模型的信息处理量。
例如,从信息片段P1中随机选择一个起点i1。然后从起点i1开始,在信息片段P1中等间距地选择出m个信息帧i1、i2、…、im。若在选择过程中,所选择的信息帧ij位于信息片段P1的尾部,则继续从信息片段P1的第一帧开始选择下一信息帧ij+1。
需要说明的是,虽然在附图中以一定顺序示出了各个方法步骤,但是这不意味着方法步骤必须以所示出的顺序来执行,相反在不背离本发明的精神和原则的情况下可以以相反或并行的顺序被执行。
图7是根据本公开一个实施例的视频识别装置的结构示意图。如图7所示,视频识别装置包括信息提取模块71、处理模块72和融合模块73。
信息提取模块71从视频中提取出图像和光流图。
这里需要说明的是,所提取出的图像是视频中的一帧。例如,所提取出的图像是RGB颜色空间中的图像,或者是其它颜色空间中的图像。
此外,光流图用来描述视频中相邻帧之间的变化情况。
处理模块72利用第一机器学习模型对所述图像进行分类处理,以得到第一分类结果,利用第二机器学习模型对所述光流图进行分类处理,以得到第二分类结果。第一机器学习模型的深度大于第二机器学习模型的深度。
这里需要说明的是,图像的纹理和色彩比较丰富,而光流图的纹理和内容相对单一。因此通过增加处理图像的第一机器学习模型的深度,能够进一步提取出图像中所包含的特征信息。由此可提升视频识别的准确度。
在一些实施例中,第一机器学习模型和第二机器学习模型为经过训练的神经网络。例如,第一机器学习模型和第二机器学习模型为经过训练的卷积神经网络。
融合模块73对第一分类结果和第二分类结果进行融合,以得到视频的识别结果。
在一些实施例中,可通过计算第一分类结果和第二分类结果的平均值、加权平均值或其它适当的方式,将第一分类结果和第二分类结果进行融合。
在本公开上述实施例提供的视频识别装置中,在对视频进行识别的过程中,用于图像识别的第一机器学习模型的深度大于用于光流图识别的第二机器学习模型的深度,因此能够从图像中提取出更多的特征信息。此外,本公开将两个互不相同的机器学习模型的分类结果进行融合,从而能够在识别视频的过程中,不仅借助图像自身的特征信息,还借助相邻帧之间的变化情况,从而提升视频识别的准确度。
在一些实施例中,如图3所示,第一机器学习模型包括第一机器学习子模型、第二机器学习子模型、第一全连接层和第一分类器。
处理模块72将所述图像输入所述第一机器学习子模型,以得到第一特征信息。处理模块72将所述第一特征信息输入所述第二机器学习子模型,以得到第二特征信息。处理模块72将所述第二特征信息输入所述第一全连接层,以得到第三特征信息。处理模块72将所述第三特征信息输入所述第一分类器,以得到所述第一分类结果。
在一些实施例中,第一分类器利用softmax函数进行分类处理。
在一些实施例中,第二机器学习子模型中包括多层卷积层。例如,第二机器学习子模型中的卷积层的层数为3层。由此,既可以得到理想的视频识别准确度,又能够将计算成本控制在可接受范围内。
在一些实施例中,如图3所示,第二机器学习模型包括第一机器学习子模型、第二全连接层和第二分类器。
处理模块72将所述光流图输入所述第一机器学习子模型,以得到第四特征信息。处理模块72将所述第四特征信息输入所述第二全连接层,以得到第五特征信息。处理模块72将所述第五特征信息输入所述第二分类器,以得到所述第二分类结果。
在一些实施例中,如图5所示,第一机器学习模型和第二机器学习模型分别包括预定数量个第一机器学习子模型。
如图6所示,在第一机器学习模型包括n个第一机器学习子模型的情况下,处理模块72将输入给第一机器学习模型的图像P划分为n个信息片段P1、P2、…、Pn。信息片段与第一机器学习子模型一一对应。接下来,处理模块72将每个信息片段输入第一机器学习模型中对应的第一机器学习子模型。
在一些实施例中,信息片段P1、P2、…、Pn的长度相同。由此能够将计算负载进行均匀分配,从而提升整体的处理效率。
此外,在第二机器学习模型包括n个第一机器学习子模型的情况下,处理模块72将输入给第二机器学习模型的光流图F划分为n个信息片段F1、F2、…、Fn。信息片段与第一机器学习子模型一一对应。接下来,处理模块72将每个信息片段输入第二机器学习模型中对应的第一机器学习子模型。
在一些实施例中,各信息片段F1、F2、…、Fn的长度相同。由此能够将计算负载进行均匀分配,从而提升整体的处理效率。
在一些实施例中,从每个信息片段中以预定间隔提取出多个信息帧。将提取出的多个信息帧输入对应的第一机器学习子模型,由此可减小第一机器学习子模型的信息处理量。
在一些实施例中,上述功能模块可以实现为用于执行本公开所描述功能的通用处理器、可编程逻辑控制器(Programmable Logic Controller,简称:PLC)、数字信号处理器(Digital Signal Processor,简称:DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称:ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称:FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件或者其任意适当组合。
图8是根据本公开另一个实施例的视频识别装置的结构示意图。如图8所示,视频识别装置包括存储器81和处理器82。
存储器81用于存储指令。处理器82耦合到存储器81。处理器82被配置为基于存储器存储的指令执行实现如图1和图4中任一实施例涉及的方法。
如图8所示,视频识别装置还包括通信接口83,用于与其它设备进行信息交互。同时,该装置还包括总线84,处理器82、通信接口83、以及存储器81通过总线84完成相互间的通信。
存储器81可以包含高速RAM(Random Access Memory,随机存取存储器),也可还包括NVM(Non-Volatile Memory,非易失性存储器)。例如至少一个磁盘存储器。存储器81也可以是存储器阵列。存储器81还可能被分块,并且块可按一定的规则组合成虚拟卷。
此外,处理器82可以是一个中央处理器,或者可以是ASIC(Application SpecificIntegrated Circuit,专用集成电路),或者是被配置成实施本公开实施例的一个或多个集成电路。
本公开还提供一种计算机可读存储介质。计算机可读存储介质存储有计算机指令,指令被处理器执行时实现如图1和图4中任一实施例涉及的方法。
通过将本公开所提供的方案应用于手势数据集20BN-JESTER,能够获得95.6%的准确率。
至此,已经详细描述了本公开的实施例。为了避免遮蔽本公开的构思,没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述,完全可以明白如何实施这里公开的技术方案。
虽然已经通过示例对本公开的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本公开的范围。本领域的技术人员应该理解,可在不脱离本公开的范围和精神的情况下,对以上实施例进行修改或者对部分技术特征进行等同替换。本公开的范围由所附权利要求来限定。
Claims (8)
1.一种视频识别方法,包括:
从视频中提取出图像和光流图;
利用第一机器学习模型对所述图像进行分类处理,以得到第一分类结果;
利用第二机器学习模型对所述光流图进行分类处理,以得到第二分类结果,其中所述第一机器学习模型的深度大于所述第二机器学习模型的深度;
对所述第一分类结果和所述第二分类结果进行融合,以得到所述视频的识别结果;
其中,所述第一机器学习模型包括n个第一机器学习子模型、第二机器学习子模型、第一全连接层和第一分类器;
利用第一机器学习模型对所述图像进行处理包括:
将所述图像输入所述第一机器学习子模型,以得到第一特征信息,其中将所述图像划分为n个图像信息片段,所述n个图像信息片段与所述n个第一机器学习子模型一一对应,在第i个图像信息片段中,随机选择一个信息帧作为起点i1,从起点i1开始等间距地选择出m个信息帧,若所选择的信息帧ij位于所述第i个图像信息片段的尾部,则继续从所述第i个图像信息片段的第一帧开始选择下一信息帧ij+1,1≤i≤n,1≤j<m,将从所述n个图像信息片段中选择出的m个信息帧输入对应的第一机器学习子模型;
将所述第一特征信息输入所述第二机器学习子模型,以得到第二特征信息;
将所述第二特征信息输入所述第一全连接层,以得到第三特征信息;
将所述第三特征信息输入所述第一分类器,以得到所述第一分类结果;
其中,所述第二机器学习模型包括n个第一机器学习子模型、第二全连接层和第二分类器;
利用第二机器学习模型对所述光流图进行处理包括:
将所述光流图输入所述第一机器学习子模型,以得到第四特征信息,其中将所述光流图划分为n个光流图信息片段,所述n个光流图信息片段与所述n个第一机器学习子模型一一对应,在第i个光流图信息片段中,随机选择一个信息帧作为起点i1,从起点i1开始等间距地选择出m个信息帧,若所选择的信息帧ij位于所述第i个光流图信息片段的尾部,则继续从所述第i个光流图信息片段的第一帧开始选择下一信息帧ij+1,1≤i≤n,1≤j<m,将从所述n个光流图信息片段中选择出的m个信息帧输入对应的第一机器学习子模型;
将所述第四特征信息输入所述第二全连接层,以得到第五特征信息;
将所述第五特征信息输入所述第二分类器,以得到所述第二分类结果。
2.根据权利要求1所述的识别方法,其中,所述第二机器学习子模型包括多层卷积层。
3.根据权利要求2所述的识别方法,其中,
所述卷积层的数量为3层。
4.一种视频识别装置,包括:
信息提取模块,被配置为从视频中提取出图像和光流图;
处理模块,被配置为利用第一机器学习模型对所述图像进行分类处理,以得到第一分类结果,利用第二机器学习模型对所述光流图进行分类处理,以得到第二分类结果,其中所述第一机器学习模型的深度大于所述第二机器学习模型的深度;
融合模块,被配置为对所述第一分类结果和所述第二分类结果进行融合,以得到所述视频的识别结果;
其中,所述第一机器学习模型包括n个第一机器学习子模型、第二机器学习子模型、第一全连接层和第一分类器;
所述处理模块被配置为将所述图像输入所述第一机器学习子模型,以得到第一特征信息,其中将所述图像划分为n个图像信息片段,所述n个图像信息片段与所述n个第一机器学习子模型一一对应,在第i个图像信息片段中,随机选择一个信息帧作为起点i1,从起点i1开始等间距地选择出m个信息帧,若所选择的信息帧ij位于所述第i个图像信息片段的尾部,则继续从所述第i个图像信息片段的第一帧开始选择下一信息帧ij+1,1≤i≤n,1≤j<m,将从所述n个图像信息片段中选择出的m个信息帧输入对应的第一机器学习子模型,将所述第一特征信息输入所述第二机器学习子模型,以得到第二特征信息,将所述第二特征信息输入所述第一全连接层,以得到第三特征信息,将所述第三特征信息输入所述第一分类器,以得到所述第一分类结果;
其中,所述第二机器学习模型包括n个第一机器学习子模型、第二全连接层和第二分类器;
所述处理模块还被配置为将所述光流图输入所述第一机器学习子模型,以得到第四特征信息,其中将所述光流图划分为n个光流图信息片段,所述n个光流图信息片段与所述n个第一机器学习子模型一一对应,在第i个光流图信息片段中,随机选择一个信息帧作为起点i1,从起点i1开始等间距地选择出m个信息帧,若所选择的信息帧ij位于所述第i个光流图信息片段的尾部,则继续从所述第i个光流图信息片段的第一帧开始选择下一信息帧ij+1,1≤i≤n,1≤j<m,将从所述n个光流图信息片段中选择出的m个信息帧输入对应的第一机器学习子模型,将所述第四特征信息输入所述第二全连接层,以得到第五特征信息,将所述第五特征信息输入所述第二分类器,以得到所述第二分类结果。
5.根据权利要求4所述的识别装置,其中,所述第二机器学习子模型包括多层卷积层。
6.根据权利要求5所述的识别装置,其中,
所述卷积层的数量为3层。
7.一种视频识别装置,包括:
存储器,被配置为存储指令;
处理器,耦合到存储器,处理器被配置为基于存储器存储的指令执行实现如权利要求1-3中任一项所述的方法。
8.一种计算机可读存储介质,其中,计算机可读存储介质存储有计算机指令,指令被处理器执行时实现如权利要求1-3中任一项所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910197160.2A CN109871828B (zh) | 2019-03-15 | 2019-03-15 | 视频识别方法和识别装置、存储介质 |
US16/523,124 US11113536B2 (en) | 2019-03-15 | 2019-07-26 | Video identification method, video identification device, and storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910197160.2A CN109871828B (zh) | 2019-03-15 | 2019-03-15 | 视频识别方法和识别装置、存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109871828A CN109871828A (zh) | 2019-06-11 |
CN109871828B true CN109871828B (zh) | 2022-12-02 |
Family
ID=66920488
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910197160.2A Active CN109871828B (zh) | 2019-03-15 | 2019-03-15 | 视频识别方法和识别装置、存储介质 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11113536B2 (zh) |
CN (1) | CN109871828B (zh) |
Families Citing this family (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018176000A1 (en) | 2017-03-23 | 2018-09-27 | DeepScale, Inc. | Data synthesis for autonomous control systems |
US11409692B2 (en) | 2017-07-24 | 2022-08-09 | Tesla, Inc. | Vector computational unit |
US11157441B2 (en) | 2017-07-24 | 2021-10-26 | Tesla, Inc. | Computational array microprocessor system using non-consecutive data formatting |
US11893393B2 (en) | 2017-07-24 | 2024-02-06 | Tesla, Inc. | Computational array microprocessor system with hardware arbiter managing memory requests |
US10671349B2 (en) | 2017-07-24 | 2020-06-02 | Tesla, Inc. | Accelerated mathematical engine |
US11561791B2 (en) | 2018-02-01 | 2023-01-24 | Tesla, Inc. | Vector computational unit receiving data elements in parallel from a last row of a computational array |
US11215999B2 (en) | 2018-06-20 | 2022-01-04 | Tesla, Inc. | Data pipeline and deep learning system for autonomous driving |
US11361457B2 (en) | 2018-07-20 | 2022-06-14 | Tesla, Inc. | Annotation cross-labeling for autonomous control systems |
US11636333B2 (en) | 2018-07-26 | 2023-04-25 | Tesla, Inc. | Optimizing neural network structures for embedded systems |
US11562231B2 (en) | 2018-09-03 | 2023-01-24 | Tesla, Inc. | Neural networks for embedded devices |
JP2022504713A (ja) | 2018-10-11 | 2022-01-13 | テスラ,インコーポレイテッド | 拡張データによって機械モデルを訓練するためのシステムおよび方法 |
US11196678B2 (en) | 2018-10-25 | 2021-12-07 | Tesla, Inc. | QOS manager for system on a chip communications |
US11816585B2 (en) | 2018-12-03 | 2023-11-14 | Tesla, Inc. | Machine learning models operating at different frequencies for autonomous vehicles |
US11537811B2 (en) | 2018-12-04 | 2022-12-27 | Tesla, Inc. | Enhanced object detection for autonomous vehicles based on field view |
US11610117B2 (en) | 2018-12-27 | 2023-03-21 | Tesla, Inc. | System and method for adapting a neural network model on a hardware platform |
US10997461B2 (en) | 2019-02-01 | 2021-05-04 | Tesla, Inc. | Generating ground truth for machine learning from time series elements |
US11150664B2 (en) | 2019-02-01 | 2021-10-19 | Tesla, Inc. | Predicting three-dimensional features for autonomous driving |
US11567514B2 (en) | 2019-02-11 | 2023-01-31 | Tesla, Inc. | Autonomous and user controlled vehicle summon to a target |
US10956755B2 (en) | 2019-02-19 | 2021-03-23 | Tesla, Inc. | Estimating object properties using visual image data |
CN110287816B (zh) * | 2019-06-05 | 2021-12-28 | 北京字节跳动网络技术有限公司 | 车门动作检测方法、装置和计算机可读存储介质 |
CN112308100A (zh) * | 2019-07-30 | 2021-02-02 | 顺丰科技有限公司 | 装卸口状态检测方法、装置、服务器及存储器 |
CN112507920B (zh) * | 2020-12-16 | 2023-01-24 | 重庆交通大学 | 一种基于时间位移和注意力机制的考试异常行为识别方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107480725A (zh) * | 2017-08-23 | 2017-12-15 | 京东方科技集团股份有限公司 | 基于深度学习的图像识别方法、装置和计算机设备 |
Family Cites Families (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130215116A1 (en) * | 2008-03-21 | 2013-08-22 | Dressbot, Inc. | System and Method for Collaborative Shopping, Business and Entertainment |
GB2458388A (en) * | 2008-03-21 | 2009-09-23 | Dressbot Inc | A collaborative online shopping environment, virtual mall, store, etc. in which payments may be shared, products recommended and users modelled. |
US9848112B2 (en) * | 2014-07-01 | 2017-12-19 | Brain Corporation | Optical detection apparatus and methods |
US10289912B1 (en) * | 2015-04-29 | 2019-05-14 | Google Llc | Classifying videos using neural networks |
US20170109584A1 (en) * | 2015-10-20 | 2017-04-20 | Microsoft Technology Licensing, Llc | Video Highlight Detection with Pairwise Deep Ranking |
US9904874B2 (en) * | 2015-11-05 | 2018-02-27 | Microsoft Technology Licensing, Llc | Hardware-efficient deep convolutional neural networks |
US10083378B2 (en) * | 2015-12-28 | 2018-09-25 | Qualcomm Incorporated | Automatic detection of objects in video images |
CN105976400B (zh) * | 2016-05-10 | 2017-06-30 | 北京旷视科技有限公司 | 基于神经网络模型的目标跟踪方法及装置 |
CN106599789B (zh) | 2016-07-29 | 2019-10-11 | 北京市商汤科技开发有限公司 | 视频类别识别方法和装置、数据处理装置和电子设备 |
CN106952269B (zh) * | 2017-02-24 | 2019-09-20 | 北京航空航天大学 | 近邻可逆的视频前景物体序列检测分割方法及*** |
CN107239733A (zh) * | 2017-04-19 | 2017-10-10 | 上海嵩恒网络科技有限公司 | 连续手写字识别方法及*** |
CN107168527B (zh) * | 2017-04-25 | 2019-10-18 | 华南理工大学 | 基于区域卷积神经网络的第一视角手势识别与交互方法 |
CN107341480A (zh) * | 2017-07-12 | 2017-11-10 | 中国电子科技集团公司第二十八研究所 | 一种改进型pccnn神经网络模型的人群聚集检测方法 |
CN107463949B (zh) * | 2017-07-14 | 2020-02-21 | 北京协同创新研究院 | 一种视频动作分类的处理方法及装置 |
WO2019032604A1 (en) * | 2017-08-08 | 2019-02-14 | Reald Spark, Llc | ADJUSTING A DIGITAL REPRESENTATION OF A HEADQUARTERS |
US10579897B2 (en) * | 2017-10-02 | 2020-03-03 | Xnor.ai Inc. | Image based object detection |
CN108154196B (zh) * | 2018-01-19 | 2019-10-22 | 百度在线网络技术(北京)有限公司 | 用于输出图像的方法和装置 |
WO2019168765A1 (en) * | 2018-02-27 | 2019-09-06 | Portland State University | Context-aware synthesis for video frame interpolation |
US11080590B2 (en) * | 2018-03-21 | 2021-08-03 | Nvidia Corporation | Stereo depth estimation using deep neural networks |
US11640519B2 (en) * | 2018-10-31 | 2023-05-02 | Sony Interactive Entertainment Inc. | Systems and methods for domain adaptation in neural networks using cross-domain batch normalization |
US11636681B2 (en) * | 2018-11-21 | 2023-04-25 | Meta Platforms, Inc. | Anticipating future video based on present video |
CN113167779A (zh) * | 2018-12-10 | 2021-07-23 | 克莱米特公司 | 使用数字图像和机器学习模型对田地异常绘制地图 |
US11170299B2 (en) * | 2018-12-28 | 2021-11-09 | Nvidia Corporation | Distance estimation to objects and free-space boundaries in autonomous machine applications |
US11544928B2 (en) * | 2019-06-17 | 2023-01-03 | The Regents Of The University Of California | Athlete style recognition system and method |
-
2019
- 2019-03-15 CN CN201910197160.2A patent/CN109871828B/zh active Active
- 2019-07-26 US US16/523,124 patent/US11113536B2/en active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107480725A (zh) * | 2017-08-23 | 2017-12-15 | 京东方科技集团股份有限公司 | 基于深度学习的图像识别方法、装置和计算机设备 |
Also Published As
Publication number | Publication date |
---|---|
US11113536B2 (en) | 2021-09-07 |
CN109871828A (zh) | 2019-06-11 |
US20200293786A1 (en) | 2020-09-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109871828B (zh) | 视频识别方法和识别装置、存储介质 | |
CN109492666B (zh) | 图像识别模型训练方法、装置及存储介质 | |
Naik et al. | Streetscore-predicting the perceived safety of one million streetscapes | |
CN112380921A (zh) | 一种基于车联网的道路检测方法 | |
CN111611947B (zh) | 一种车牌检测方法、装置、设备及介质 | |
CN101710334A (zh) | 基于图像哈希的大规模图像库检索方法 | |
CN111325245B (zh) | 重复图像识别方法、装置、电子设备及计算机可读存储介质 | |
CN109657715B (zh) | 一种语义分割方法、装置、设备及介质 | |
CN114821238B (zh) | 基于全局细节补充的卷积神经网络的图像识别方法及*** | |
CN115937655B (zh) | 多阶特征交互的目标检测模型及其构建方法、装置及应用 | |
CN112257758A (zh) | 细粒度图像识别方法、卷积神经网络及其训练方法 | |
CN114283350B (zh) | 视觉模型训练和视频处理方法、装置、设备及存储介质 | |
WO2020258902A1 (zh) | 图像生成和神经网络训练方法、装置、设备和介质 | |
CN112906623A (zh) | 一种基于多尺度深度监督的反向注意力模型 | |
JP2019508803A (ja) | ニューラルネットワークモデルの訓練方法、装置及び電子機器 | |
CN110363830B (zh) | 元素图像生成方法、装置及*** | |
CN111461211A (zh) | 一种用于轻量级目标检测的特征提取方法及相应检测方法 | |
CN111832580A (zh) | 结合少样本学习与目标属性特征的sar目标识别方法 | |
WO2024088269A1 (zh) | 文字识别方法、装置、电子设备及介质 | |
CN109447943B (zh) | 一种目标检测方法、***及终端设备 | |
CN113450297A (zh) | 红外图像和可见光图像的融合模型构建方法及*** | |
Kim et al. | Keypoint aware robust representation for transformer-based re-identification of occluded person | |
CN112183513B (zh) | 一种图像中文字的识别方法、装置、电子设备及存储介质 | |
CN112380919A (zh) | 一种车辆类别统计方法 | |
CN114175053A (zh) | 转换装置、转换方法、程序以及信息记录介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |