CN111310516A - 一种行为识别方法和装置 - Google Patents
一种行为识别方法和装置 Download PDFInfo
- Publication number
- CN111310516A CN111310516A CN201811510291.3A CN201811510291A CN111310516A CN 111310516 A CN111310516 A CN 111310516A CN 201811510291 A CN201811510291 A CN 201811510291A CN 111310516 A CN111310516 A CN 111310516A
- Authority
- CN
- China
- Prior art keywords
- convolutional neural
- neural network
- network
- behavior recognition
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本申请提供一种行为识别方法和装置,该方法包括:将预设数量的连续视频帧输入预先训练的2D卷积神经网络,以得到所述视频帧的表观特征;将所述视频帧的表观特征输入预先训练的1D卷积神经网络,以得到所述视频帧的时空特征;将所述视频帧的时空特征输入预先训练的分类网络,以得到所述视频帧的行为识别结果。该方法可以提高行为识别的效率。
Description
技术领域
本申请涉及计算机视觉领域技术,尤其涉及一种行为识别方法和装置。
背景技术
计算机视觉是使用计算机及相关设备对生物视觉的一种模拟。它的主要任务就是通过对采集的图片或视频进行处理以获得相应场景的三维信息,行为识别属于计算机视觉领域的一个热门的研究方向。
目前的行为识别方案主要通过将连续视频帧(一般为RGB(Red,Green,Blue,红绿蓝)图像)送入3D卷积神经网络,基于3D卷积进行视频帧的时空特征提取,然后送入分类器进行行为识别。
然而实践发现,上述行为识别方案计算量大,且3D卷积神经网络模型参数多,难以训练。
发明内容
有鉴于此,本申请提供一种行为识别方法和装置。
具体地,本申请是通过如下技术方案实现的:
根据本申请实施例的第一方面,提供一种行为识别方法,包括:
将预设数量的连续视频帧输入预先训练的2D卷积神经网络,以得到所述视频帧的表观特征;
将所述视频帧的表观特征输入预先训练的1D卷积神经网络,以得到所述视频帧的时空特征;
将所述视频帧的时空特征输入预先训练的分类网络,以得到所述视频帧的行为识别结果。
根据本申请实施例的第二方面,提供一种行为识别装置,包括:
表观特征提取单元,用于将预设数量的连续视频帧输入预先训练的2D卷积神经网络,以得到所述视频帧的表观特征;
时序特征提取单元,用于将所述视频帧的表观特征输入预先训练的1D卷积神经网络,以得到所述视频帧的时空特征;
行为识别单元,用于将所述视频帧的时空特征输入预先训练的分类网络,以得到所述视频帧的行为识别结果。
根据本申请实施例的第三方面,提供一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述行为识别方法。
根据本申请实施例的第四方面,提供一种机器可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述行为识别方法。
本申请实施例的行为识别方法,通过将预设数量的连续视频帧输入预先训练的2D卷积神经网络,以得到该预设数量的连续视频帧的表观特征,并将该预设数量的连续视频帧的表观特征输入预先训练的1D卷积神经网络,以得到该预设数量的连续视频帧的时空特征,进而,可以将该预设数量的连续视频帧的时空特征输入预先训练的分类网络,以得到该预设数量的连续视频帧的行为识别结果,通过将2D卷积神经网络和1D卷积神经网络进行组合,不仅可以有效地进行时空特征的提取,且模型参数量较少,易于训练,从而可以提高行为识别的效率。
附图说明
图1是本申请一示例性实施例示出的一种行为识别方法的流程图;
图2是本申请一示例性实施例示出的一种级联卷积神经网络训练方法的流程图;
图3A是本申请一示例性实施例示出的一种表观特征提取的示意图;
图3B是本申请一示例性实施例示出的一种时序特征提取的示意图;
图3C是本申请一示例性实施例示出的一种行为识别的示意图;
图4是本申请一示例性实施例示出的一种行为识别装置的结构示意图;
图5是本申请又一示例性实施例示出的一种行为识别装置的结构示意图;
图6是本申请又一示例性实施例示出的一种行为识别装置的结构示意图;
图7是本申请一示例性实施例示出的一种电子设备的硬件结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
为了使本领域技术人员更好地理解本申请实施例提供的技术方案,并使本申请实施例的上述目的、特征和优点能够更加明显易懂,下面结合附图对本申请实施例中技术方案作进一步详细的说明。
请参见图1,为本申请实施例提供的一种行为识别方法的流程示意图,其中,该行为识别方法可以应用于视频监控的后台服务器,如图1所示,该方法可以包括以下步骤:
步骤S100、将预设数量的连续视频帧输入预先训练的2D卷积神经网络,以得到该预设数量的连续视频帧的表观特征。
本申请实施例中,当需要对视频进行行为识别时,可以将该视频的预设数量(可以根据实际需求设定,如8帧、16帧等)的连续视频帧输入预先训练的2D卷积神经网络,以得到该预设数量的连续视频帧的表观特征(即空间特征)。
其中,对于一帧视频图像,其通过上述预先训练的2D卷积神经网络进行提取得到的表观特征的空间维度为1,即对于一帧视频图像通过2D卷积神经网络进行表观特征提取之后,可以得到一个C维的向量,可以表示为1*C*1*1(即宽和高均为1);其中,C为该提取的表观特征的通道数。
步骤S110、将该预设数量的连续视频帧的表观特征输入预先训练的1D卷积神经网络,以得到该预设数量的连续视频帧的时空特征。
本申请实施例中,提取到预设数量的连续视频帧的表观特征之后,为了实现行为识别,还需要提取该预设数量的连续视频帧的时序特征。
本申请实施例中,为了提高时序特征的提取效率,可以通过1D卷积神经网络进行时序特征的提取。
相应地,在提取到预设数量的连续视频帧的表观特征之后,可以将该预设数量的连续视频帧的表观特征输入到预先训练的1D卷积神经网络,获取该预设数量的连续视频帧的表观特征之间的时序特征,以得到该预设数量的连续视频帧的时空特征。
步骤S120、将该预设数量的连续视频帧的时空特征输入预先训练的分类网络,以得到该预设数量的连续视频帧对应的行为识别结果。
本申请实施例中,在提取到预设数量的连续视频帧的时空特征之后,可以将该预设数量的连续视频帧的时空特征输入预先训练的分类网络,进行行为识别,以得到该预设数量的连续视频帧的行为识别结果。
在本申请其中一个实施例中,上述将该预设数量的连续视频帧的时空特征输入预先训练的分类网络,以得到该预设数量的连续视频帧的行为识别结果,可以包括:
将该预设数量的连续视频帧的时空特征输入分类网络的全连接层,以得到该预设数量的连续视频帧的多个特征值;其中,该多个特征值与分类网络的支持识别的行为类别一一对应,且特征值的数值越大,该预设数量的连续视频帧的行为识别结果中该特征值对应的行为类别的概率越大;
将该预设数量的连续视频帧的多个特征值输入分类网络的softmax层,以得到该预设数量的连续视频帧的行为识别结果中各行为类别的置信度。
在该实施例中,分类网络可以包括全连接层和softmax层。
在提取到该预设数量的连续视频帧的时空特征,可以将该预设数量的连续视频帧的时空特征输入到分类网络的全连接层;该分类网络的全连接层可以输出该预设数量的连续视频帧的多个特征值。
举例来说,假设分类网络支持识别10种行为类别,则将该预设数量的连续视频帧的时空特征输入到分类网络的全连接层之后,分类网络的全连接层会输出10个特征值,该10个特征值分别与分类网络支持识别的10种行为类别一一对应,且特征值越大,该预设数量的连续视频帧的行为识别结果中该特征值对应的行为类别的概率越大。
例如,假设分类网络的全连接层输出的10个特征值分别为T1~T10,该10个特征值对应的行为类别分别为L1~L10,且T1~T10中T3最大,T5最小,则该预设数量的连续视频帧对应的行为是L3的概率最高,L5的概率最小。
在该实施例中,对于分类网络的全连接层输出的多个特征值,可以进一步输入分类网络的softmax层进行归一化处理,以得到该预设数量的连续视频帧的行为识别结果中各行为类别的置信度。
可见,在图1所示的方法流程,通过利用2D卷积神经网络提取表观特征,利用1D卷积神经网络提取时序特征的方法,将2D卷积神经网络和1D卷积神经网络进行组合,不仅可以有效地进行时空特征的提取,且模型参数量较少,易于训练,从而可以提高行为识别的效率。
请参见图2,在本申请其中一个实施例中,级联的上述2D卷积神经网络、1D卷积神经网络以及分类网络通过以下方式进行训练得到:
步骤S100a、对于训练集中的任一训练样本,将其输入2D卷积神经网络,以得到该训练样本的表观特征。
本申请实施例中,在通过级联的上述2D卷积神经网络、1D卷积神经网络以及分类网络进行行为识别之前,需要使用包括一定数量(可以根据实际场景设定)的训练样本的训练集对上述2D卷积神经网络、1D卷积神经网络以及分类网络进行训练,直至网络收敛,再进行行为识别任务。
相应地,在该实施例中,对于训练集中的任一训练样本,可以利用2D卷积神经网络提取该训练样本中各视频帧的表观特征。
其中,训练样本可以为标注有实际行为的预设数量的连续视频帧。
步骤S100b、将该训练样本的表观特征输入1D卷积神经网络,以得到该训练样本的时空特征。
在该实施例中,在提取到训练样本中各视频帧的表观特征之后,还可以通过1D卷积神经网络提取各视频帧之间的时序特征,以得到训练样本中各视频帧的时空特征。
步骤S100c、将该训练样本的时空特征输入分类网络,以得到该训练样本的行为识别结果。
在该实施例中,在提取到训练样本中各视频帧的时空特征之后,可以将该训练样本中各视频帧的时空特征输入分类网络,进行行为识别,以得到该训练样本的行为识别结果。
在该实施例中,通过步骤S100a~步骤S100c描述的方式对训练集中各训练样本进行了行为识别之后,可以统计该训练集的行为识别结果准确率,即该训练集中行为识别正确的训练样本的数量与训练集中训练样本的数量的比值。
其中,对于训练集中的任一训练样本,当通过级联的上述2D卷积网络、1D卷积网络以及分类网络的网络组合进行行为识别的行为识别结果中置信度最高的行为类别与预先标注的训练样本的实际行为匹配时,确定该训练样本的行为识别正确;否则,确定该训练样本的行为识别不正确。
当训练集中的训练样本的行为识别结果准确率满足要求时,可以将上述2D卷积网络、1D卷积网络以及分类网络用于行为识别任务。
进一步地,在该实施例中,为了提高级联的上述2D卷积网络、1D卷积网络以及分类网络的识别精度,上述步骤S100c之后,还可以包括:
根据训练集中的训练样本的行为识别结果准确率,对级联的2D卷积神经网络、1D卷积神经网络以及分类网络的网络组合进行参数优化,直至训练集中的训练样本的行为识别结果准确率增长幅度小于预设阈值(可以称为第一阈值)。
具体地,在该实施例中,通过级联的2D卷积神经网络、1D卷积神经网络以及分类网络的网络组合对训练集中各训练样本进行了行为识别之后,可以统计训练集中训练样本的行为识别结果准确率。
举例来说,假设训练集中包括100个训练样本,假设按照上述步骤S100a~步骤S100c描述的方式对训练集中该100个训练样本进行行为识别的行为识别结果中90个训练样本的行为识别结果与训练样本预先标注的实际行为相匹配,则该训练集种训练样本的行为识别结果准确率为90%(90/100*100%=90%)。
在该实施例中,可以将训练集中训练样本反复输入上述级联的2D卷积神经网络、1D卷积神经网络以及分类网络的网络组合,根据反馈的训练集中训练样本的行为结果识别准确率对该网络组合进行参数优化,并确定当次参数优化后相对当次参数优化前的行为识别结果准确率的增长幅度,若该增长幅度大于等于预设阈值,则可以继续进行参数优化;若该增长幅度小于预设阈值,则确定该网络组合训练完成。
在一个示例中,上述对级联的2D卷积神经网络、1D卷积神经网络以及分类网络的网络组合进行参数优化,可以包括:
对2D卷积神经网络、1D卷积神经网络和/或分类网络的模型参数进行优化。
进一步地,在该实施例中,考虑到目前基于视频的训练数据较少,且标定成本较高,为了避免由于视频训练数据不足,导致模型难以训练的问题,降低上述级联的2D卷积神经网络、1D卷积神经网络以及分类网络的组合网络的训练复杂度,可以在对上述级联的2D卷积神经网络、1D卷积神经网络以及分类网络的组合网络进行训练之前,可以先对2D卷积神经网络进行预训练,以更好地初始化2D卷积神经网络的模型参数。
相应地,在一个示例中,对级联的2D卷积神经网络、1D卷积神经网络以及分类网络进行训练之前,还可以包括:
基于ImageNet(图片分类数据集)对2D卷积神经网络进行预训练。
在该示例中,为了更好地初始化2D卷积神经网络的模型参数,提高级联的2D卷积神经网络、1D卷积神经网络以及分类网络的训练效率,在对级联的2D卷积神经网络、1D卷积神经网络以及分类网络进行训练之前,可以先基于ImageNet对2D卷积神经网络进行训练,直至2D卷积神经网络的图像分类准确率的增长幅度小于预设阈值(可以称为第二阈值)。
本申请实施例中,当按照上述步骤S100a~步骤S100d描述的方式完成对上述级联的2D卷积神经网络、1D卷积神经网络以及分类网络的训练之后,可以利用训练好的2D卷积神经网络、1D卷积神经网络以及分类网络按照步骤S100~步骤S130所示的方法流程进行行为识别。
为了使本领域技术人员更好地理解本发明实施例提供的技术方案,下面结合具体实例对本申请实施例提供的技术方案进行说明。
在该实施例中,行为识别过程可以依次包括表观特征提取、时序特征提取以及行为识别,下面分别进行说明。
1、表观特征提取
在该实施例中,请参见图3A,对于每帧图像,可以采用2D卷积神经网络进行表观特征提取,最终将每帧图像空间维度降为1*1:即一帧图像原始大小为Cin*H*W,经过2D卷积神经网络进行表观特征提取后大小为Cout*1*1。
利用该表观特征提取方法,可以对连续N(N为大于1的正整数)帧视频帧进行表观特征提取,2D卷积神经网络的输入为N*Cin*H*W,输出为N*Cout*1*1。
其中,N表示输入图像的帧数,Cin表示输入图像每帧的通道数(如RGB图像的通道数为3),Cout为提取的表观特征的通道数(可以根据实际需求设置,如512或1024等)。
需要说明的是,提取的表观特征的通道数越多,后续流程中运算量越大,而识别准确率也一般会越高,因此,在设置该提取的表观特征的通道数时,可以均衡识别准确率和运算量设置,其具体实现在此不做赘述。
2、时序特征提取
将步骤1中获得的连续N帧视频帧中每帧图像的表观特征进行1D卷积,以提取时序特征,最终得到连续N帧视频帧的时空特征,其示意图可以如图3B所示。
其中,为了进行时序特征提取,可以先将步骤1输出的N*Cin(即步骤1中的Cout)*1*1重新排序(reshape)为Cin*N,然后利用1D卷积神经网络进行时序特征提取,最终连续N帧视频帧的时空特征表达为Cout*1。
其中,N表示输入图像的帧数,Cin表示输入图像进行表观特征提取后每帧的通道数(如512或1024等),Cout为最终提取后的时空特征的通道数(可以根据实际需求设定,如512或1024等)。
3、行为识别
对提取的连续N帧视频帧的时空特征,可以通过分类网络进行行为识别。
其中,可以通过将所提取的时空特征输入全连接层,以得到视频帧的多个特征值,并将该多个特征值输入softmax层进行归一化处理,以得到视频帧的行为识别结果中各行为类别的置信度。
其中,对连续N帧视频帧的行为识别的完整流程可以参见图3C。
本申请实施例中,通过将预设数量的连续视频帧输入预先训练的2D卷积神经网络,以得到该预设数量的连续视频帧的表观特征,并将该预设数量的连续视频帧的表观特征输入预先训练的1D卷积神经网络,以得到该预设数量的连续视频帧的时空特征,进而,可以将该预设数量的连续视频帧的时空特征输入预先训练的分类网络,以得到该预设数量的连续视频帧的行为识别结果,通过将2D卷积神经网络和1D卷积神经网络进行组合,不仅可以有效地进行时空特征的提取,且模型参数量较少,易于训练,从而可以提高行为识别的效率。
以上对本申请提供的方法进行了描述。下面对本申请提供的装置进行描述:
请参见图4,为本申请实施例提供的一种行为识别装置的结构示意图,如图4所示,该行为识别装置可以包括:
表观特征提取单元410,用于将预设数量的连续视频帧输入预先训练的2D卷积神经网络,以得到所述视频帧的表观特征;
时序特征提取单元420,用于将所述视频帧的表观特征输入预先训练的1D卷积神经网络,以得到所述视频帧的时空特征;
行为识别单元430,用于将所述视频帧的时空特征输入预先训练的分类网络,以得到所述视频帧的行为识别结果。
在一种可选的实施方式中,所述表观特征提取单元410,还用于对于训练集中的任一训练样本,将其输入所述2D卷积神经网络,以得到该训练样本的表观特征;
所述时序特征提取单元420,还用于将该训练样本的表观特征输入所述1D卷积神经网络,以得到该训练样本的时空特征;
所述行为识别单元430,还用于将该训练样本的时空特征输入所述分类网络,以得到该训练样本的行为识别结果。
在一种可选的实施方式中,如图5所示,所述装置还包括:
参数优化单元440,用于根据所述训练集中的训练样本的行为识别结果准确率,对级联的所述2D卷积神经网络、所述1D卷积神经网络以及所述分类网络的网络组合进行参数优化,直至所述训练集中的训练样本的行为识别结果准确率增长幅度小于预设阈值。
在一种可选的实施方式中,所述参数优化单元440,具体用于对所述2D卷积神经网络、所述1D卷积神经网络和/或所述分类网络的模型参数进行优化。
在一种可选的实施方式中,如图6所示,所述装置还包括:
预训练单元450,用于在对级联的所述2D卷积神经网络、1D卷积神经网络以及分类网络进行训练之前,基于ImageNet对所述2D卷积神经网络进行预训练。
在一种可选的实施方式中,所述行为识别单元430,具体用于将所述视频帧的时空特征输入所述分类网络的全连接层,以得到所述视频帧的多个特征值;其中,所述多个特征值与所述分类网络的支持识别的行为类别一一对应,且所述特征值的数值越大,所述视频帧的行为识别结果中该特征值对应的行为类别的概率越大;将所述视频帧的多个特征值输入所述分类网络的softmax层,以得到所述视频帧的行为识别结果中各行为类别的置信度。
请参见图7,为本申请实施例提供的一种电子设备的硬件结构示意图。该电子设备可以包括处理器701、通信接口702、存储器703和通信总线704。处理器701、通信接口702以及存储器703通过通信总线704完成相互间的通信。其中,存储器703上存放有计算机程序;处理器701可以通过执行存储器703上所存放的程序,执行上文描述的行为识别方法。
本文中提到的存储器703可以是任何电子、磁性、光学或其它物理存储装置,可以包含或存储信息,如可执行指令、数据,等等。例如,存储器702可以是:RAM(Radom AccessMemory,随机存取存储器)、易失存储器、非易失性存储器、闪存、存储驱动器(如硬盘驱动器)、固态硬盘、任何类型的存储盘(如光盘、dvd等),或者类似的存储介质,或者它们的组合。
本申请实施例还提供了一种存储有计算机程序的机器可读存储介质,例如图7中的存储器703,所述计算机程序可由图7所示电子设备中的处理器701执行以实现上文描述的行为识别方法。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅为本申请的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。
Claims (12)
1.一种行为识别方法,其特征在于,包括:
将预设数量的连续视频帧输入预先训练的2D卷积神经网络,以得到所述视频帧的表观特征;
将所述视频帧的表观特征输入预先训练的1D卷积神经网络,以得到所述视频帧的时空特征;
将所述视频帧的时空特征输入预先训练的分类网络,以得到所述视频帧的行为识别结果。
2.根据权利要求1所述的方法,其特征在于,级联的所述2D卷积神经网络、1D卷积神经网络以及分类网络通过以下方式训练得到:
对于训练集中的任一训练样本,将其输入所述2D卷积神经网络,以得到该训练样本的表观特征;
将该训练样本的表观特征输入所述1D卷积神经网络,以得到该训练样本的时空特征;
将该训练样本的时空特征输入所述分类网络,以得到该训练样本的行为识别结果。
3.根据权利要求2所述的方法,其特征在于,所述将该训练样本的时空特征输入所述分类网络之后,还包括:
根据所述训练集中的训练样本的行为识别结果准确率,对级联的所述2D卷积神经网络、所述1D卷积神经网络以及所述分类网络的网络组合进行参数优化,直至所述训练集中的训练样本的行为识别结果准确率增长幅度小于预设阈值。
4.根据权利要求3所述的方法,其特征在于,所述对级联的所述2D卷积神经网络、所述1D卷积神经网络以及所述分类网络的网络组合进行参数优化,包括:
对所述2D卷积神经网络、所述1D卷积神经网络和/或所述分类网络的模型参数进行优化。
5.根据权利要求2所述的方法,其特征在于,对级联的所述2D卷积神经网络、1D卷积神经网络以及分类网络进行训练之前,还包括:
基于图片分类数据集ImageNet对所述2D卷积神经网络进行预训练。
6.根据权利要求1所述的方法,其特征在于,所述将所述视频帧的时空特征输入预先训练的分类网络,以得到所述视频帧的行为识别结果,包括:
将所述视频帧的时空特征输入所述分类网络的全连接层,以得到所述视频帧的多个特征值;其中,所述多个特征值与所述分类网络的支持识别的行为类别一一对应,且所述特征值的数值越大,所述视频帧的行为识别结果中该特征值对应的行为类别的概率越大;
将所述视频帧的多个特征值输入所述分类网络的softmax层,以得到所述视频帧的行为识别结果中各行为类别的置信度。
7.一种行为识别装置,其特征在于,包括:
表观特征提取单元,用于将预设数量的连续视频帧输入预先训练的2D卷积神经网络,以得到所述视频帧的表观特征;
时序特征提取单元,用于将所述视频帧的表观特征输入预先训练的1D卷积神经网络,以得到所述视频帧的时空特征;
行为识别单元,用于将所述视频帧的时空特征输入预先训练的分类网络,以得到所述视频帧的行为识别结果。
8.根据权利要求7所述的装置,其特征在于,
所述表观特征提取单元,还用于对于训练集中的任一训练样本,将其输入所述2D卷积神经网络,以得到该训练样本的表观特征;
所述时序特征提取单元,还用于将该训练样本的表观特征输入所述1D卷积神经网络,以得到该训练样本的时空特征;
所述行为识别单元,还用于将该训练样本的时空特征输入所述分类网络,以得到该训练样本的行为识别结果。
9.根据权利要求8所述的装置,其特征在于,所述装置还包括:
参数优化单元,用于根据所述训练集中的训练样本的行为识别结果准确率,对级联的所述2D卷积神经网络、所述1D卷积神经网络以及所述分类网络的网络组合进行参数优化,直至所述训练集中的训练样本的行为识别结果准确率增长幅度小于预设阈值。
10.根据权利要求9所述的装置,其特征在于,
所述参数优化单元,具体用于对所述2D卷积神经网络、所述1D卷积神经网络和/或所述分类网络的模型参数进行优化。
11.根据权利要求8所述的装置,其特征在于,所述装置还包括:
预训练单元,用于在对级联的所述2D卷积神经网络、1D卷积神经网络以及分类网络进行训练之前,基于图片分类数据集ImageNet对所述2D卷积神经网络进行预训练。
12.根据权利要求7所述的装置,其特征在于,
所述行为识别单元,具体用于将所述视频帧的时空特征输入所述分类网络的全连接层,以得到所述视频帧的多个特征值;其中,所述多个特征值与所述分类网络的支持识别的行为类别一一对应,且所述特征值的数值越大,所述视频帧的行为识别结果中该特征值对应的行为类别的概率越大;将所述视频帧的多个特征值输入所述分类网络的softmax层,以得到所述视频帧的行为识别结果中各行为类别的置信度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811510291.3A CN111310516B (zh) | 2018-12-11 | 2018-12-11 | 一种行为识别方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811510291.3A CN111310516B (zh) | 2018-12-11 | 2018-12-11 | 一种行为识别方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111310516A true CN111310516A (zh) | 2020-06-19 |
CN111310516B CN111310516B (zh) | 2023-08-29 |
Family
ID=71159620
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811510291.3A Active CN111310516B (zh) | 2018-12-11 | 2018-12-11 | 一种行为识别方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111310516B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113177450A (zh) * | 2021-04-20 | 2021-07-27 | 北京有竹居网络技术有限公司 | 行为识别方法、装置、电子设备和存储介质 |
WO2022228325A1 (zh) * | 2021-04-27 | 2022-11-03 | 中兴通讯股份有限公司 | 行为检测方法、电子设备以及计算机可读存储介质 |
WO2023024438A1 (zh) * | 2021-08-24 | 2023-03-02 | 上海商汤智能科技有限公司 | 一种行为识别方法及装置、电子设备和存储介质 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060215929A1 (en) * | 2005-03-23 | 2006-09-28 | David Fresneau | Methods and apparatus for image convolution |
JP2014049118A (ja) * | 2012-08-31 | 2014-03-17 | Fujitsu Ltd | 畳み込みニューラルネットワーク分類器システム、その訓練方法、分類方法および用途 |
CN106845381A (zh) * | 2017-01-16 | 2017-06-13 | 西北工业大学 | 基于双通道卷积神经网络的空谱联合的高光谱图像分类方法 |
CN107341452A (zh) * | 2017-06-20 | 2017-11-10 | 东北电力大学 | 基于四元数时空卷积神经网络的人体行为识别方法 |
US20170364800A1 (en) * | 2016-06-16 | 2017-12-21 | Qatar University | Method and apparatus for performing motor-fault detection via convolutional neural networks |
EP3291146A1 (en) * | 2016-09-05 | 2018-03-07 | Fujitsu Limited | Knowledge extraction from a convolutional neural network |
US20180137143A1 (en) * | 2016-11-15 | 2018-05-17 | Sentient Technologies (Barbados) Limited | Data Object Creation and Recommendation Using Machine Learning Based Offline Evolution |
CN108229240A (zh) * | 2016-12-09 | 2018-06-29 | 杭州海康威视数字技术股份有限公司 | 一种确定图像质量的方法及装置 |
CN108460342A (zh) * | 2018-02-05 | 2018-08-28 | 西安电子科技大学 | 基于卷积网和循环神经网络的高光谱图像分类方法 |
WO2018157862A1 (zh) * | 2017-03-02 | 2018-09-07 | 腾讯科技(深圳)有限公司 | 车型的识别方法和装置、存储介质、电子装置 |
US20180261236A1 (en) * | 2017-03-10 | 2018-09-13 | Baidu Online Network Technology (Beijing) Co., Ltd. | Speaker recognition method and apparatus, computer device and computer-readable medium |
US20180268256A1 (en) * | 2017-03-16 | 2018-09-20 | Aquifi, Inc. | Systems and methods for keypoint detection with convolutional neural networks |
CN108596069A (zh) * | 2018-04-18 | 2018-09-28 | 南京邮电大学 | 基于深度3d残差网络的新生儿疼痛表情识别方法及*** |
-
2018
- 2018-12-11 CN CN201811510291.3A patent/CN111310516B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060215929A1 (en) * | 2005-03-23 | 2006-09-28 | David Fresneau | Methods and apparatus for image convolution |
JP2014049118A (ja) * | 2012-08-31 | 2014-03-17 | Fujitsu Ltd | 畳み込みニューラルネットワーク分類器システム、その訓練方法、分類方法および用途 |
US20170364800A1 (en) * | 2016-06-16 | 2017-12-21 | Qatar University | Method and apparatus for performing motor-fault detection via convolutional neural networks |
EP3291146A1 (en) * | 2016-09-05 | 2018-03-07 | Fujitsu Limited | Knowledge extraction from a convolutional neural network |
US20180137143A1 (en) * | 2016-11-15 | 2018-05-17 | Sentient Technologies (Barbados) Limited | Data Object Creation and Recommendation Using Machine Learning Based Offline Evolution |
CN108229240A (zh) * | 2016-12-09 | 2018-06-29 | 杭州海康威视数字技术股份有限公司 | 一种确定图像质量的方法及装置 |
CN106845381A (zh) * | 2017-01-16 | 2017-06-13 | 西北工业大学 | 基于双通道卷积神经网络的空谱联合的高光谱图像分类方法 |
WO2018157862A1 (zh) * | 2017-03-02 | 2018-09-07 | 腾讯科技(深圳)有限公司 | 车型的识别方法和装置、存储介质、电子装置 |
US20180261236A1 (en) * | 2017-03-10 | 2018-09-13 | Baidu Online Network Technology (Beijing) Co., Ltd. | Speaker recognition method and apparatus, computer device and computer-readable medium |
US20180268256A1 (en) * | 2017-03-16 | 2018-09-20 | Aquifi, Inc. | Systems and methods for keypoint detection with convolutional neural networks |
CN107341452A (zh) * | 2017-06-20 | 2017-11-10 | 东北电力大学 | 基于四元数时空卷积神经网络的人体行为识别方法 |
CN108460342A (zh) * | 2018-02-05 | 2018-08-28 | 西安电子科技大学 | 基于卷积网和循环神经网络的高光谱图像分类方法 |
CN108596069A (zh) * | 2018-04-18 | 2018-09-28 | 南京邮电大学 | 基于深度3d残差网络的新生儿疼痛表情识别方法及*** |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113177450A (zh) * | 2021-04-20 | 2021-07-27 | 北京有竹居网络技术有限公司 | 行为识别方法、装置、电子设备和存储介质 |
WO2022228325A1 (zh) * | 2021-04-27 | 2022-11-03 | 中兴通讯股份有限公司 | 行为检测方法、电子设备以及计算机可读存储介质 |
WO2023024438A1 (zh) * | 2021-08-24 | 2023-03-02 | 上海商汤智能科技有限公司 | 一种行为识别方法及装置、电子设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111310516B (zh) | 2023-08-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110032926B (zh) | 一种基于深度学习的视频分类方法以及设备 | |
CN111178120B (zh) | 一种基于作物识别级联技术的害虫图像检测方法 | |
EP3254238A1 (en) | Method for re-identification of objects | |
US20180157892A1 (en) | Eye detection method and apparatus | |
CN110569814B (zh) | 视频类别识别方法、装置、计算机设备及计算机存储介质 | |
CN111639564B (zh) | 一种基于多注意力异构网络的视频行人重识别方法 | |
CN112784929B (zh) | 一种基于双元组扩充的小样本图像分类方法及装置 | |
CN110059728B (zh) | 基于注意力模型的rgb-d图像视觉显著性检测方法 | |
CN110188829B (zh) | 神经网络的训练方法、目标识别的方法及相关产品 | |
US20220292394A1 (en) | Multi-scale deep supervision based reverse attention model | |
CN108710893B (zh) | 一种基于特征融合的数字图像相机源模型分类方法 | |
CN110807437B (zh) | 视频粒度特征确定方法、装置和计算机可读存储介质 | |
CN110222718B (zh) | 图像处理的方法及装置 | |
CN111310516B (zh) | 一种行为识别方法和装置 | |
US20180137630A1 (en) | Image processing apparatus and method | |
CN114549913B (zh) | 一种语义分割方法、装置、计算机设备和存储介质 | |
CN111027347A (zh) | 一种视频识别方法、装置和计算机设备 | |
CN107944398A (zh) | 基于深度特征联合表示图像集人脸识别方法、装置和介质 | |
CN113705596A (zh) | 图像识别方法、装置、计算机设备和存储介质 | |
CN112418032A (zh) | 一种人体行为识别方法、装置、电子设备及存储介质 | |
CN110688966B (zh) | 语义指导的行人重识别方法 | |
CN112182269A (zh) | 图像分类模型的训练、图像分类方法、装置、设备及介质 | |
CN111027472A (zh) | 一种基于视频光流和图像空间特征权重融合的视频识别方法 | |
CN112528077B (zh) | 基于视频嵌入的视频人脸检索方法及*** | |
CN114202787A (zh) | 一种基于深度学习和二维注意力机制的多帧微表情情感识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |