CN108647591A - 一种基于视觉-语义特征的视频中行为识别方法和*** - Google Patents

一种基于视觉-语义特征的视频中行为识别方法和*** Download PDF

Info

Publication number
CN108647591A
CN108647591A CN201810379626.6A CN201810379626A CN108647591A CN 108647591 A CN108647591 A CN 108647591A CN 201810379626 A CN201810379626 A CN 201810379626A CN 108647591 A CN108647591 A CN 108647591A
Authority
CN
China
Prior art keywords
image sequence
feature vector
image
gru
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201810379626.6A
Other languages
English (en)
Inventor
李方敏
尤天宇
刘新华
旷海兰
张韬
栾悉道
阳超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changsha University
Original Assignee
Changsha University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changsha University filed Critical Changsha University
Priority to CN201810379626.6A priority Critical patent/CN108647591A/zh
Publication of CN108647591A publication Critical patent/CN108647591A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于视觉‑语义特征的视频中行为识别方法,其首先利用三维卷积神经网络提取短期时空视觉特征,避免了使用光流或密集轨迹法带来的高计算复杂度;然后利用基于卷积神经网络的物体检测器提取人和物体的语义和空间位置信息,构造人‑物体空间位置特征并与时空视觉特征进行特征融合,利用额外的语义信息提高视频中交互行为的识别准确率;最后,在提取的具有通用性的短期时空视觉特征的基础上,通过循环神经网络提取特异性的长期行为特征提高行为识别准确率。本发明能够解决现有针对视频的行为识别方法中存在的计算复杂度高、行为识别准确率低、以及无法提取贯穿整个视频时间维度的长期行为特征的技术问题。

Description

一种基于视觉-语义特征的视频中行为识别方法和***
技术领域
本发明计算机视觉技术领域,更具体地,涉及一种基于视觉-语义特征的视频中行为识别方法和***。
背景技术
针对视频数据类型的行为识别问题已经成为计算机视觉领域的一个热门研究领域。目前针对视频中的行为识别,主要有3种方法:光流法、循环神经网络法、以及三维卷积神经网络法。
针对光流法而言,其行为识别的准确率较高,但是因为光流法的计算复杂度高,所以其无法实现计算的实时性;循环神经网络的输入数据主要包括两种:一是使用卷积神经网络提取的单帧图像的特征,这一特征缺少时间域关联信息,导致方法的识别准确率低;二是光流或密集轨迹信息,其与光流法一样,会导致方法的计算复杂度高;对于三维卷积神经网络而言,其输入数据是固定长度的图像序列片段,因此该方法只能够提取通用性的短期时空视觉特征,而不能提取贯穿整个视频时间维度的长期行为特征。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种基于视觉-语义特征的视频中行为识别方法和***,其目的在于,解决现有针对视频的行为识别方法中存在的计算复杂度高、行为识别准确率低、以及无法提取贯穿整个视频时间维度的长期行为特征的技术问题。
为实现上述目的,按照本发明的一个方面,提供了一种基于视觉-语义特征的视频中行为识别方法,包括以下步骤:
(1)从数据集获取图像序列,对该图像序列进行降采样处理,以得到降采样后的图像序列V={vt},t∈0,1,…,T-1,并将降采样后的图像序列进行切片,以得到N个具有固定长度的图像序列片段,其中T表示图像序列的长度,N表示图像序列片段的数量。
(2)对N个具有固定长度的图像序列片段中的每幅图像进行缩放和裁剪处理,并将N个图像序列片段输入三维卷积神经网络中,以得到N个时空视觉特征向量。
(3)将步骤(1)中得到的每个图像序列片段中选取一幅图像,对该图像进行缩放和裁剪处理,将缩放并裁剪后的图像输入到物体检测器中,以得到物体种类的可信度和位置偏移量,并根据物体种类的可信度和位置偏移量构造人-物体空间位置特征向量。
(4)将步骤(2)中得到的时空视觉特征向量与步骤(3)中得到的人-物体空间位置特征向量进行特征融合。
(5)将步骤(4)特征融合后的特征向量输入循环神经网络,以得到长期行为特征。
(6)利用Softmax分类器对步骤(5)得到的长期行为特征进行分类,以生成对应于每一种行为种类的分类概率。
优选地,将图像序列进行切片具体是采用以下公式:
其中Tc是图像序列片段的帧步长,δ是图像序列片段中图像序列的帧长度,n∈0,1,…N-1,且有Tc=8,δ=16。
优选地,使用的三维卷积神经网络是C3D网络,使用的物理检测器是分辨率为300×300的单发多盒检测器。
优选地,其特征在于,将N个图像序列片段输入三维卷积神经网络中,以得到N个时空视觉特征向量的过程具体为,针对每个图像序列片段而言,首先将图像序列片段输入C3D网络,然后使用C3D网络中第五池化层的输出作为短期时空视觉特征,最后将该特征图规整为1个长度为8192的特征向量,其中第五池化层的输出矩阵大小为1×4×4×512。
优选地,步骤(3)具体为,首先,物理检测器根据输入的缩放并裁剪后的图像输出对应于多个边界框的多个输出向量,每个输出向量包括L个物体种类的可信度P={pl}、以及位置偏移量[x,y,w,h],其中l∈0,1,…L-1,L表示物体种类的个数,pl表示第l个物体种类的可信度;然后对所有边界框对应的输出向量进行合并,以得到多个检测物体的对应多个长度为5的空间位置特征向量[q,x/WI,y/HI,w/WI,h/HI],其中q表示检测物体所属物体种类的可信度,x和y分别为检测物体的边界框的横纵坐标,w和h分别为检测物体的边界框的宽和高,WI和HI分别为缩放并裁剪后的图像的宽和高;最后,针对所有L个物体种类中的每个物体种类而言,利用其可信度最高的5个检测物体的空间位置特征向量构造一个长度为空间位置特征向量长度×L×5的特征向量。
优选地,步骤(5)中使用的循环神经网络是3层GRU网络,其是由一层全连接层和3层级联GRU层构成,全连接层有4096个神经元,GRU网络的前两层中GRU单元的神经元数量为4096,最后一层中GRU单元的神经元数量为256,前一层GRU单元的输出是后一层GRU单元的输入。
优选地,步骤(5)中使用的循环神经网络是组合GRU网络,其是由3层全连接层和一层GRU层构成,前两层全连接层中有4096个神经元,最后一层全连接层中有512个神经元,GRU层中GRU单元的神经元数量为512。
按照本发明的另一方面,提供了一种基于视觉-语义特征的视频中行为识别***,包括:
第一模块,用于从数据集获取图像序列,对该图像序列进行降采样处理,以得到降采样后的图像序列V={vt},t∈0,1,…,T-1,并将降采样后的图像序列进行切片,以得到N个具有固定长度的图像序列片段,其中T表示图像序列的长度,N表示图像序列片段的数量。
第二模块,用于对N个具有固定长度的图像序列片段中的每幅图像进行缩放和裁剪处理,并将N个图像序列片段输入三维卷积神经网络中,以得到N个时空视觉特征向量。
第三模块,用于将第一模块中得到的每个图像序列片段中选取一幅图像,对该图像进行缩放和裁剪处理,将缩放并裁剪后的图像输入到物体检测器中,以得到物体种类的可信度和位置偏移量,并根据物体种类的可信度和位置偏移量构造人-物体空间位置特征向量。
第四模块,用于将第二模块中得到的时空视觉特征向量与第三模块中得到的人-物体空间位置特征向量进行特征融合。
第五模块,用于将第四模块特征融合后的特征向量输入循环神经网络,以得到长期行为特征。
第六模块,用于利用Softmax分类器对第五模块得到的长期行为特征进行分类,以生成对应于每一种行为种类的分类概率。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
(1)本发明的计算复杂度低,能够保证计算的实时性:由于本发明步骤(2)中使用了三维卷积神经网络提取短期行为特征,避免了使用使用光流法带来的高计算复杂度,实现了快速和高效率的行为识别。
(2)本发明的行为识别准确率高:由于本发明在步骤(3)中构造了人-物体空间位置特征向量,提高了视频中人和物体之间的交互行为的识别准确率。
(3)由于本发明在步骤(5)中使用改进的GRU网络结构基于短期行为特征提取长期行为特征,能够进一步提高识别准确率。
附图说明
图1是本发明方法的步骤(5)中使用的3层GRU网络的示意图。
图2是本发明方法的步骤(5)中使用的组合GRU网络的示意图。
图3是图1、图2中所示的GRU网络与传统单层GRU网络在行为识别准确率方面的比较示意图。
图4是本发明基于视觉-语义特征的视频中行为识别方法的流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明提出了一种融合人-物体视觉关系的长-短期时空视觉模型(Long-ShortTerm Spatio-Temporal Visual Model with Human-Object Visual Relationship,本发明),其首先利用三维卷积神经网络提取短期时空视觉特征,避免了使用光流或密集轨迹法带来的高计算复杂度;然后利用基于卷积神经网络的物体检测器提取人和物体的语义和空间位置信息,构造人-物体空间位置特征并与时空视觉特征进行特征融合,利用额外的语义信息提高视频中交互行为的识别准确率;最后,基于融合的短期特征,提出一种改进的循环神经网络提取长期行为特征,即在提取的具有通用性的短期时空视觉特征的基础上,通过循环神经网络提取特异性的长期行为特征提高行为识别的准确率。
如图4所示,本发明基于视觉-语义特征的视频中行为识别方法包括以下步骤:
(1)从数据集获取图像序列,对该图像序列进行降采样处理,以得到降采样后的图像序列V={vt},t∈0,1,…,T-1,其中T表示图像序列的长度,并将降采样后的图像序列进行切片,以得到N个具有固定长度的图像序列片段,其中N表示图像序列片段的数量,具体为5到10之间的整数。
具体而言,本步骤中使用的数据集是从Youtube采集的UCF101行为识别数据集,降采样处理的间隔是5帧。
将图像序列进行切片具体是采用以下公式:
其中Tc是图像序列片段的帧步长,δ是图像序列片段中图像序列的帧长度,n∈0,1,…N-1,且有Tc=8,δ=16。
例如,对于长度为32的图像序列而言(即T=32),把图像序列切分为3个图像序列片段,每个图像序列片段包含16幅图像,相邻的两个图像序列片段有8幅图像重叠。
(2)对N个具有固定长度的图像序列片段中的每幅图像进行缩放和裁剪处理(例如,缩放并裁剪为112×112的分辨率大小,该分辨率取决于三维卷积神经网络的分辨率大小),并将N个图像序列片段输入三维卷积神经网络中,以得到N个时空视觉特征向量。
输入三维卷积神经网络中的每个图像序列片段的维度是16×112×112×3。
在本步骤中,使用的三维卷积神经网络是C3D网络,用于提取图像序列片段的时空视觉特征。
本步骤具体为,针对每个图像序列片段而言,首先将图像序列片段输入C3D网络,然后使用C3D网络中第五池化(pool5)层的输出作为短期时空视觉特征(其中第五池化层的输出矩阵大小为1×4×4×512,即512个分辨率为4×4的特征图),最后将该特征图规整为1个长度为8192的特征向量。
(3)将步骤(1)中得到的每个图像序列片段中选取一幅图像,对该图像进行缩放和裁剪处理(例如,缩放并裁剪为300×300的分辨率大小,该分辨率取决于后续物体检测器的分辨率大小),将缩放并裁剪后的图像输入到物体检测器中,以得到物体种类的可信度和位置偏移量,并根据物体种类的可信度和位置偏移量构造人-物体空间位置特征向量。
具体而言,本步骤中使用的物理检测器是分辨率为300×300的单发多盒检测器(Single shot multibox detector,简称SSD300)。
本步骤具体为,首先,物理检测器根据输入的缩放并裁剪后的图像输出对应于多个边界框的多个输出向量,每个输出向量包括L个物体种类的可信度P={pl}、以及位置偏移量[x,y,w,h],其中l∈0,1,…L-1,L表示物体种类的个数,pl表示第l个物体种类的可信度;然后对所有边界框对应的输出向量进行合并(合并过程采用的是非极大值抑制(NonMaximum Suppression,简称NMS)算法),以得到多个检测物体的对应多个长度为5的空间位置特征向量[q,x/WI,y/HI,w/WI,h/HI],其中q表示检测物体所属物体种类的可信度,x和y分别为检测物体的边界框的横纵坐标,w和h分别为检测物体的边界框的宽和高,WI和HI分别为缩放并裁剪后的图像的宽和高;最后,针对所有L个物体种类中的每个物体种类而言,利用其可信度最高的5个检测物体的空间位置特征向量构造一个长度为空间位置特征向量长度×L×5的特征向量。由于本步骤中的SSD300能够检测201种物体种类,并且对于每一物体种类选取5个概率最高的物体的特征向量,所以L=201,即得到长度为5025的特征向量。
(4)将步骤(2)中得到的时空视觉特征向量与步骤(3)中得到的人-物体空间位置特征向量进行特征融合。
具体而言,本步骤的特征融合过程就是将长度为8192的时空视觉特征和长度为5025的人-物体空间位置特征进行拼接,从而合并成为一个长度为13217的特征向量。
(5)将步骤(4)特征融合后的特征向量输入循环神经网络,以得到长期行为特征。
本步骤中使用的循环神经网络是门控循环单元(Gated Recurrent Unit,简称GRU)。
本发明提出了2种改进的GRU网络结构,其中外部的方块表示输入的特征向量。对于融合特征,输入的是特征融合后的长度为13217的特征向量。GRU网络随时间输入短期的时空视觉特征并在全部时间尺度下生成长期行为特征。
图1所示是一种3层GRU网络(3-Layer Stacked GRU,简称sGRU),其是由一层全连接层(Fool connection layer,简称FC)和3层级联GRU层构成,全连接层有4096个神经元,GRU网络的前两层中GRU单元的神经元数量为4096,最后一层中GRU单元的神经元数量为256,前一层GRU单元的输出是后一层GRU单元的输入。本架构的目的是通过增加GRU网络深度,提高网络的学习能力。
经过上述sGRU网络输出后的长期行为特征向量长度是256。
图2所示是一种组合GRU网络(Composite GRU,简称cGRU),其是由3层全连接层和一层GRU层构成,前两层全连接层中有4096个神经元,最后一层全连接层中有512个神经元,GRU层中GRU单元的神经元数量为512。本架构的目的是前两层全连接层可以对输入特征进行降维,而最后的GRU层能够学习到长期的行为特征。
经过上述cGRU网络输出后的长期行为特征向量长度是512。
(6)利用Softmax分类器对步骤(5)得到的长期行为特征进行分类,以生成对应于每一种行为种类的分类概率。
本步骤最终得到的输出是概率向量:PB={pb},其中b∈0,1,…B-1,B表示行为种类的数量,概率向量中的每一个元素表示对应于每一种行为种类的分类概率。
因为本发明所使用的UCF101数据集中有101个行为种类,所以B=101,概率向量中最大的元素py对应的第y个行为种类即为最终识别的行为种类。
实验结果
测试使用数据集为UCF101行为识别数据集中的视频数据,UCF101数据集中的视频是从YouTube上采集的,共有101个行为种类,13320个视频片段,不仅具有行为种类的多样性,还有摄像机运动、物体姿态、物体大小、拍摄视角、背景和光照等方面的多样性。UCF101中的行为种类可以划分为5大类型:人-物体交互、肢体动作、人-人交互、演奏乐器和体育运动。
(1)识别准确率
识别准确率指的是对于测试集共3783个样本,方法识别正确的样本数占总样本数的比例。测试使用不同的模块组合方式的方法的准确率能够帮助分析各模块对方法性能的影响。各方法的准确率如下表1所示,其中斜体文字表示的方法使用了改进密集轨迹或光流信息。
可以看出,本发明方法相比LSTM复合模型法和C3D方法,准确率分别提高了8.2%和10.2%。相比于其他使用了光流或改进密集轨迹信息的方法,本发明方法仅使用深度神经网络对原始图像序列的特征进行提取,推理速度更快。事实上,改进密集轨迹是一种人工规则构造的特征,基于光流跟踪和图像的梯度直方图,而光流的运算消耗大量的计算资源和时间。2种使用不同的GRU网络结构的方法中,本发明方法取得了最好的性能,超过了使用改进密集轨迹信息的多跳特征堆栈(Multi-skip feature stacking)方法3.4%的准确率。
表1各方法在UCF101数据集上的准确率
(2)GRU网络对方法性能的影响
本节对使用sGRU网络、cGRU网络和单层GRU网络的方法进行实验,其中单层GRU网络用于基准测试,单层GRU网络包含512个神经元,特征向量直接输入GRU网络,是一种基础的循环神经网络结构。
各方法关于GRU网络的准确率对比如图3所示,使用cGRU网络使本发明方法相比使用sGRU网络的方法提高了3.7%的准确率,相比使用单层GRU网络的方法提高了5.5%的准确率。
使用单层GRU网络和sGRU网络的本发明方法在使用人-物体空间位置特征的情况下才达到了其它使用光流或改进密集轨迹信息的方法相近的准确率,说明使用单层GRU网络和sGRU网络提取的长期行为特征的表达能力较差。对于长度过大的特征向量,如特征融合后的长度为13217的特征向量,sGRU网络由于参数量过大,不仅推理和训练速度慢,而且容易造成过拟合。而单层GRU网络由于网络深度过浅,学习性能较差,容易造成欠拟合。cGRU网络使用全连接网络对特征进行降维,再使用GRU网络学习长期的行为特征,由于网络参数量少,不仅推理和训练速度更快,而且不易造成过拟合,准确率更高。
综上,cGRU网络较好地实现了在短期特征的基础上提取长期行为特征的功能。
(3)计算速率
本发明方法与其它4种基于UCF101数据集的行为识别方法的计算速率如下表2所示,测试使用一块K40Tesla GPU。因为光流算法的计算复杂度高,改进密集轨迹和双流网络(Two-stream networks)中使用的光流算法的GPU实现分别比C3D方法慢了91.4倍和274.6倍。因为本发明方法包含了人-物体空间特征提取模块和长期行为特征提取模块,含有额外的SSD300和cGRU网络,所以比单独的C3D网络慢了2.5倍,但是仍然远远快于使用改进密集轨迹和光流信息的方法,达到了125.2帧/秒,实现了计算的超实时性。
表2各方法的计算速率比较
人-物体空间位置特征提取模块使用了间隔为16的降采样,对于每个视频片段只需要提取一副图像的人-物体空间特征,所以计算时间分摊到了视频切片中每幅图像的计算时间上。经过独立测试,SSD300的计算速率17.8帧/秒,即56.18ms/帧,分摊后的计算时间为3.51ms/帧。而C3D网络每次对包含16帧图像的视频片段进行推理,计算速率是313.9帧/秒,即3.19ms/帧。理论上,人-物体空间位置提取模块的计算时间与空间视觉特征提取模块的计算时间相加为6.70ms/帧,即149.3帧/秒。而在实际测试中,本发明方法的计算速率是125.2帧/秒,这是因为方法在预处理和cGRU网络推理等过程中消耗了额外的计算时间,但是远小于SSD300和C3D网络推理的计算时间。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于视觉-语义特征的视频中行为识别方法,其特征在于,包括以下步骤:
(1)从数据集获取图像序列,对该图像序列进行降采样处理,以得到降采样后的图像序列V={vt},t∈0,1,…,T-1,并将降采样后的图像序列进行切片,以得到N个具有固定长度的图像序列片段,其中T表示图像序列的长度,N表示图像序列片段的数量。
(2)对N个具有固定长度的图像序列片段中的每幅图像进行缩放和裁剪处理,并将N个图像序列片段输入三维卷积神经网络中,以得到N个时空视觉特征向量。
(3)将步骤(1)中得到的每个图像序列片段中选取一幅图像,对该图像进行缩放和裁剪处理,将缩放并裁剪后的图像输入到物体检测器中,以得到物体种类的可信度和位置偏移量,并根据物体种类的可信度和位置偏移量构造人-物体空间位置特征向量。
(4)将步骤(2)中得到的时空视觉特征向量与步骤(3)中得到的人-物体空间位置特征向量进行特征融合。
(5)将步骤(4)特征融合后的特征向量输入循环神经网络,以得到长期行为特征。
(6)利用Softmax分类器对步骤(5)得到的长期行为特征进行分类,以生成对应于每一种行为种类的分类概率。
2.根据权利要求1所述的视频中行为识别方法,其特征在于,将图像序列进行切片具体是采用以下公式:
其中Tc是图像序列片段的帧步长,δ是图像序列片段中图像序列的帧长度,n∈0,1,…N-1,且有Tc=8,δ=16。
3.根据权利要求1或2所述的视频中行为识别方法,其特征在于,使用的三维卷积神经网络是C3D网络,使用的物理检测器是分辨率为300×300的单发多盒检测器。
4.根据权利要求1至3中任意一项所述的视频中行为识别方法,其特征在于,将N个图像序列片段输入三维卷积神经网络中,以得到N个时空视觉特征向量的过程具体为,针对每个图像序列片段而言,首先将图像序列片段输入C3D网络,然后使用C3D网络中第五池化层的输出作为短期时空视觉特征,最后将该特征图规整为1个长度为8192的特征向量,其中第五池化层的输出矩阵大小为1×4×4×512。
5.根据权利要求4所述的视频中行为识别方法,其特征在于,步骤(3)具体为,首先,物理检测器根据输入的缩放并裁剪后的图像输出对应于多个边界框的多个输出向量,每个输出向量包括L个物体种类的可信度P={pl}、以及位置偏移量[x,y,w,h],其中l∈0,1,…L-1,L表示物体种类的个数,pl表示第l个物体种类的可信度;然后对所有边界框对应的输出向量进行合并,以得到多个检测物体的对应多个长度为5的空间位置特征向量[q,x/WI,y/HI,w/WI,h/HI],其中q表示检测物体所属物体种类的可信度,x和y分别为检测物体的边界框的横纵坐标,w和h分别为检测物体的边界框的宽和高,WI和HI分别为缩放并裁剪后的图像的宽和高;最后,针对所有L个物体种类中的每个物体种类而言,利用其可信度最高的5个检测物体的空间位置特征向量构造一个长度为空间位置特征向量长度×L×5的特征向量。
6.根据权利要求1所述的视频中行为识别方法,其特征在于,步骤(5)中使用的循环神经网络是3层GRU网络,其是由一层全连接层和3层级联GRU层构成,全连接层有4096个神经元,GRU网络的前两层中GRU单元的神经元数量为4096,最后一层中GRU单元的神经元数量为256,前一层GRU单元的输出是后一层GRU单元的输入。
7.根据权利要求1所述的视频中行为识别方法,其特征在于,步骤(5)中使用的循环神经网络是组合GRU网络,其是由3层全连接层和一层GRU层构成,前两层全连接层中有4096个神经元,最后一层全连接层中有512个神经元,GRU层中GRU单元的神经元数量为512。
8.一种基于视觉-语义特征的视频中行为识别***,其特征在于,包括:
第一模块,用于从数据集获取图像序列,对该图像序列进行降采样处理,以得到降采样后的图像序列V={vt},t∈0,1,…,T-1,并将降采样后的图像序列进行切片,以得到N个具有固定长度的图像序列片段,其中T表示图像序列的长度,N表示图像序列片段的数量。
第二模块,用于对N个具有固定长度的图像序列片段中的每幅图像进行缩放和裁剪处理,并将N个图像序列片段输入三维卷积神经网络中,以得到N个时空视觉特征向量。
第三模块,用于将第一模块中得到的每个图像序列片段中选取一幅图像,对该图像进行缩放和裁剪处理,将缩放并裁剪后的图像输入到物体检测器中,以得到物体种类的可信度和位置偏移量,并根据物体种类的可信度和位置偏移量构造人-物体空间位置特征向量。
第四模块,用于将第二模块中得到的时空视觉特征向量与第三模块中得到的人-物体空间位置特征向量进行特征融合。
第五模块,用于将第四模块特征融合后的特征向量输入循环神经网络,以得到长期行为特征。
第六模块,用于利用Softmax分类器对第五模块得到的长期行为特征进行分类,以生成对应于每一种行为种类的分类概率。
CN201810379626.6A 2018-04-25 2018-04-25 一种基于视觉-语义特征的视频中行为识别方法和*** Withdrawn CN108647591A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810379626.6A CN108647591A (zh) 2018-04-25 2018-04-25 一种基于视觉-语义特征的视频中行为识别方法和***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810379626.6A CN108647591A (zh) 2018-04-25 2018-04-25 一种基于视觉-语义特征的视频中行为识别方法和***

Publications (1)

Publication Number Publication Date
CN108647591A true CN108647591A (zh) 2018-10-12

Family

ID=63747734

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810379626.6A Withdrawn CN108647591A (zh) 2018-04-25 2018-04-25 一种基于视觉-语义特征的视频中行为识别方法和***

Country Status (1)

Country Link
CN (1) CN108647591A (zh)

Cited By (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109615358A (zh) * 2018-11-01 2019-04-12 北京伟景智能科技有限公司 一种基于深度学习图像识别的餐厅自动结算方法及***
CN109784295A (zh) * 2019-01-25 2019-05-21 佳都新太科技股份有限公司 视频流特征识别方法、装置、设备及存储介质
CN109977872A (zh) * 2019-03-27 2019-07-05 北京迈格威科技有限公司 动作检测方法、装置、电子设备及计算机可读存储介质
CN109977773A (zh) * 2019-02-18 2019-07-05 华南理工大学 基于多目标检测3d cnn的人体行为识别方法及***
CN110070002A (zh) * 2019-03-29 2019-07-30 上海理工大学 一种基于3d卷积神经网络的行为识别方法
CN110348290A (zh) * 2019-05-27 2019-10-18 天津中科智能识别产业技术研究院有限公司 焦罐车安全预警视觉检测方法
CN110427831A (zh) * 2019-07-09 2019-11-08 淮阴工学院 一种基于融合特征的人体动作分类方法
CN110490109A (zh) * 2019-08-09 2019-11-22 郑州大学 一种基于单目视觉的在线人体康复动作识别方法
CN110503076A (zh) * 2019-08-29 2019-11-26 腾讯科技(深圳)有限公司 基于人工智能的视频分类方法、装置、设备和介质
CN110598608A (zh) * 2019-09-02 2019-12-20 中国航天员科研训练中心 非接触式与接触式协同的心理生理状态智能监测***
CN111259838A (zh) * 2020-01-20 2020-06-09 山东大学 服务机器人服务环境下深度理解人体行为的方法及***
CN111507421A (zh) * 2020-04-22 2020-08-07 上海极链网络科技有限公司 一种基于视频的情感识别方法及装置
WO2020206850A1 (zh) * 2019-04-09 2020-10-15 华为技术有限公司 基于高维图像的图像标注方法和装置
CN111783692A (zh) * 2020-07-06 2020-10-16 广东工业大学 一种动作识别方法、装置及电子设备和存储介质
CN111783760A (zh) * 2020-06-30 2020-10-16 北京百度网讯科技有限公司 文字识别的方法、装置、电子设备及计算机可读存储介质
CN112232283A (zh) * 2020-11-05 2021-01-15 深兰科技(上海)有限公司 基于光流和c3d网络的气泡检测方法和***
CN113807318A (zh) * 2021-10-11 2021-12-17 南京信息工程大学 一种基于双流卷积神经网络和双向gru的动作识别方法
US11270147B1 (en) 2020-10-05 2022-03-08 International Business Machines Corporation Action-object recognition in cluttered video scenes using text
US11322234B2 (en) 2019-07-25 2022-05-03 International Business Machines Corporation Automated content avoidance based on medical conditions
US11403069B2 (en) 2017-07-24 2022-08-02 Tesla, Inc. Accelerated mathematical engine
US11409692B2 (en) 2017-07-24 2022-08-09 Tesla, Inc. Vector computational unit
US11423252B1 (en) 2021-04-29 2022-08-23 International Business Machines Corporation Object dataset creation or modification using labeled action-object videos
US11423223B2 (en) 2019-12-02 2022-08-23 International Business Machines Corporation Dynamic creation/expansion of cognitive model dictionaries based on analysis of natural language content
US11487288B2 (en) 2017-03-23 2022-11-01 Tesla, Inc. Data synthesis for autonomous control systems
US11537811B2 (en) 2018-12-04 2022-12-27 Tesla, Inc. Enhanced object detection for autonomous vehicles based on field view
US11561791B2 (en) 2018-02-01 2023-01-24 Tesla, Inc. Vector computational unit receiving data elements in parallel from a last row of a computational array
US11562231B2 (en) 2018-09-03 2023-01-24 Tesla, Inc. Neural networks for embedded devices
US11567514B2 (en) 2019-02-11 2023-01-31 Tesla, Inc. Autonomous and user controlled vehicle summon to a target
US11610117B2 (en) 2018-12-27 2023-03-21 Tesla, Inc. System and method for adapting a neural network model on a hardware platform
US11625422B2 (en) 2019-12-02 2023-04-11 Merative Us L.P. Context based surface form generation for cognitive system dictionaries
US11636346B2 (en) 2019-05-06 2023-04-25 Brown University Recurrent neural circuits
US11636333B2 (en) 2018-07-26 2023-04-25 Tesla, Inc. Optimizing neural network structures for embedded systems
US11665108B2 (en) 2018-10-25 2023-05-30 Tesla, Inc. QoS manager for system on a chip communications
US11681649B2 (en) 2017-07-24 2023-06-20 Tesla, Inc. Computational array microprocessor system using non-consecutive data formatting
US11734562B2 (en) 2018-06-20 2023-08-22 Tesla, Inc. Data pipeline and deep learning system for autonomous driving
US11748620B2 (en) 2019-02-01 2023-09-05 Tesla, Inc. Generating ground truth for machine learning from time series elements
US11790664B2 (en) 2019-02-19 2023-10-17 Tesla, Inc. Estimating object properties using visual image data
US11816585B2 (en) 2018-12-03 2023-11-14 Tesla, Inc. Machine learning models operating at different frequencies for autonomous vehicles
CN117158904A (zh) * 2023-09-08 2023-12-05 上海市第四人民医院 基于行为分析的老年人认知障碍检测***及方法
US11841434B2 (en) 2018-07-20 2023-12-12 Tesla, Inc. Annotation cross-labeling for autonomous control systems
US11893774B2 (en) 2018-10-11 2024-02-06 Tesla, Inc. Systems and methods for training machine models with augmented data
US11893393B2 (en) 2017-07-24 2024-02-06 Tesla, Inc. Computational array microprocessor system with hardware arbiter managing memory requests
US12014553B2 (en) 2019-02-01 2024-06-18 Tesla, Inc. Predicting three-dimensional features for autonomous driving

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107451552A (zh) * 2017-07-25 2017-12-08 北京联合大学 一种基于3d‑cnn和卷积lstm的手势识别方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107451552A (zh) * 2017-07-25 2017-12-08 北京联合大学 一种基于3d‑cnn和卷积lstm的手势识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
XINHUA LIU,ET AL.: "An Optimization Model for Human Activity Recognition Inspired by Information on Human-Object Interaction", 《IEEE:2018 10TH INTERNATIONAL CONFERENCE ON MEASURING TECHNOLOGY AND MECHATRONICS AUTOMATION》 *

Cited By (61)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US12020476B2 (en) 2017-03-23 2024-06-25 Tesla, Inc. Data synthesis for autonomous control systems
US11487288B2 (en) 2017-03-23 2022-11-01 Tesla, Inc. Data synthesis for autonomous control systems
US11409692B2 (en) 2017-07-24 2022-08-09 Tesla, Inc. Vector computational unit
US11893393B2 (en) 2017-07-24 2024-02-06 Tesla, Inc. Computational array microprocessor system with hardware arbiter managing memory requests
US11403069B2 (en) 2017-07-24 2022-08-02 Tesla, Inc. Accelerated mathematical engine
US11681649B2 (en) 2017-07-24 2023-06-20 Tesla, Inc. Computational array microprocessor system using non-consecutive data formatting
US11797304B2 (en) 2018-02-01 2023-10-24 Tesla, Inc. Instruction set architecture for a vector computational unit
US11561791B2 (en) 2018-02-01 2023-01-24 Tesla, Inc. Vector computational unit receiving data elements in parallel from a last row of a computational array
US11734562B2 (en) 2018-06-20 2023-08-22 Tesla, Inc. Data pipeline and deep learning system for autonomous driving
US11841434B2 (en) 2018-07-20 2023-12-12 Tesla, Inc. Annotation cross-labeling for autonomous control systems
US11636333B2 (en) 2018-07-26 2023-04-25 Tesla, Inc. Optimizing neural network structures for embedded systems
US11562231B2 (en) 2018-09-03 2023-01-24 Tesla, Inc. Neural networks for embedded devices
US11983630B2 (en) 2018-09-03 2024-05-14 Tesla, Inc. Neural networks for embedded devices
US11893774B2 (en) 2018-10-11 2024-02-06 Tesla, Inc. Systems and methods for training machine models with augmented data
US11665108B2 (en) 2018-10-25 2023-05-30 Tesla, Inc. QoS manager for system on a chip communications
CN109615358B (zh) * 2018-11-01 2020-11-03 北京伟景智能科技有限公司 一种基于深度学习图像识别的餐厅自动结算方法及***
CN109615358A (zh) * 2018-11-01 2019-04-12 北京伟景智能科技有限公司 一种基于深度学习图像识别的餐厅自动结算方法及***
US11816585B2 (en) 2018-12-03 2023-11-14 Tesla, Inc. Machine learning models operating at different frequencies for autonomous vehicles
US11537811B2 (en) 2018-12-04 2022-12-27 Tesla, Inc. Enhanced object detection for autonomous vehicles based on field view
US11908171B2 (en) 2018-12-04 2024-02-20 Tesla, Inc. Enhanced object detection for autonomous vehicles based on field view
US11610117B2 (en) 2018-12-27 2023-03-21 Tesla, Inc. System and method for adapting a neural network model on a hardware platform
CN109784295B (zh) * 2019-01-25 2020-12-25 佳都新太科技股份有限公司 视频流特征识别方法、装置、设备及存储介质
CN109784295A (zh) * 2019-01-25 2019-05-21 佳都新太科技股份有限公司 视频流特征识别方法、装置、设备及存储介质
US11748620B2 (en) 2019-02-01 2023-09-05 Tesla, Inc. Generating ground truth for machine learning from time series elements
US12014553B2 (en) 2019-02-01 2024-06-18 Tesla, Inc. Predicting three-dimensional features for autonomous driving
US11567514B2 (en) 2019-02-11 2023-01-31 Tesla, Inc. Autonomous and user controlled vehicle summon to a target
CN109977773B (zh) * 2019-02-18 2021-01-19 华南理工大学 基于多目标检测3d cnn的人体行为识别方法及***
CN109977773A (zh) * 2019-02-18 2019-07-05 华南理工大学 基于多目标检测3d cnn的人体行为识别方法及***
US11790664B2 (en) 2019-02-19 2023-10-17 Tesla, Inc. Estimating object properties using visual image data
CN109977872A (zh) * 2019-03-27 2019-07-05 北京迈格威科技有限公司 动作检测方法、装置、电子设备及计算机可读存储介质
CN110070002A (zh) * 2019-03-29 2019-07-30 上海理工大学 一种基于3d卷积神经网络的行为识别方法
WO2020206850A1 (zh) * 2019-04-09 2020-10-15 华为技术有限公司 基于高维图像的图像标注方法和装置
US11636346B2 (en) 2019-05-06 2023-04-25 Brown University Recurrent neural circuits
CN110348290A (zh) * 2019-05-27 2019-10-18 天津中科智能识别产业技术研究院有限公司 焦罐车安全预警视觉检测方法
CN110427831A (zh) * 2019-07-09 2019-11-08 淮阴工学院 一种基于融合特征的人体动作分类方法
US11322234B2 (en) 2019-07-25 2022-05-03 International Business Machines Corporation Automated content avoidance based on medical conditions
CN110490109A (zh) * 2019-08-09 2019-11-22 郑州大学 一种基于单目视觉的在线人体康复动作识别方法
CN110490109B (zh) * 2019-08-09 2022-03-25 郑州大学 一种基于单目视觉的在线人体康复动作识别方法
CN110503076B (zh) * 2019-08-29 2023-06-30 腾讯科技(深圳)有限公司 基于人工智能的视频分类方法、装置、设备和介质
CN110503076A (zh) * 2019-08-29 2019-11-26 腾讯科技(深圳)有限公司 基于人工智能的视频分类方法、装置、设备和介质
CN110598608A (zh) * 2019-09-02 2019-12-20 中国航天员科研训练中心 非接触式与接触式协同的心理生理状态智能监测***
CN110598608B (zh) * 2019-09-02 2022-01-14 中国航天员科研训练中心 非接触式与接触式协同的心理生理状态智能监测***
US11423223B2 (en) 2019-12-02 2022-08-23 International Business Machines Corporation Dynamic creation/expansion of cognitive model dictionaries based on analysis of natural language content
US11625422B2 (en) 2019-12-02 2023-04-11 Merative Us L.P. Context based surface form generation for cognitive system dictionaries
US12019661B2 (en) 2019-12-02 2024-06-25 Merative Us L.P. Context based surface form generation for cognitive system dictionaries
CN111259838B (zh) * 2020-01-20 2023-02-03 山东大学 服务机器人服务环境下深度理解人体行为的方法及***
CN111259838A (zh) * 2020-01-20 2020-06-09 山东大学 服务机器人服务环境下深度理解人体行为的方法及***
CN111507421A (zh) * 2020-04-22 2020-08-07 上海极链网络科技有限公司 一种基于视频的情感识别方法及装置
CN111783760A (zh) * 2020-06-30 2020-10-16 北京百度网讯科技有限公司 文字识别的方法、装置、电子设备及计算机可读存储介质
CN111783760B (zh) * 2020-06-30 2023-08-08 北京百度网讯科技有限公司 文字识别的方法、装置、电子设备及计算机可读存储介质
US11775845B2 (en) 2020-06-30 2023-10-03 Beijing Baidu Netcom Science And Technology Co., Ltd. Character recognition method and apparatus, electronic device and computer readable storage medium
CN111783692A (zh) * 2020-07-06 2020-10-16 广东工业大学 一种动作识别方法、装置及电子设备和存储介质
US11928849B2 (en) 2020-10-05 2024-03-12 International Business Machines Corporation Action-object recognition in cluttered video scenes using text
US11270147B1 (en) 2020-10-05 2022-03-08 International Business Machines Corporation Action-object recognition in cluttered video scenes using text
CN112232283B (zh) * 2020-11-05 2023-09-01 深兰科技(上海)有限公司 基于光流和c3d网络的气泡检测方法和***
CN112232283A (zh) * 2020-11-05 2021-01-15 深兰科技(上海)有限公司 基于光流和c3d网络的气泡检测方法和***
US11423252B1 (en) 2021-04-29 2022-08-23 International Business Machines Corporation Object dataset creation or modification using labeled action-object videos
CN113807318B (zh) * 2021-10-11 2023-10-31 南京信息工程大学 一种基于双流卷积神经网络和双向gru的动作识别方法
CN113807318A (zh) * 2021-10-11 2021-12-17 南京信息工程大学 一种基于双流卷积神经网络和双向gru的动作识别方法
CN117158904A (zh) * 2023-09-08 2023-12-05 上海市第四人民医院 基于行为分析的老年人认知障碍检测***及方法
CN117158904B (zh) * 2023-09-08 2024-05-24 上海市第四人民医院 基于行为分析的老年人认知障碍检测***及方法

Similar Documents

Publication Publication Date Title
CN108647591A (zh) 一种基于视觉-语义特征的视频中行为识别方法和***
Chen et al. Motion guided spatial attention for video captioning
Wang et al. A self-training approach for point-supervised object detection and counting in crowds
Gao et al. Disentangling propagation and generation for video prediction
Aich et al. Bidirectional attention network for monocular depth estimation
Yang et al. A part-aware multi-scale fully convolutional network for pedestrian detection
CN110276253A (zh) 一种基于深度学习的模糊文字检测识别方法
Mahjourian et al. Geometry-based next frame prediction from monocular video
CN109816689A (zh) 一种多层卷积特征自适应融合的运动目标跟踪方法
CN109558815A (zh) 一种实时多人脸的检测及跟踪方法
CN107633226A (zh) 一种人体动作跟踪识别方法及***
Wang et al. Robust object detection via instance-level temporal cycle confusion
Pavel et al. Recurrent convolutional neural networks for object-class segmentation of RGB-D video
CN110135446A (zh) 文本检测方法及计算机存储介质
Mo et al. Background noise filtering and distribution dividing for crowd counting
CN112101344B (zh) 一种视频文本跟踪方法及装置
CN112184767A (zh) 对运动物体进行轨迹跟踪的方法、装置、设备及存储介质
Liu et al. Density-aware and background-aware network for crowd counting via multi-task learning
Chu et al. Attention guided feature pyramid network for crowd counting
Ju et al. An improved YOLO V3 for small vehicles detection in aerial images
Aliakbarian et al. Deep action-and context-aware sequence learning for activity recognition and anticipation
Guo et al. DSCA: A Dual Semantic Correlation Alignment Method for domain adaptation object detection
Li et al. Multi-Scale correlation module for video-based facial expression recognition in the wild
Huang et al. Video frame prediction with dual-stream deep network emphasizing motions and content details
de Almeida Maia et al. Action recognition in videos using multi-stream convolutional neural networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20181012