CN108171134A

CN108171134A - 一种操作动作辨识方法及装置

Info

Publication number: CN108171134A
Application number: CN201711387866.2A
Authority: CN
Inventors: 唐海川; 李欣旭; 龚明; 孙帮成; 田寅
Original assignee: CRRC Industry Institute Co Ltd
Current assignee: CRRC Industry Institute Co Ltd
Priority date: 2017-12-20
Filing date: 2017-12-20
Publication date: 2018-06-15

Abstract

本发明提供一种操作动作辨识方法及装置。所述方法包括：获取待识别的视频片段，其中，所述待识别的视频片段中包含一种动作类型；根据所述待识别的视频片段和预先建立的动作识别标识模型，识别出所述待识别视频的动作类型。本发明提供的操作动作辨识方法及装置能够从像素级原始数据到抽象的语义概念逐层提取信息，其所抽取的特征比人工设计的特征更具有高效的表达能力，能快速准确地对操作动作进行辨识。

Description

一种操作动作辨识方法及装置

技术领域

本发明涉及机器视觉模式技术领域，具体涉及一种操作动作辨识方法及装置。

背景技术

城市轨道交通承担了城市内部与城郊之间大规模的运输任务，是现代城市公共客运交通体系的重要组成部分，保证其运行安全尤为重要。根据我国轨道交通***事故统计数据，导致重大行车事故的原因中，列车司机的操作失误等人为因素占有主要比例。因此，实时监测列车司机，及早发现其操作失误并给予警示与纠正，对减少安全事故及人员伤亡有着十分重要的现实意义。

然而现有的司机监测***，大多用于监测司机的身体状态。例如高速列车的防猝死***，该***只能简单的辨识司机的存活情况；还有一些穿戴式设备，通过测量司机的心电与脉搏信号，从而判断司机的当前工作状态，但是该设备严重影响司机对列车的操作。由于人体运动的复杂性和不确定性，动作识别则是一个具有较高难度的课题，现阶段没有一套成熟的设备可以直接辨识列车司机的操作动作。

在一般性的动作识别方面，大多数方法都致力于设计有效的运动特征，然后通过该特征进行动作分类。例如密集轨迹(DT)算法，将运动数据进行动态时间规整(DTW)，随后提取其图像灰度直方图(HOG)、光流正方图(HOF)以及光流梯度直方图(MBH)，最后将其编码，从而得到运动描述特征并进行分类。这些方法的识别精度依赖于运动特征的好坏，针对不同场景需要进行不同优化，因此泛用性较差。此外，动作识别的精确度也依赖于所才采集数据的维度，包含深度信息三维数据或者基于双目视觉的运动数据就比普通单目视觉的运动数据能够记录更多的相对位置信息，因此更容易被辨识，然而其所需要的传感器也更加复杂，不便于加装在地铁司机内。

因此，如何提出一种方法，能够快速识别操作动作的种类，成为亟待解决的问题。

发明内容

针对现有技术中的缺陷，本发明提供了一种操作动作辨识方法及装置。

第一方面，本发明提供一种操作动作辨识方法，包括：

获取待识别的视频片段，其中，所述待识别的视频片段中包含一种动作类型；

根据所述待识别的视频片段和预先建立的动作辨识模型，识别出所述待识别视频的动作类型。

第二方面，本发明提供一种操作动作辨识装置，包括：

获取模块，用于获取待识别的视频片段，其中，所述待识别的视频片段中包含一种动作类型；

识别模块，用于根据所述待识别的视频片段和预先建立的动作辨识模型，识别出所述待识别视频的动作类型。

本发明提供的操作动作辨识方法及装置，基于深度学习网络，融合3D卷积神经网络和长短时记忆网络。相比于传统的动作辨识算法，深度学习能够从像素级原始数据到抽象的语义概念逐层提取信息，其所抽取的特征比人工设计的特征更具有高效的表达能力，因此在图像识别方面有突出的优势。此外，3D卷积神经网络能够获取连续的图像帧，比只读取单一图像的卷积神经网络多获取了时序上的信息。而后，长短时记忆网络可以应对不同速率的运动形式，因此本发明提供的网络在实现动作检测的基础上，结构清晰，复杂度低，端对端运行，极大程度地简化了辨识算法流程。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例中提供的操作动作辨识方法的流程示意图；

图2是本发明实施例提供的进行动作辨识时人物相应位置示意图；

图3是本发明又一实施例提供的操作动作辨识方法的流程示意图；

图4是本发明实施例提供的深度学习网络的结构示意图；

图5是本发明又一实施例提供的深度学习网络的3D卷积过程示意图；

图6是本发明实施例中提供的操作动作辨识装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明实施例中提供的操作动作辨识方法的流程示意图，如图1所示，所述方法包括：

S101、获取待识别的视频片段，其中，所述待识别的视频片段中包含一种动作类型；

S102、根据所述待识别的视频片段和预先建立的动作辨识模型，识别出所述待识别视频片段中的动作类型。

具体地，图2是本发明实施例提供的进行动作辨识时人物相应位置示意图，如图2所示。本发明实施例可采用彩色摄像机或红外视觉传感器获取地铁司机工作视频，由于地铁中光线较暗，在本发明中优选地为采用红外视觉传感器。

在采集过程中，人物2距离摄像头1为0.8-1.2米。为应对地铁司机室内的光照变化，摄像头2采用单个红外摄像头，镜头焦距为55mm，拍摄角度为60°-90°，拍摄过程中，摄像头2拍摄视频的分辨率要求在640*480以上。

在地铁列车中安装单个红外摄像机，拍摄地铁司机的工作视频，并对拍摄的工作视频进行处理，获取待识别的视频片段，其中，所述待识别的视频片段中包含一种动作类型。

在实际的对视频中的动作类型进行辨识时，将待识别的视频片段输入到预先建立的动作标识辨识模型中，服务器经过计算及识别，给出待识别视频片段中的动作类型。

本发明实施例构建一个融合了3D卷积神经网络和长短时记忆网络的模型，该模型利用3D卷积神经网络接受视频的输入，同时使用长短时记忆网络扩展模型对不同速率动作的兼容性，最后根据所述待识别的视频片段和构建的动作识别模型，识别出所述待识别视频的动作类型。

本发明提供的操作动作辨识方法，能够从像素级原始数据到抽象的语义概念逐层提取信息，其所抽取的特征比人工设计的特征更具有高效的表达能力，能快速准确地对操作动作进行辨识。

可选地，所述动作辨识模型采用如下步骤建立：

根据采集的视频选择不同种类的操作动作的视频，建立操作动作数据库；

根据所述操作动作数据库，对预先建立的深度学习网络模型进行训练，确定所述动作辨识模型。

在上述实施例的基础上，图3是本发明又一实施例提供的操作动作辨识方法的流程示意图；在对视频片段中的动作类型进行识别的时候，需要提前建立动作辨识模型，具体的建立过程如下：

使用单个红外摄像机无间断拍摄地铁司机工作视频，采集至少一周的视频，随后根据列车操作守则，筛选并截取出正确的相关操作动作，并将其分为N类，构建司机操作动作数据库。随后在筛选视频构建数据库时，每个动作类别中的单个样本应为只包含一个动作的视频文件或者视频帧合集。

在训练该网络模型时，由于模型结构要求，要求将输入数据即样本视频进行格式化。

例如，对于样本库的一个样本i，属于类型j，该样本i应为包含一个动作的视频，假设共有a帧图像。首先将其分割成(为向下取整)份片段，每个片段内包含16帧，若最后一个片段不足16帧则舍弃该片段，并将每一帧的分辨率采用线性插值法调整到128*128，构建一个128*128*16的帧流。同时，将该样本的标签j进行独热编码(One-Hot Encoding)编码，生成一个N*1维的向量，第j个元素为1，其余都为零。随后将样本i的每个帧流与标签j绑定，因此一个样本可以转成个输入。训练时，将80％的样本作为训练集，10％的样本作为验证集，10％的样本作为测试集进行训练。

使用司机操作动作数据库进行训练，从而获得一个可以用于动作分类的模型即所述动作辨识模型。

本发明提供的操作动作辨识方法，基于深度学习网络，融合3D卷积神经网络和长短时记忆网络。相比于传统的动作辨识算法，深度学习能够从像素级原始数据到抽象的语义概念逐层提取信息，其所抽取的特征比人工设计的特征更具有高效的表达能力，因此在图像识别方面有突出的优势。此外，3D卷积神经网络能够获取连续的图像帧，比只读取单一图像的卷积神经网络多获取了时序上的信息。而后，长短时记忆网络可以应对不同速率的运动形式，因此本发明提供的网络在实现动作检测的基础上，结构清晰，复杂度低，端对端运行，极大程度地简化了辨识算法流程。

可选地，所述深度学习网络模型包括3D卷积神经网络与长短时记忆网络。可选地，所述深度学习网络模型具体结构包括：多个卷积层、多个池化层、一个全连接层、一个长短时记忆层以及一个Softmax输出层。

在上述实施例的基础上，图4是本发明实施例提供的深度学习网络的结构示意图；图5为本发明又一实施例提供的深度学习网络的3D卷积过程示意图；

结合图4和图5的内容，下面举具体的例子来说明深度学习网络模型的训练过程。该网络模型中包含8个卷积层(1-8)、5个池化层(9-13)、1个全连接层(14)、1个长短时记忆层(15)以及1个Softmax输出层(16)。

以下是每层的具体构造：

Conv1→Pool1→Conv2→Pool2→Conv3a→Conv3b→Pool3→Conv4a→Conv4b→Pool4→Conv5a→Conv5b→Pool5→fc6→lstm7→Softmax

卷积层1，接受128*128*16*1的输入。其中128*128是指输入图片的宽度和高度，16是指连续16帧图，1是指图片为单通道。卷积核大小为3*3*3，其权值采用均值为0、方差为1的正太分布初始化，移动步长为1，输入边界填充为0，激活函数为Relu函数，其公式如下：

f(x)＝max(0,x)

对于普通卷积层，其输入是二维数组，因此经历单个卷积核卷积后的输出应为单张特征图，不能很好提取时间维度上的特征。与普通卷积神经网络不同，该网络的卷积核是三维结构，如图5所示的卷积过程，卷积核一次能够接受连续多帧图片的输入并处理，同时获取样本的时间与空间信息，输出结果则是的多个特征图的集合，将其称为特征体。最终，卷积层1将会输出64个128*128*16*1的特征体。

池化层9，接受64个128*128*16*1特征体的输入。与卷积过程类似，池化核是三维结构，其大小为2*2*1，权值采用均值为0、方差为1的正太分布初始化，移动步长为1，一次能够接受一个特征体的输入并进行最大值池化。因此，池化层9将会输出64个64*64*16*1的特征体。

卷积层2，接受64个64*64*16*1的特征体的输入。卷积核大小为3*3*3，其权值采用均值为0、方差为1的正太分布初始化，移动步长为1，输入边界填充为0，激活函数为Relu函数，最终输出128个64*64*16*1的特征体。

池化层10，接受128个64*64*16*1特征体的输入。池化核大小为2*2*2，其权值采用均值为0、方差为1的正太分布初始化，移动步长为1，进行最大值池化。因此，池化层10将会输出128个32*32*8*1的特征体。

卷积层3，接受128个32*32*8*1的特征体的输入。卷积核大小为3*3*3，其权值采用均值为0、方差为1的正太分布初始化，移动步长为1，输入边界填充为0，激活函数为Relu函数，最终输出256个32*32*8*1的特征体。

卷积层4，接受256个32*32*8*1的特征体的输入。卷积核大小为3*3*3，其权值采用均值为0、方差为1的正太分布初始化，移动步长为1，输入边界填充为0，激活函数为Relu函数，最终输出256个32*32*8*1的特征体。

池化层11，接受256个32*32*8*1特征体的输入。池化核大小为2*2*2，其权值采用均值为0、方差为1的正太分布初始化，移动步长为1，进行最大值池化。因此，池化层11将会输出256个16*16*4*1的特征体。

卷积层5，接受256个16*16*4*1的特征体的输入。卷积核大小为3*3*3，其权值采用均值为0、方差为1的正太分布初始化，移动步长为1，输入边界填充为0，激活函数为Relu函数，最终输出512个16*16*4*1的特征体。

卷积层6，接受512个16*16*4*1的特征体的输入。卷积核大小为3*3*3，其权值采用均值为0、方差为1的正太分布初始化，移动步长为1，输入边界填充为0，激活函数为Relu函数，最终输出512个16*16*4*1的特征体。

池化层12，接受512个16*16*4*1特征体的输入。池化核大小为2*2*2，其权值采用均值为0、方差为1的正太分布初始化，移动步长为1，进行最大值池化。因此，池化层12将会输出512个8*8*2*1的特征体。

卷积层7，接受512个8*8*2*1的特征体的输入。卷积核大小为3*3*3，其权值采用均值为0、方差为1的正太分布初始化，移动步长为1，输入边界填充为0，激活函数为Relu函数，最终输出512个8*8*2*1的特征体。

卷积层8，接受512个8*8*2*1的特征体的输入。卷积核大小为3*3*3，其权值采用均值为0、方差为1的正太分布初始化，移动步长为1，输入边界填充为0，激活函数为Relu函数，最终输出512个8*8*2*1的特征体。

池化层13，接受512个8*8*2*1特征体的输入。池化核大小为2*2*2，其权值采用均值为0、方差为1的正太分布初始化，移动步长为1，进行最大值池化。因此，池化层13将会输出512个4*4*1*1的特征体。

全连接层14，接受512个4*4*1*1的特征体输入。共有4096个节点，权值采用均值为0、方差为1的正太分布初始化，并使用Relu激活函数。全连接层14将会输出4096的特征值。

长短时记忆层15，接受4096个特征值输入。其包含4096个单元，每个单元有中放置了输入门、遗忘门和输出门。生成1000的特征值输出给Softmax层16。权值采用均值为0、方差为1的正太分布初始化。对于3D卷积层，虽然能够接受时间上的输入，但其能在时序上进行的判断相对固定，因此对于速率不稳定的动作效果有限。而长短时记忆是一种时间递归神经网络，可以用于处理和预测时间序列中间隔和延迟变化相对较大的事件。因此使用长短时记忆层输出1000个特征值给Softmax进行动作分类。

Softmax层16，有N个节点，每个节点对应一种类型动作，并输出目标为该类别的概率，对于节点n，Softmax的公式如下：

y_n＝f(W_n,x_n)

即为Softmax输出该样本为第n类的概率。y_n为该节点从前一层网络获取的值。

训练过程中，使用交叉熵损失函数，考虑数值计算稳定性情况后，softmax损失函数的公式如下：

对于样本i，它的正确分类类别是j，如果模型输出的值是1，说明分类正确，这种情况对损失函数没有贡献。但是，如果分类错误，的值小于1，此时损失函数的值增大，因此，训练过程将会优化权重趋向使得的值趋近于1，从而减小损失函数。未经训练时，由于权重随机生成，因此每个分类的概率就是1/N，因此在没有增加正则化的情况下损失接近

对所有样本引入L1正则化惩罚后，损失函数的公式为：

训练过程使用随机梯度下降(SGD)，B为批量数，取30个样本为一个批量，学习率开始设为0.003，然后每经过10w次迭代计算后减半，每次迭代都会反向更新网络每层的权重。根据损失函数得到的最终梯度方向为：

P_i,N是样本i的标签独热向量，维度是N*1，第j个元素值为1，其它的元素值为0。P_N是网络模型输出的样本i在N个分类上的概率。当损失变化随训练过程趋于稳定之后，则停止训练。

训练完成后，则可以使用该模型进行动作辨识。在动作辨识时，首先使用红外摄像机采集一段动作，然后将其输入动作辨识模型，所述动作辨识模型将给出判断结果，结果为动作库里的某一类动作或者是不属于动作库中的其它动作，从而实现动作辨识。

可选地，所述不同种类的操作动作的视频的获取步骤如下：将原始视频被分割成具体为多个连续16帧图片的片段集合，再依次输入所述深度学习网络模型视频。所述视频且包含所述视频的时间信息和所述图片中动作执行主体的空间位置信息。

在上述实施例的基础上，具体地，例如图片中司机的空间位置信息，用于记忆不同运动速率的动作，从而实现一个精准的动作辨识结果。

可选地，所述动作类型至少包括：指差操作、推操作、拉操作、安检操作及手势操作。

在上述实施例的基础上，所述动作类型至少包括：司机的指差操作、推操作、拉操作、安检操作及手势操作，且这些操作类型都存储在操作动作数据库中。

本发明实施例提供的操作动作辨识方法，基于深度学习网络，融合3D卷积神经网络和长短时记忆网络。相比于传统的动作辨识算法，深度学习能够从像素级原始数据到抽象的语义概念逐层提取信息，其所抽取的特征比人工设计的特征更具有高效的表达能力，因此在图像识别方面有突出的优势。此外，3D卷积神经网络能够获取连续的图像帧，比只读取单一图像的卷积神经网络多获取了时序上的信息。而后，长短时记忆网络可以应对不同速率的运动形式，因此本发明提供的网络在实现动作检测的基础上，结构清晰，复杂度低，端对端运行，极大程度地简化了辨识算法流程。

图6为本发明实施例提供的操作动作辨识装置的结构示意图，如图6所示，所述装置包括：获取模块10和识别模块20，其中：

获取模块10用于获取待识别的视频片段，其中，所述待识别的视频片段中包含一种动作类型；

识别模块20用于根据所述待识别的视频片段和预先建立的动作辨识模型，识别出所述待识别视频的动作类型。

本发明实施例提供的操作动作辨识装置包括获取模块10和识别模块20，获取模块10获取待识别的视频片段，其中，所述待识别的视频片段中包含一种动作类型，识别模块20根据所述待识别的视频片段和预先建立的动作辨识模型，识别出所述待识别视频的动作类型。

本发明提供的操作动作辨识装置，能够从像素级原始数据到抽象的语义概念逐层提取信息，其所抽取的特征比人工设计的特征更具有高效的表达能力，能快速准确地对操作动作进行辨识。

可选地，所述动作辨识模型采用如下步骤建立：

在上述实施例的基础上，参见图3所示的操作动作辨识方法的流程示意图，在对视频片段中的动作类型进行识别的时候，需要提前建立动作辨识模型，具体的建立过程如下：

本发明提供的操作动作辨识装置，基于深度学习网络，融合3D卷积神经网络和长短时记忆网络。相比于传统的动作辨识算法，深度学习能够从像素级原始数据到抽象的语义概念逐层提取信息，其所抽取的特征比人工设计的特征更具有高效的表达能力，因此在图像识别方面有突出的优势。此外，3D卷积神经网络能够获取连续的图像帧，比只读取单一图像的卷积神经网络多获取了时序上的信息。而后，长短时记忆网络可以应对不同速率的运动形式，因此本发明提供的网络在实现动作检测的基础上，结构清晰，复杂度低，端对端运行，极大程度地简化了辨识算法流程。

可选地，所述深度学习网络模型包括3D卷积神经网络与长短时记忆网络。

可选地，所述深度学习网络模型具体结构包括：多个卷积层、多个池化层、一个全连接层、一个长短时记忆层以及一个Softmax输出层。可选地，所述深度学习网络模型具体结构包括：多个卷积层、多个池化层、一个全连接层、一个长短时记忆层以及一个Softmax输出层。

具体的训练过程如方法实施例中介绍，在此不做具体介绍。

本发明提供的方法及装置，对于辨识摄像设备正前方的人物所做动作效果较好，地铁司机室内的监测情况适用于本算法所擅长的场景。此外，本发明提供的方法及装置，基于单目红外视觉，设备架构简单，便于改装进地铁司机室内。因此本发明提供的方法及装置，在地铁司机操作辨识***尚不成熟的现阶段，能够为地铁司机违规操作辨识***提供解决方案。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

以上所描述的装置以及***实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

Claims

1.一种操作动作辨识方法，其特征在于，包括：

根据所述待识别的视频片段和预先建立的动作辨识模型，识别出所述待识别视频片段中的动作类型。

2.根据权利要求1所述的方法，其特征在于，所述动作辨识模型采用如下步骤建立：

3.根据权利要求2所述的方法，其特征在于，所述深度学习网络模型包括3D卷积神经网络与长短时记忆网络。

4.根据权利要求3所述的方法，其特征在于，所述深度学习网络模型具体结构包括：多个卷积层、多个池化层、一个全连接层、一个长短时记忆层以及一个Softmax输出层。

5.根据权利要求2所述的方法，其特征在于，所述不同种类的操作动作的视频的获取步骤如下：

将原始视频被分割成多个连续16帧图片的片段集合，再依次输入所述深度学习网络模型。所述视频包含时间信息和所述图片中动作执行主体的空间位置信息。

6.根据权利要求2所述的方法，其特征在于，所述动作类型至少包括：指差操作、推操作、拉操作、安检操作及手势操作。

7.一种操作动作辨识装置，其特征在于，包括：

8.根据权利要求7所述的装置，其特征在于，所述动作辨识模型采用如下步骤建立：

9.根据权利要求8所述的装置，其特征在于，所述深度学习网络模型包括3D卷积神经网络与长短时记忆网络。

10.根据权利要求9所述的装置，其特征在于，所述深度学习网络模型具体结构包括：多个卷积层、多个池化层、一个全连接层、一个长短时记忆层以及一个Softmax输出层。