CN112149616B

CN112149616B - 基于动态信息的人物交互行为识别方法

Info

Publication number: CN112149616B
Application number: CN202011087925.6A
Authority: CN
Inventors: 谢雪梅; 张晨; 李启越; 吴树奇; 石光明
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2020-10-13
Filing date: 2020-10-13
Publication date: 2023-10-20
Anticipated expiration: 2040-10-13
Also published as: CN112149616A

Abstract

本发明公开了一种基于动态信息的人物交互行为识别方法，通过生成人物交互训练集并搭建人物交互行为识别网络，克服了现有技术适用性不好、对往复动作和遮挡动作有误判的问题。本发明实现的步骤是：(1)生成人物交互训练集；(2)构建视觉特征提取模块；(3)构建空间特征提取模块；(4)构建时序特征提取模块；(5)构建人物交互行为识别网络；(6)训练人物交互行为识别网络；(7)识别视频图像中的人物交互行为。本发明具有人物交互行为识别网络识别交互行为识别率高、适用性好的优点，可用于视频图像中交互行为的识别。

Description

基于动态信息的人物交互行为识别方法

技术领域

本发明属于图像处理技术领域，更进一步涉及视频图像识别技术领域中的一种基于动态信息的人物交互行为识别方法。本发明可对视频图像中的人与物体之间发生交互时的行为进行识别。

背景技术

人物交互行为识别是视频分析，场景理解领域中很重要的一个问题，主要目的是从一段包含人和物体的视频图像或者序列中识别人与物体的交互行为，这其中的重点在于高效提取人和物体在时间和空间上的特征表达，融合其视觉特征进行交互配对，实现精确的人物交互行为识别，人物交互行为识别广泛应用于监控安防及人机交互等方面，已成为计算机视觉和模式识别技术领域中重要的研究课题之一。

现有的方法大多数针对图像做处理，通过目标检测方法提取出人和物体的特征，结合相对空间位置提取人和物体的交互特征，最后融合人和物体的特征与交互特征进行交互行为识别。其缺陷在于单个图像缺乏交互动作的动态信息，对交互行为的识别帮助有限，无法解决往复动作的歧义和遮挡导致的交互动作误判等问题。此外，目标检测方法在不同场景下的效果差异很大，需要针对性的微调，使得此类方法适用性不好。

Yu-Wei Chao等人在其发表的论文“Learning to Detect Human-ObjectInteractions.”(IEEE winter conference on applications of computer vision(wacv),2018,pp.381-389)中提出了用视觉特征和空间交互特征进行人物交互行为检测的方法。该方法利用现有的目标检测方法检测出图像中存在的人和物体，对获得的人和物体进行两两配对，通过深度神经网络提取人和物体的视觉特征，通过人和物体的空间相对位置描述其空间交互特征，最后融合人物视觉特征和空间交互特征进行人物交互识别。该方法存在的不足之处是：在人物交互行为识别中，图像缺乏交互动作的动态信息，无法表征时序上的特征，对起身坐下，拿起放下等往复动作无法精确判断，对有物体遮挡的交互动作也会有误判，因此导致识别率不高。

上海交通大学在申请的专利文献“基于深度学习融合各种交互信息的多人行为检测方法及***”(专利申请号202010289689.X，公开号111523421A)中公开了一种融合人物交互信息的行为检测方法。该方法通过目标检测方法提取视频图像中的人和物体的位置，然后将提取到的人和物***置输入深度神经网络提取人物交互、人人交互、人记忆交互三种不同的表征信息，并融合三种表征信息进行行为识别。该方法存在的不足之处是：在输入深度神经网络之前用目标检测方法检测视频图像中存在的人和物体，目标检测的效果决定了后续行为识别的结果，而目标检测方法在不同数据集，不同场景下的效果差异很大，需要针对性的微调，导致此方法的适用性不强。

发明内容

本发明的目的在于针对上述现有技术存在的不足，提出一种基于动态信息的的人物交互行为识别方法，以解决现有技术存在的适用性不好、对往复动作和遮挡动作有误判的问题。

实现本发明目的的技术思路是，利用siamrpn算法生成视频图像中所有帧的人所在区域位置和物体所在区域位置，构建视觉特征提取模块提取人物视觉特征，构建空间特征提取模块提取人物空间特征，构建时序特征提取模块融合人物视觉特征和人物空间特征，学习其在时间上的交互特征，对视频图像中的人物交互行为进行识别。

本发明的实现的具体步骤如下：

(1)生成人物交互训练集：

(1a)选取至少3000张视频图像组成样本集，每张视频图像中至少含有一种人物交互行为及与每种人物交互行为对应的类别标签；

(1b)标注每张视频图像中第一帧的人和物体所在区域，利用siamrpn算法，分别生成每张视频图像中所有帧的人所在区域位置和物体所在区域位置；

(1c)用每张视频图像每一帧中的人和物体所在区域的并集生成2张二值图像，第一张二值图像中人所在区域的像素值为1，其余的像素值为0，在第二张二值图像中物体所在区域的像素值为1，其余的像素值为0，将2张二值图像的大小压缩到64×64个像素；

(1d)将样本集中所有的视频图像、所有帧的人所在区域位置、所有帧的物体所在区域位置和压缩后的二值图像组成人物交互训练集；

(2)构建视觉特征提取模块：

(2a)搭建一个10层的视觉特征提取模块，其结构依次为：输入卷积层→最大池化层→第一残差块组→第二残差块组→第三残差块组→第四残差块组→全局平均池化层→第一全连接层→concat层→第二全连接层；

所述第一残差块组包括3个串联的残差块，每个残差块由三个卷积层串联组成；

所述第二残差块组包括8个串联的残差块，每个残差块由三个卷积层串联组成；

所述第三残差块组包括36个串联的残差块，每个残差块由三个卷积层串联组成；

所述第四残差块组包括3个串联的残差块，每个残差块由三个卷积层串联组成；

(2b)设置每层参数为：将输入卷积层的卷积核大小设置为7×7，卷积核数量设置为64，卷积核步长设置为2，第一至第四残差块组中残差块的卷积核步长均设置为1，每个残差块中对应位置的三个卷积核的大小均相同，依次为1×1、3×3、1×1，第一残差块组中残差块的三个卷积核数量依次设置为64、64、256，第二残差块组中残差块的三个卷积核数量依次设置为128、128、512，第三残差块组中残差块的三个卷积核数量依次设置为256、256、1024，第四残差块组中残差块的三个卷积核数量依次设置为512、512、2048，最大池化层的池化区域核大小设置为3×3，步长设置为2，第一、第二全连接层的输出神经元个数分别设置为512、300，concat层的拼接维度设置为第1维；

(3)构建空间特征提取模块：

(3a)搭建一个空间特征提取模块，其结构依次为：第一卷积层→第二卷积层→全连接层；

(3b)设置每层参数为：将两个卷积层的卷积核大小均设置为5×5，步长均设置为1，卷积核数量依次设置为64，32，全连接层的输出神经元个数设置为128；

(4)构建时序特征提取模块：

(4a)搭建一个时序特征提取模块；其结构依次为：concat层→长短期记忆LSTM→全连接层→softmax激活层；

(4b)设置每层参数为：将concat层的拼接维度设置为第2维；长短期记忆LSTM由3个长短期记忆LSTM单元组成；利用参数设定公式，分别设定每个长短期记忆LSTM单元的输入门、遗忘门、输出门、细胞信息和隐藏信息结构参数；全连接层的输出神经元个数设置为20；

(5)构建人物交互行为识别网络：

将视觉特征提取模块和空间特征提取模块并联后再与时序特征提取模块串联，组成人物交互行为识别网络；

(6)训练人物交互行为识别网络：

将训练集中的每张视频图像依次输入到人物交互行为识别网络中，利用梯度下降法更新迭代人物交互行为网络的每层参数，直到梯度值收敛，得到训练好的人物交互行为识别网络；

(7)识别视频图像中的人物交互行为：

(7a)对待识别视频图像采用与步骤(1b)相同的方法，分别生成待视频图像中所有帧的人所在区域位置和物体所在区域位置；

(7b)对待视频图像采用与步骤(1c)相同的方法，生成对应的二值图像；

(7c)将待识别视频图像、所有帧的人所在区域位置、所有帧的物体所在区域位置和二值图像输入到训练好的人物交互行为识别网络中，输出人物交互行为识别结果。

与现有技术相比，本发明具有以下优点：

第一，由于本发明在生成人物交互训练集时，标注视频图像第一帧中的人和物体所在区域，并利用siamrpn算法生成每张视频图像中所有帧的人所在区域位置和物体所在区域位置，克服了现有技术的人物交互行为识别方法中依赖目标检测效果，导致在不同场景下识别效果差异大，适用性不强的问题，使得本发明能够适用于不同场景。

第二，由于本发明构建了一个由视觉特征提取模块、空间特征提取模块、时序特征提取模块组成的人物交互行为识别网络，克服了现有技术的人物交互行为识别方法缺乏交互动作的动态信息，无法解决往复动作的歧义和遮挡导致的交互动作误判的问题，使得本发明能够有效地提取视频图像中的时空信息，提高了人物交互行为识别的准确率。

附图说明

图1是本发明的流程图；

图2是本发明视觉特征提取模块的结构示意图；

图3是本发明人物交互行为识别网络的结构示意图。

具体实施方式

下面结合附图对本发明进行详细说明。

结合附图1对本发明的实现步骤做进一步的描述。

步骤1，生成人物交互训练集。

(1.1)选取至少3000张视频图像组成样本集，每张视频图像中至少含有一种人物交互行为及与每种人物交互行为对应的类别标签。

(1.2)标注每张视频图像中第一帧的人和物体所在区域，利用siamrpn算法，分别生成每张视频图像中所有帧的人所在区域位置和物体所在区域位置。

所述的siamrpn算法的步骤如下：

第1步，将已标注好的视频图像中第一帧的人或物体所在区域作为初始模板区域。

第2步，从视频图像中选取当前帧的下一帧，将初始模板区域的尺寸扩大一倍作为所选帧的搜索区域。

第3步，将初始模板区域和所选帧的搜索区域同时输入到孪生特征提取网络中，输出初始模板区域外观特征图和所选帧的搜索区域外观特征图，所述的孪生提取网络由模板区域提取网络和搜索区域提取网络孪生组成。

第4步，将初始模板区域外观特征图和所选帧的搜索区域外观特征图同时输入到区域生成网络中，获得多个候选区域及其外观特征图，初始模板区域外观特征图和多个候选区域外观特征图经过卷积层生成两个分支，第一个分支输出初始模板和候选区域匹配的得分，第二个分支输出对应候选区域的位置。

第5步，判断是否选完视频图像的所有帧，若是，生成该视频图像所有帧的人所在区域位置或物体所在区域位置后执行本步骤的(1.3)，否则，执行本步骤的第2步。

(1.3)用每张视频图像每一帧中的人和物体所在区域的并集生成2张二值图像，第一张二值图像中人所在区域的像素值为1，其余的像素值为0，在第二张二值图像中物体所在区域的像素值为1，其余的像素值为0，将2张二值图像的大小压缩到64×64个像素。

(1.4)将样本集中所有的视频图像、所有帧的人所在区域位置、所有帧的物体所在区域位置和压缩后的二值图像组成人物交互训练集。

步骤2，构建视觉特征提取模块。

结合附图2对视觉特征提取模块的结构做进一步的描述。

搭建一个10层的视觉特征提取模块，其结构依次为：输入卷积层→最大池化层→第一残差块组→第二残差块组→第三残差块组→第四残差块组→全局平均池化层→第一全连接层→concat层→第二全连接层。

所述第一残差块组包括3个串联的残差块，每个残差块由三个卷积层串联组成。

所述第二残差块组包括8个串联的残差块，每个残差块由三个卷积层串联组成。

所述第三残差块组包括36个串联的残差块，每个残差块由三个卷积层串联组成。

所述第四残差块组包括3个串联的残差块，每个残差块由三个卷积层串联组成。

设置每层参数为：将输入卷积层的卷积核大小设置为7×7，卷积核数量设置为64，卷积核步长设置为2，第一至第四残差块组中残差块的卷积核步长均设置为1，每个残差块中对应位置的三个卷积核的大小均相同，依次为1×1、3×3、1×1，第一残差块组中残差块的三个卷积核数量依次设置为64、64、256，第二残差块组中残差块的三个卷积核数量依次设置为128、128、512，第三残差块组中残差块的三个卷积核数量依次设置为256、256、1024，第四残差块组中残差块的三个卷积核数量依次设置为512、512、2048，最大池化层的池化区域核大小设置为3×3，步长设置为2，第一、第二全连接层的输出神经元个数分别设置为512、300，concat层的拼接维度设置为第1维。

步骤3，构建空间特征提取模块。

搭建一个空间特征提取模块，其结构依次为：第一卷积层→第二卷积层→全连接层。

设置每层参数为：将两个卷积层的卷积核大小均设置为5×5，步长均设置为1，卷积核数量依次设置为64，32，全连接层的输出神经元个数设置为128。

步骤4，构建时序特征提取模块。

搭建一个时序特征提取模块；其结构依次为：concat层→长短期记忆LSTM→全连接层→softmax激活层。

设置每层参数为：将concat层的拼接维度设置为第2维；长短期记忆LSTM由3个长短期记忆LSTM单元组成；利用参数设定公式，分别设定每个长短期记忆LSTM单元的输入门、遗忘门、输出门、细胞信息和隐藏信息结构参数；全连接层的输出神经元个数设置为20。

所述的参数设定公式如下：

h_m,t＝o_m,t⊙tanh(c_m,t)

其中，i_m,t表示t时刻第m个LSTM单元的输入门门控信号，所述门控信号为0到1之间的数值，m＝1、2、3，σ(·)表示sigmoid激活函数，表示t时刻第m个LSTM单元的输入门门控信号i_m,t与t时刻第m个LSTM单元的输入向量x_m,t之间的权重，/>表示t时刻第m个LSTM单元的输入门门控信号i_m,t与t-1时刻第m个LSTM单元的隐藏信息h_m,t-1之间的权重，/>表示t时刻第m个LSTM单元的输入门门控信号i_m,t与t-1时刻第m个LSTM单元的细胞信息c_m,t-1之间的权重，/>表示t时刻第m个LSTM单元输入门门控信号i_m,t的偏置，f_m,t表示t时刻第m个LSTM单元的遗忘门门控信号，/>表示t时刻第m个LSTM单元的遗忘门门控信号f_m,t与t时刻第m个LSTM单元的输入向量x_m,t之间的权重，/>表示t时刻第m个LSTM单元的遗忘门门控信号f_m,t与t-1时刻第m个LSTM单元的隐藏信息h_m,t-1之间的权重，/>表示t时刻第m个LSTM单元的遗忘门门控信号f_m,t与t-1时刻第m个LSTM单元的细胞信息c_m,t-1之间的权重，/>表示t时刻第m个LSTM单元遗忘门门控信号f_m,t的偏置，⊙表示点乘操作，tanh(·)表示tanh激活函数，/>表示t时刻第m个LSTM单元的细胞信息c_m,t与t时刻第m个LSTM单元的输入向量x_m,t之间的权重，/>表示t时刻第m个LSTM单元的细胞信息c_m,t与t-1时刻第m个LSTM单元的隐藏信息h_m,t-1之间的权重，/>表示t时刻第m个LSTM单元细胞信息c_m,t的偏置，o_m,t表示t时刻第m个LSTM单元的输出门门控信号，/>表示t时刻第m个LSTM单元的输出门门控信号o_m,t与t时刻第m个LSTM单元的输入向量x_m,t之间的权重，/>表示t时刻第m个LSTM单元的输出门门控信号o_m,t与t-1时刻第m个LSTM单元的隐藏信息h_m,t-1之间的权重，/>表示t时刻第m个LSTM单元的输出门门控信号o_m,t与t-1时刻第m个LSTM单元的细胞信息c_m,t-1之间的权重，/>表示t时刻第m个LSTM单元输出门门控信号o_m,t的偏置。

所述sigmoid激活函数和tanh激活函数的公式如下：

其中，x表示激活函数的输入，e^(·)表示以自然常数e为底数的指数操作。

步骤5，构建人物交互行为识别网络。

参照附图3，人物交互行为识别网络由三个模块组成：视觉特征提取模块、空间特征提取模块、时序特征提取模块。

将视觉特征提取模块和空间特征提取模块并联后再与时序特征提取模块串联，组成人物交互行为识别网络。

步骤6，训练人物交互行为识别网络。

将训练集中的每张视频图像依次输入到人物交互行为识别网络中，利用梯度下降法更新迭代人物交互行为网络的每层参数，直到梯度值收敛，得到训练好的人物交互行为识别网络。

所述的梯度下降法的步骤如下：

第1步，将人物交互行为识别网络的学习率设置为0.001。

第2步，将输入训练人物交互行为识别网络时训练集中当前视频经时序特征提取模块的输出值与该视频图像的类别标签值的差值作为当前迭代更新的梯度值。

第3步，利用下式，更新迭代人物交互行为识别网络的各层参数：

其中，表示迭代更新后的人物交互行为识别网络的参数值，←表示赋值操作，θ表示人物交互行为识别网络迭代更新前的参数值，▽J表示人物交互行为识别网络的当前迭代更新的梯度值。

第4步，判断当前迭代更新的梯度值是否收敛，若是，则停止对参数的迭代更新，得到训练好的人物交互行为识别网络，否则，将当前视频图像的下一个视频图像作为当前视频图像后执行本步骤第2步。

步骤7，识别视频图像中的人物交互行为。

对待识别视频图像采用与步骤1(1.2)相同的方法，分别生成待视频图像中所有帧的人所在区域位置和物体所在区域位置。

对待视频图像采用与步骤1(1.3)相同的方法，生成对应的二值图像。

将待识别视频图像、所有帧的人所在区域位置、所有帧的物体所在区域位置和二值图像输入到训练好的人物交互行为识别网络中，输出人物交互行为识别结果。

Claims

1.一种基于动态信息的人物交互行为识别方法，其特征在于，在生成人物交互训练集时，标注视频图像第一帧中的人和物体所在区域，并利用siamrpn算法生成每张视频图像中所有帧的人所在区域位置和物体所在区域位置，构建人物交互行为识别网络，对视频图像中的人物交互行为进行识别，该方法的步骤包括如下：

(1)生成人物交互训练集：

所述的siamrpn算法的步骤如下：

第一步，将已标注好的视频图像中第一帧的人或物体所在区域作为初始模板区域；

第二步，从视频图像中选取当前帧的下一帧，将初始模板区域的尺寸扩大一倍作为所选帧的搜索区域；

第三步，将初始模板区域和所选帧的搜索区域同时输入到孪生特征提取网络中，输出初始模板区域外观特征图和所选帧的搜索区域外观特征图，所述的孪生特征提取网络由模板区域提取网络和搜索区域提取网络孪生组成；

第四步，将初始模板区域外观特征图和所选帧的搜索区域外观特征图同时输入到区域生成网络中，获得多个候选区域及其外观特征图，初始模板区域外观特征图和多个候选区域外观特征图经过卷积层生成两个分支，第一个分支输出初始模板和候选区域匹配的得分，第二个分支输出对应候选区域的位置；

第五步，判断是否选完视频图像的所有帧，若是，生成该视频图像所有帧的人所在区域位置或物体所在区域位置，否则，执行第二步；

(2)构建视觉特征提取模块：

(3)构建空间特征提取模块：

(4)构建时序特征提取模块：

(4b)设置每层参数为：将concat层的拼接维度设置为第2维；长短期记忆LSTM由三个长短期记忆LSTM单元组成；利用参数设定公式，分别设定每个长短期记忆LSTM单元的输入门、遗忘门、输出门、细胞信息和隐藏信息结构参数；全连接层的输出神经元个数设置为20；

(5)构建人物交互行为识别网络：

(6)训练人物交互行为识别网络：

(7)识别视频图像中的人物交互行为：

2.根据权利要求1所述的基于动态信息的人物交互行为识别方法，其特征在于，步骤(4b)中所述的参数设定公式如下：

h_m,t＝o_m,t⊙tanh(c_m,t)

其中，i_m,t表示t时刻第m个LSTM单元的输入门门控信号，所述门控信号为0到1之间的数值，m＝1、2、3，σ(·)表示sigmoid激活函数，表示t时刻第m个LSTM单元的输入门门控信号i_m,t与t时刻第m个LSTM单元的输入向量x_m,t之间的权重，/>表示t时刻第m个LSTM单元的输入门门控信号i_m,t与t-1时刻第m个LSTM单元的隐藏信息h_m,t-1之间的权重，/>表示t时刻第m个LSTM单元的输入门门控信号i_m,t与t-1时刻第m个LSTM单元的细胞信息c_m,t-1之间的权重，/>表示t时刻第m个LSTM单元输入门门控信号i_m,t的偏置，f_m,t表示t时刻第m个LSTM单元的遗忘门门控信号，/>表示t时刻第m个LSTM单元的遗忘门门控信号f_m,t与t时刻第m个LSTM单元的输入向量x_m,t之间的权重，/>表示t时刻第m个LSTM单元的遗忘门门控信号f_m,t与t-1时刻第m个LSTM单元的隐藏信息h_m,t-1之间的权重，/>表示t时刻第m个LSTM单元的遗忘门门控信号f_m,t与t-1时刻第m个LSTM单元的细胞信息c_m,t-1之间的权重，/>表示t时刻第m个LSTM单元遗忘门门控信号f_m,t的偏置，⊙表示点乘操作，tanh(·)表示tanh激活函数，/>表示t时刻第m个LSTM单元的细胞信息c_m,t与t时刻第m个LSTM单元的输入向量x_m,t之间的权重，/>表示t时刻第m个LSTM单元的细胞信息c_m,t与t-1时刻第m个LSTM单元的隐藏信息h_m,t-1之间的权重，/>表示t时刻第m个LSTM单元细胞信息c_m,t的偏置，o_m,t表示t时刻第m个LSTM单元的输出门门控信号，/>表示t时刻第m个LSTM单元的输出门门控信号o_m,t与t时刻第m个LSTM单元的输入向量x_m,t之间的权重，/>表示t时刻第m个LSTM单元的输出门门控信号o_m,t与t-1时刻第m个LSTM单元的隐藏信息h_m,t-1之间的权重，/>表示t时刻第m个LSTM单元的输出门门控信号o_m,t与t-1时刻第m个LSTM单元的细胞信息c_m,t-1之间的权重，/>表示t时刻第m个LSTM单元输出门门控信号o_m,t的偏置；

所述sigmoid激活函数和tanh激活函数的公式如下：

3.根据权利要求1所述的基于动态信息的人物交互行为识别方法，其特征在于，步骤(6)中所述的梯度下降法的步骤如下：

第一步，将人物交互行为识别网络的学习率设置为0.001；

第二步，将输入训练人物交互行为识别网络时训练集中当前视频经时序特征提取模块的输出值与该视频图像的类别标签值的差值作为当前迭代更新的梯度值；

第三步，利用下式，更新迭代人物交互行为识别网络的各层参数：

其中，表示迭代更新后的人物交互行为识别网络的参数值，←表示赋值操作，θ表示人物交互行为识别网络迭代更新前的参数值，/>表示人物交互行为识别网络的当前迭代更新的梯度值；

第四步，判断当前迭代更新的梯度值是否收敛，若是，则停止对参数的迭代更新，得到训练好的人物交互行为识别网络，否则，将当前视频图像的下一个视频图像作为当前视频图像后执行第二步。