CN111523421A

CN111523421A - 基于深度学习融合各种交互信息的多人行为检测方法及***

Info

Publication number: CN111523421A
Application number: CN202010289689.XA
Authority: CN
Inventors: 汤佳俊; 夏锦; 牟芯志; 庞博; 卢策吾
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2020-04-14
Filing date: 2020-04-14
Publication date: 2020-08-11
Anticipated expiration: 2040-04-14
Also published as: CN111523421B

Abstract

一种基于深度学习融合各种交互信息的多人行为检测方法及***，通过构建带有标签的视频库作为样本集对行为检测网络进行训练，并将训练后的网络处理待测视频，根据最终的输出向量实现对区域中对象行为的检测。本发明充分考虑了人类行为的复杂性，在考虑人的自身运动的同时，综合了其与其他人、物体以及长期记忆信息的交互关系，有效地提高了视频行为检测的精度。

Description

基于深度学习融合各种交互信息的多人行为检测方法及***

技术领域

本发明涉及的是一种人工智能视频识别领域的技术，具体是一种基于深度学习融合各种交互信息的多人行为检测方法及***。

背景技术

计算机视觉的目标是利用计算机程序处理各种不同的视觉任务，往往涉及到图像、视频等多媒体。卷积神经网络是广泛运用在计算机视觉任务中的一种深度学习技术，它通过训练图像卷积操作中的滤波器参数，得到更加通用的深度鲁棒表征，这些表征的形式是高维的向量或矩阵，能够用于行为检测或分类，即对视频中出现的人的位置进行检测，并对其各自发生的行为进行判断。

现有的行为检测技术一般通过检测出人的边界框，通过三维卷积神经网络提取出视频的表征，通过线性插值的方式根据人的边界框从视频表征中提取出人的区域表征，最后通过人的区域表征进行最终的判断。其缺陷在于仅考虑单个人在其边界框内部的动作变化，没有对人与其他人或物体之间的交互信息进行利用，无法准确检测更为复杂的交互类行为，如开门、看电视、与他人对话等行为。

发明内容

本发明针对现有技术存在的上述不足，提出一种基于深度学习融合各种交互信息的多人行为检测方法及***，通过提取三种不同的表征信息，并进一步进行融合，在没有明显增加计算量的基础上，提高了多人行为检测的精度，具有较好的可行性和鲁棒性。

本发明是通过以下技术方案实现的：

本发明涉及一种基于深度学习融合各种交互信息的多人行为检测方法，通过构建带有标签的视频库作为样本集对行为检测网络进行训练，并将训练后的网络处理待测视频，根据最终的输出向量实现对区域中对象行为的检测。

所述的带有标签的视频库，通过以下方式得到：将样本集中的视频等间隔标注后，将视频尺寸进行归一化处理，并依照以每个标注帧裁剪为若干片段，例如：对于每个标注帧，以该帧为中间帧前后各取32帧的内容，得到相应的一个64帧的片段。

所述的等间隔标注的内容包括：帧中每个人的边界框以及在该帧前后各1.5秒的时间区间内每个人各自发生的行为。

所述的边界框采用但不限于Faster-R卷积神经网络、YOLO等一系列较为成熟的图像物体检测算法得到，检测后的每张标注帧同时具有了该帧上所出现的各类物体的边界框及类别。

所述的行为检测网络包括：一个用于提取视频表征的三维卷积神经网络、带有记忆池的表征抽取模块、一个多交互关系建模融合网络、三个全连接层和一个sigmoid回归层，其中：三维卷积神经网络根据输入的视频片段提取出视频表征并输出至表征抽取模块，表征抽取模块利用RoIAlign对视频表征上的各个边界框区域进行线性插值并经过池化得到人和物体的区域表征的同时表征抽取模块通过记忆池得到记忆表征，多交互关系建模融合网络对人和物体的区域表征以及记忆表征进行建模融合得到鲁棒行为表征，通过全连接层和sigmoid回归层得到各个类别的预测概率。

所述的三维卷积神经网络采用但不限于I3D网络、SlowFast网络、C3D网络等常用的视频表征提取网络。

根据边界框区域内的内容不同，表征抽取模块可以得到人的区域表征和物体的区域表征。

所述的记忆池根据每个视频片段中人和物体的区域表征中人的区域表征，通过将当前片段的历史片段中人的区域表征的拼接，得到记忆表征。

所述的多交互关系建模融合网络包括：两个用于接收人的区域表征的人人交互建模模块、两个用于分别接收人的区域表征和物体的区域表征的人物交互建模模块、两个用于分别接收人的区域表征和记忆表征的人记忆建模交互模块，其中：第一人人交互建模模块、第一人物交互建模模块、第一人记忆建模交互模块、第二人人交互建模模块、第二人物交互建模模块、第二人记忆建模交互模块依次连接并传输经依次增强的人的区域表征，每个交互建模模块对人人交互、人物交互、人记忆交互中的一种交互关系进行建模，并与人的区域表征融合后传输至下一个模块中，最终输出的人的区域表征综合融合人人交互、人物交互、人记忆交互关系，即为最终输出的鲁棒行为表征。

所述的人人交互是指：同一个视频片段中不同的行为人之间的交互。

所述的人物交互是指：同一个视频片段中行为人与物体之间产生的交互。

所述的人记忆交互是指：当前片段中的行为人与历史较长期的临近片段中的行为人之间的交互。

所述的建模是指：

其中：Q，K分别为输入的两种表征，W_Q，W_K1，W_K2，W_O是全连接层的权重，d是KW_K1的维度。

根据输入表征K的不同，模块处理不同的交互关系：K的取值包括人的区域表征、物体的区域表征以及记忆表征，对应的建模模块依次对应处理人人交互、人物交互和记忆交互并输出融合该类型交互信息的对应表征；当六个模块串联后，上一个建模模块的输出进一步作为下一个的Q进行输入，最终对多种不同的交互关系进行了融合。

所述的三个全连接层包括两个隐含层和一个输出层。

所述的sigmoid回归层包括sigmoid函数以及交叉熵损失函数，输出层的输出向量经过sigmoid层能够得到各个类别的预测概率，交叉熵损失函数用于训练整个网络。

所述的训练是指：将样本集中的样本及相应的物体边界框以及设置于表征抽取模块中的记忆池中的临近视频片段的人的区域表征作为行为检测网络的输入，采用交叉熵损失函数，结合反向传播BP算法调整网络参数，同时将该视频片段中的人的区域表征更新到记忆池中。

所述的处理待测视频是指：将待检测的视频输入到物体检测算法和训练后的行为检测网络中，利用sigmoid回归层得到最终对各个行为的预测概率。

技术效果

本发明整体解决了长视频中出现的每个人的行为进行检测的技术问题，即：对于视频中的某一帧中所出现的人，需要给出每个人的边界框，以及每个人在该帧前后一小段时间内各自发生的行为；与现有技术相比，本发明充分考虑了人类行为的复杂性，在考虑人的自身运动的同时，综合了其与其他人、物体以及长期记忆信息的交互关系，有效地提高了视频行为检测的精度。

附图说明

图1为本发明网络训练流程图；

图2为本发明测试待测视频流程图；

图3为本发明中交互建模模块的示意图；

图中：N代表视频片段中人的数量，N’代表视频片段中交互对象的数量，即人的区域表征的数量或物体的区域表征数量或记忆表征中所有的人的数量；

图4为本发明中多交互关系建模融合网络的示意图；

图中每个小矩形代表一个交互建模模块，左侧的输入为Q，下方的输入为K，根据不同的K，对不同的交互进行建模。

具体实施方式

本实施例涉及一种基于深度学习融合各种交互信息的多人行为检测***，包括：训练样本获取模块、物体检测模块、融合多种交互的行为检测网络模块，其中：训练样本获取模块的样本以及物体检测模块的物体检测框作为行为检测网络模块的输入，行为检测网络经训练后利用人和物体的边界框区域得到人、物的区域表征以及记忆表征的模型，并进一步在此表征上进行多分类判断，物体检测模块对待测视频中的人和物进行检测，行为检测网络模块根据物体检测模块的检测结果进一步测试推断得到对视频中每个人行为的判断。

所述的行为检测网络包括：一个用于提取视频表征的三维卷积神经网络、表征抽取模块、一个多交互关系建模融合网络、三个全连接层和一个sigmoid回归层，其中：三维卷积神经网络根据输入的视频片段提取出视频表征并输出至表征抽取模块，表征抽取模块利用RoIAlign对视频表征上的各个边界框区域进行线性插值并经过池化得到人和物体的区域表征，同时表征抽取模块中的记忆池得到记忆表征，多交互关系建模融合网络根据人、物体的区域表征和记忆表征进行对应的建模融合得到鲁棒行为表征，通过全连接层和sigmoid回归层得到各个类别的预测概率。

如图1所示，上述行为检测网络，具体通过以下步骤实现训练：

步骤1，对三维卷积神经网络进行初始化，使用在其他视频行为分类数据集上进行过预训练的权重来进行初始化。

在本实施例中，采用了SlowFast网络作为三维卷积神经网络的具体结构，该网络首先在Kinetics行为分类数据集上进行预训练，使用预训练后的权重初始化三维卷积网络的结构。对于行为检测网络中的其他部分参数，使用一些不同的小随机数进行初始化。

其他场合下可以使用某些行为分类数据集进行预训练，如Kinetics、UCF、HMDB等。

步骤2，对设置于表征抽取模块内用于提供一个视频片段的长期记忆表征的记忆池进行初始化：在训练的开始阶段，使用全零的向量进行初始化。

步骤3，数据处理及读入：

步骤3.1：收集不同场景的长视频，并将长视频按照一秒的间隔进行标注。即再对某一帧上进行标签的标注后，在与该帧间隔一秒的下一帧上再进行标注，依此类推。标注的内容包括这一帧图像上所有人的边界框，以及每个人在该帧前后各1.5秒的时间内所发生的行为类别。在本实施例中，采用了AVA(Atomic Visual Action)数据集作为作为验证本发明方法有效性的数据集。

步骤3.2：对于每一个带有标注的帧，在该帧上运行物体检测算法，检测出该帧中出现的常见物体类别，物体类别中应当不包括人。在本实施例中，本实施例采用Faster R-卷积神经网络算法作为物体检测模块。

步骤3.3：对于每一个带有标注的帧，抽取出该帧前后共64帧的视频片段，并归一化到256×464(高×宽)，输入到行为检测网络中的视频片段为64×256×464×3的张量，其中3为RGB颜色通道。

步骤3.4：将样本集中所有的视频片段随机打乱顺序，以增加训练时的随机性。样本集中包含多个长视频，因此训练时使用的视频片段可能来自于不同的长视频。每个迭代中从样本集中随机抽取一个视频片段用于训练。

步骤3.5：将视频片段及其对应的中间帧上的人的边界框、人的行为类别以及检测算法所检测的物体的边界框输入到行为检测网络中。

步骤4，训练迭代：

步骤4.1：将样本集中随机选取的视频片段输入到三维卷积网络中，得到整个视频片段的表征为16×29×2304(高×宽×深度)张量；使用表征抽取模块，根据人和物体的边界框，在视频片段的表征上进行插值得到7×7×2304的张量，进一步池化得到每个人或物体的区域表征为为2304维度的向量。

步骤4.2；将步骤4.1得到的当前片段中人的区域表征更新到记忆池中，并判断：当记忆池中没有该片段的表征，直接存入即可，否则将记忆池中该片段的表征删除，更新为本次迭代中提取的表征。

步骤4.3：从记忆池中读取历史片段的表征，构成记忆表征：记忆池中存在来自于不同长视频的视频片段中人的区域表征，从中读取与当前片段同属于一个长视频，且时间在当前片段前30秒内的30个视频片段中人的区域的表征；拼接所有表征形成该片段的记忆表征，当每个视频片段中存在5个人的区域表征，30×5＝150，则记忆表征的维度为150×2304的表征张量。

步骤4.4：将人的区域表征、物体的区域表征以及记忆表征输入到多交互关系建模融合网络中，该多交互关系建模融合网络中的各个模块分别用于建模不同的交互关系，如图3所示，具体为：

其中：Q，K分别为输入的两种表征，W_Q，W_K1，W_K2，W_O是全连接层的权重，维度均为1024×1024，d是KW_K1的维度，即1024。图4为多交互关系建模融合网络的整体结构示意图，上一个模块的输出作为下一个模块的输入Q，而K采用不同的输入表征：人的区域表征、物体的区域表征和记忆表征，以融合个中不同的交互关系，得到更为鲁棒的行为表征。输入到该结构中的各类表征被全连接层降维到1024维，最终该多交互关系建模融合网络得到多个人的行为表征，即N×1024，N代表该片段中人的数量。

步骤4.5：将步骤4.4得到的多个人的行为表征输入三个全连接层，即两个隐含层和一个输出层，并经过sigmoid回归层得到损失函数的值，其中两个隐含层的权重大小为1024×1024，输出层权重的规模为1024×C，C为涉及的行为类别总数，在AVA数据集中为80。根据损失函数，使用BP算法，对整个行为检测网络进行优化。

所述的优化的参数部分包括：三维卷积神经网络中的参数、多交互关系建模融合网络中各交互建模模块中的参数、三个全连接层中的参数。

步骤5：当步骤4.5中的优化达到最大次数，则终止训练，否则返回步骤4.1继续进行训练迭代。

如图2所示，所述的测试推断，包括以下步骤：

步骤i：获取待检测视频。

步骤ii：对待测视频进行切分和归一化：从待测视频中连续抽取含64帧的视频片段，每个片段归一化到256×464(高×宽)，下一个片段与上一个片段的开始时间间隔为一秒钟。视频片段需要按照时间先后顺序依次输入到步骤5训练后的行为检测网络中。

步骤iii，在待测视频上进行测试推断，具体包括：

步骤a：从数据输入模块读取已处理的视频片段，在该片段的中间帧上运行物体检测算法，检测出该帧中出现的人和常见物体。在本实施例中，本实施例采用Faster R-卷积神经网络算法作为物体检测模块。

步骤b：将该视频片段输入到三维卷积网络中，得到该视频片段的表征，为16×29×2304(高×宽×深度)的张量。使用表征抽取模块，根据人和物体的边界框，在视频片段的表征上利用RoIAlign进行插值得到7×7×2304的张量，进一步池化得到人的区域表征和物体的区域表征为2304维度的向量。

步骤c：将该片段中人的区域表征保存到记忆池中。

步骤d：从记忆池中读取该片段前30个已测视频片段的人的区域表征，并拼接组成当前片段的记忆表征。若某个已测视频片段的表征不存在，或与当前片段不属于同一段待测视频，则使用零向量补充。假定每个视频片段中存在5个人的区域表征，30×5＝150，则记忆表征的维度为150×2304的表征张量。

步骤e：将人的区域表征、物体的区域表征、记忆表征输入到多交互关系建模融合网络中。输出得到该片段中每个人的行为表征，维度为N×1024，N代表该片段中人的数量。

步骤f：行为表征经过三个全连接层和sigmoid函数层，得到每个人发生不同行为的概率，一个维度为N×C的矩阵，其中：N为该片段中人的数量，C为行为类别的数量，在AVA数据集中为80。该矩阵中的每个数值为0至1的小数，代表某个人在该片段中进行某个行为的判断概率。当概率大于阈值，则判断为发生该行为，否则为未发生该行为。存在同时发生一种以上行为的情况。

步骤iv：当该待测视频的最后一个片段处理完成，则结束或处理其它待测视频，否则返回步骤3继续处理下一个视频片段。

本实施例在AVA数据集的验证视频上进行验证，根据测试步骤f中阈值的不同选取，对本方法的性能评测数据如表1所示。该性能评测的标准为，在某项检测结果与某个标签行为类别一致，且二者边界框IoU(Intersection over Union)大于0.5时，该项检测结果被认为正确。所述IoU的计算方式为，两个框所占区域的并集区域面积与两个框所占区域的交集区域面积之比。

表1检测性能评测数据

阈值	0.3	0.4	0.5	0.6
					召回率	42.45％	33.85％	26.76％	20.82％
精确度	31.61％	42.94％	56.63％	72.84％

表1中所述阈值，为检测待测视频时对某个行为所得预测概率大于该值时，判定为发生该行为，通过召回率和精确率两个指标判断检测类任务的效果：召回率

精确度

其中TP为真阳性的数量，FN为假阴性的数量，即预测判定为发生某类行为的样本在实际发生这类行为的样本总数中所占比例，FP为假阳性的数量，即预测判定为发生某类行为的样本中实际发生这类行为的样本的所占比例。

在共同考虑召回率和精确率的基础上，综合可视化结果分析，本实施例中所选阈值为0.5。在该阈值下，AVA数据集中80个类别的全部验证视频上的检测性能数据为：召回率26.76％，精确度42.94％。而AVA数据集中最为常见的10个类别的验证视频上的检测性能评测数据为：召回率63.64％，精确度76.51％，即：10000个发生行为的待测的人中，能够正确检测出其中6364个人的边界框和行为；检测出的10000个人中，有7651个人的边界框和行为是正确的。

上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整，本发明的保护范围以权利要求书为准且不由上述具体实施所限，在其范围内的各个实现方案均受本发明之约束。

Claims

1.一种基于深度学习融合各种交互信息的多人行为检测方法，其特征在于，通过构建带有标签的视频库作为样本集对行为检测网络进行训练，并将训练后的网络处理待测视频，根据最终的输出向量实现对区域中对象行为的检测；

2.根据权利要求1所述的方法，其特征是，所述的带有标签的视频库，通过以下方式得到：将样本集中的视频等间隔标注后，将视频尺寸进行归一化处理，并依照以每个标注帧裁剪为若干片段。

3.根据权利要求1所述的方法，其特征是，所述的等间隔标注的内容包括：帧中每个人的边界框以及在该帧前后各1.5秒的时间区间内每个人各自发生的行为。

4.根据权利要求1所述的方法，其特征是，所述的三维卷积神经网络采用I3D网络、SlowFast网络、C3D网络。

5.根据权利要求1所述的方法，其特征是，所述的记忆池根据每个视频片段中人和物体的区域表征中人的区域表征，通过将当前片段的历史片段中人的区域表征的拼接，得到记忆表征。

6.根据权利要求1所述的方法，其特征是，所述的多交互关系建模融合网络包括：两个用于接收人的区域表征的人人交互建模模块、两个用于分别接收人的区域表征和物体的区域表征的人物交互建模模块、两个用于分别接收人的区域表征和记忆表征的人记忆建模交互模块，其中：第一人人交互建模模块、第一人物交互建模模块、第一人记忆建模交互模块、第二人人交互建模模块、第二人物交互建模模块、第二人记忆建模交互模块依次连接并传输经依次增强的人的区域表征，每个交互建模模块对人人交互、人物交互、人记忆交互中的一种交互关系进行建模，并与人的区域表征融合后传输至下一个模块中，最终输出的人的区域表征综合融合人人交互、人物交互、人记忆交互关系，即为最终输出的鲁棒行为表征；

所述的人人交互是指：同一个视频片段中不同的行为人之间的交互；

所述的人物交互是指：同一个视频片段中行为人与物体之间产生的交互；

7.根据权利要求6所述的方法，其特征是，所述的建模是指：

其中：Q，K分别为输入的两种表征，W_Q，W_K1，W_K2，W_O是全连接层的权重，d是KW_K1的维度；

8.根据权利要求1所述的方法，其特征是，所述的三个全连接层包括两个隐含层和一个输出层。

9.根据权利要求1所述的方法，其特征是，所述的sigmoid回归层包括sigmoid函数以及交叉熵损失函数，输出层的输出向量经过sigmoid层能够得到各个类别的预测概率，交叉熵损失函数用于训练整个网络。

10.根据权利要求1所述的方法，其特征是，所述的训练是指：将样本集中的样本及相应的物体边界框以及设置于表征抽取模块中的记忆池中的临近视频片段的人的区域表征作为行为检测网络的输入，采用交叉熵损失函数，结合反向传播BP算法调整网络参数，同时将该视频片段中的人体区域表征更新到记忆池中。

11.一种权利要求1～10中任一所述方法的多人行为检测***，其特征在于，包括：训练样本获取模块、物体检测模块、融合多种交互的行为检测网络模块，其中：训练样本获取模块的样本以及物体检测模块的物体检测框作为行为检测网络模块的输入，行为检测网络经训练后利用人和物体的边界框区域得到人、物的区域表征以及记忆表征的模型，并进一步在此表征上进行多分类判断，物体检测模块对待测视频中的人和物进行检测，行为检测网络模块根据物体检测模块的检测结果进一步测试推断得到对视频中每个人行为的判断。