CN116129129A

CN116129129A - 一种人物交互检测模型及检测方法

Info

Publication number: CN116129129A
Application number: CN202211225111.3A
Authority: CN
Inventors: 汤庆飞; 李利梅; 封晓强; 曹毅超
Original assignee: NANJING ENBO TECHNOLOGY CO LTD
Current assignee: NANJING ENBO TECHNOLOGY CO LTD
Priority date: 2022-10-09
Filing date: 2022-10-09
Publication date: 2023-05-16
Anticipated expiration: 2042-10-09
Also published as: CN116129129B

Abstract

本发明公开了一种人物交互检测模型及检测方法，属于人物交互检测领域。针对现有技术中存在的在HOI检测中获取人物互动特征信息困难、检测多人物时会产生错误预测等问题，本发明提供了一种人物交互检测模型及检测方法，通过增强小目标模块获取输入图像的多尺度特征，将多尺度特征融合后得到输入特征图，输入特征图分别输入到交互区域学习模块和交互动作学习模块中提取不同的特征信息，再与姿态提取特征模块提取输入图像中人的姿态特征信息共同融合后输出，从而实现在HOI检测中，对输入图像中人物的特征进行精细化处理，更加关注人物交互的区域，凸显出人物交互的关键特征。

Description

一种人物交互检测模型及检测方法

技术领域

本发明涉及人物交互检测技术领域，更具体地说，涉及一种人物交互检测模型及检测方法。

背景技术

人物交互(human-object interraction，HOI)检测主要用于识别特定应用场景下人与物体的相互关系，利用人体、物体以及人物对的特征将人与物体之间的交互进行关联，从而实现对图像或视频中动作的定位及分类。与传统的个体视觉任务如人的检测、物体检测、动作识别和关键点检测不同，HOI检测需要对图像内容进行更高层次的语义理解。HOI检测主要通过全局检测模型将空间、外观与人体姿态在内的感知信息进行整合，生成场景中人物对的关系。HOI检测的数据对象主要包括图像和视频两类。一个成功的HOI检测器必须同时具备两点，一是准确地定位每个交互实体实例对；二是同时识别它们对应的操作。此外，HOI检测可以与计算机视觉的其他工作协作以完成复杂任务，如目标检测、动作检索、字幕生成等，具有广阔的应用前景。

现有技术中，多数的HOI检测方法仅仅是把人作为一个实例来进行检测，但这种检测方法只利用外观特征和粗糙的空间信息来预测所有可能的人与物体之间的交互，不足以识别复杂的人物交互关系，从而在检测场景中存在的所有物体时，把不可能与人发生交互关系的物体也一并检测，一方面浪费了检测时间，使得HOI检测的计算难度增大，另一方面这种检测方式只关注人体的整体外观特征，忽略人物交互的特征互动动作以及交互检测的精度。因此，在HOI检测中如何检测到人物交互的特征动作以及提高交互检测的精度，是现有技术亟需解决的问题。

发明内容

1.要解决的技术问题

针对现有技术中存在的在HOI检测中检测人物互动动作特征信息困难以及检测多人单物时会产生错误预测等问题，本发明提供了一种人物交互检测模型及检测方法，它可以实现在对人物对进行检测时，对特征互动动作信息进行精细化处理，使之更加关注人物交互的区域，凸显出人物交互的关键特征。

2.技术方案

本发明的目的通过以下技术方案实现。

一种人物交互检测模型，包括增强小目标检测模块、交互区域学习模块、交互动作学习模块和姿态提取特征模块，

所述增强小目标检测模块，接收输入图像并获取输入图像的多尺度特征，将多尺度特征融合后得到特征图，所述特征图作为输入特征图；

所述交互区域学习模块，包括空间-通道注意力模块，空间-通道注意力模块对输入特征图进行精细化处理；

所述交互动作学习模块，通过transformer自注意力结构获取输入特征图中人物交互的动作特征信息；

所述姿态提取特征模块，提取输入图像中人的姿态特征信息；

所述增强小目标模块获取输入图像的多尺度特征，将多尺度特征融合后得到输入特征图，输入特征图分别输出到交互区域学习模块和交互动作学习模块中提取不同的特征信息后，再与姿态提取特征模块提取输入图像中人的姿态特征信息共同融合后输出。

进一步地，在所述增强小目标检测模块中，多尺度特征融合后表示为：

z＝Conv{Up「conv(Up(z₄))+z₃]}+z₂

其中，Z表示来自主干网络的视觉特征，z2、z3、z4分别表示以resnet为主干网络的第2层、第3层和第4层特征输出，Up表示将输入特征图的空间维度扩大2倍。

进一步地，在所述交互区域学习模块中，所述空间-通道注意力模块中，空间注意力用于寻找输入特征图中最重要的区域，通道注意力用于突出各个输入特征图之间的重要性。

进一步地，所述空间-通道注意力模块，其空间注意力表示为：

A^sp(z)＝σ[softmax(pool(W₀(z)))×W_v(z)]

其中，Wq和Wv是1x1的卷积层，pool表示全局池化操作；

其通道注意力表示为：

z^ch＝Res(z)⊙^chW_Z(W_S(pool(z))+z

其中，Res表示为Resnet模块，W_E和Ws表示全连接层；

空间-通道注意力模块表示为：

z’＝A^sp(z)⊙^spz^ch。

进一步地，所述交互区域学习模块中，DETR检测网络获取输入特征图中人物的区域坐标，通过区域坐标采用裁剪的方式获取感兴趣的区域特征；对获取的区域特征，采用掩码的方式只保留该区域特征图上人物的区域特征信息。

进一步地，所述交互动作学习模块中，采用transformer的编码结构获取交互动作特征信息；DETR检测网络获取输入特征图中人物的区域坐标，通过区域坐标采用裁剪的方式获取感兴趣的区域特征信息。

进一步地，所述姿态提取特征模块中，DETR检测网络获取人物的区域坐标，通过区域坐标采用裁剪的方式从输入图像中获取人的姿态特征信息。

进一步地，所述交互区域学习模块、交互动作学习模块和姿态提取特征模块采用全局池化的方式将获取的区域特征信息和姿态特征信息压缩到指定维度。

一种基于人物交互检测模型的检测方法，步骤如下：

采用预训练的DETR模型获取主干网络中人物的位置和类别特征信息；

所述增强小目标模块将多尺度特征融合后得到的特征图作为输入特征图；

所述交互区域学习模块和所述交互动作学习模块获取输入特征图中不同的特征信息；

所述姿态提取特征模块提取输入图像中人的姿态特征信息；

将各模块获取的特征信息进行融合后输出到交互解码器中；

交互解码器输出解码后的人物交互特征信息。

进一步地，所述主干网络为resnet50网络，所述交互解码器为transformer解码器。

3.有益效果

相比于现有技术，本发明的优点在于：

本发明的一种人物交互检测模型及检测方法，通过增强小目标检测模块、交互区域学习模块、交互动作学习模块和姿态提取特征模块，加强对小目标区域的精准定位，提高小目标人物交互的准确率，并且对输入特征图进行精细化处理，能够更加关注人物交互的区域，凸显出人物交互的关键特征；此外，通过提取人物姿态特征信息，解决了交互检测网络无法识别人物姿态的问题，进一步提升了交互检测的精度。

附图说明

图1为本发明的网络结构框架图；

图2为本发明的交互区域学习模块中的空间-通道注意力模块细节实现。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例；而且，各个实施例之间不是相对独立的，根据需要可以相互组合，从而达到更优的效果。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合说明书附图和具体的实施例，对本发明作详细描述。

实施例

如图1所示，本实施例提供的一种人物交互检测模型及检测方法，包括增强小目标检测模块、交互区域学习模块、交互动作学习模块和姿态提取特征模块。所述增强小目标检测模块，接收输入图像并获取输入图像的多尺度特征，将多尺度特征融合后得到特征图，所述特征图作为输入特征图。所述交互区域学习模块，包括空间-通道注意力模块，空间-通道注意力模块对输入特征图进行精细化处理。所述交互动作学习模块，通过transformer自注意力结构获取输入特征图中人物交互的动作信息。所述姿态提取特征模块，提取输入图像中人的姿态特征信息。所述增强小目标模块获取输入图像的多尺度特征，将多尺度特征融合后得到输入特征图，输入特征图分别输出到交互区域学习模块和交互动作学习模块中提取不同的特征信息，再与姿态提取特征模块提取输入图像中人的姿态特征信息共同融合后输出。

具体到本实施例中，在所述增强小目标检测模块中，对主干网络的后三层z2、z3和z4进行多尺度融合。由于z1层属于浅层信息，虽有空间信息但语义信息不强，并且可能含有较多的噪声信息，提供的特征信息有限，因此对z1层不做处理。后三层z2、z3和z4层中，浅层的z2层包含较多的空间信息，深层的z4层包含较多的语义信息，通过对后三层z2、z3和z4层的融合，能够获得较好的空间及语义信息。具体地，首先对z4层的特征做2倍上采样，通过1x1的Conv层，将特征通道由2048维压缩至1024维，并与z3层的特征做相加操作进行特征融合。接着同样地，对z3层融合后的特征做2倍上采样，通过1x1的Conv层，将特征通道由1024维压缩至512维，并与z2层的特征做相加操作进行特征融合。得到融合后的特征图fp(I)，将该特征图fp(I)作为交互区域学习模块和交互动作学习模块的输入特征图。所述增强小目标检测模块加强了对小目标区域的精准定位，提高小目标人物交互的准确率。需要说明的是，本实施例中所述的2倍上采样是指将输入特征图的空间维度扩大2倍，使得该输入特征图的维度和上一层输入特征图维度一致，便于输入特征图融合。如z4层的特征维度为2048x8x8，通过1x1的Conv层降通道，维度变为1024x8x8，再通过2倍上采样后，维度为2048x16x16，即可与z3层的特征相加融合操作。

对主干网络的后三层z2、z3和z4进行多尺度特征融合，多尺度特征融合后表示为：

z＝Conv{Up[Conv(Up(z₄))+z₃]}+z₂

其中，Z表示来自主干网络的视觉特征，z2、z3、z4分别表示以resnet为主干网络的第2层、第3层和第4层特征输出，Up表示将输入特征图的空间维度扩大2倍，这里需要注意的是，输入特征图的空间维度不能扩大的其他倍数，只能是2倍关系，因为z2与z3，z3与z4上下两层之间的特征维度刚好相差2倍。

在所述交互区域学习模块中，通过可学习的空间-通道注意力模块，对输入特征图进行精细化处理。需要说明的是，在空间-通道注意力模块中，通道注意力采用的是现有技术中的SE模块，在本实施例中构建了空间注意力模块，如图2所示，其具体步骤为：首先，选取的输入特征图的尺寸为CxHxW，其中C为通道数2048维；其次，在空间注意力模块部分，经过Wq卷积32倍下采样后维度为64xHxW，最大池化操作后维度为64x1x1，softmax柔性最大值传输函数操作及转置后维度为1x1x64。原始输入特征图经过Wv卷积32倍下采样后维度为64xHxW。两者相乘后维度为1xHxW，再通过sigmoid激活函数操作；再次，在通道注意力模块部分，借助SE模块，得到维度为2048xHxW的特征；最后，空间注意力模块的输出与通道注意力模块的输出相乘，得到最终维度为2048xHxW的特征。

通过DETR模型生成的人和物的位置信息，进一步地处理成人物交互对的坐标信息，通过坐标信息，在精细化处理的输入特征图上通过感兴趣区域裁剪方式(ROI crop)，获取人物对交互的局部特征信息。为了进一步地去掉局部特征中的背景信息，对其做掩码处理，将局部特征中背景信息置为0，人和物的特征信息不变。通过最大池化操作，得到NxD的特征表示。其中，N表示人物交互对，该值与图像中出现的人物数量有关，如一张图像中有2个人、4个物，那么人物交互对的数量为10对；D表示特征维度512维。

在空间-通道注意力模块中，空间注意力用于寻找输入特征图中最重要的区域，其空间注意力表示为：

A^sp(z)＝σ[softmax(pool(W₀(z)))×W_v(z)]

其中，Wq和Wv可以是1x1的卷积层，也可以是3x3的卷积层，Wq和Wv用于降维操作，可以将通道数由2048维降至64维，降低运算量。pool表示全局池化操作，Z表示来自主干网络的视觉特征，即z＝f_b(I)，f_b(I)表示z4层的特征输出。

通道注意力用于突出各个输入特征图之间的重要性，其通道注意力表示为：

z^ch＝Res(z)⊙^chW_E(W_s(pool(z))+z

其中，Res表示为Resnet模块，⊙^ch表示通道乘法，W_E和Ws是同一种操作方式，同属于全连接层，均为了增强通道注意力的表征能力。

最终，空间-通道注意力模块表示为：

z’＝A^sp(z)⊙^spz^ch

其中，⊙^sp表示空间乘法。

利用空间-通道注意力模块，对特征进行精细化处理，能够更加关注人物交互的区域，凸显出人物交互的关键特征；通过对感兴趣区域裁剪的方法，能够显示地获取交互区域的特征，并且通过掩码操作保证交互区域内有且仅有选中的人物交互对。

在所述交互动作学习模块中，通过transformer结构获取交互动作信息。采用类似交互区域的裁剪操作及池化操作，获取NxD，即Nx512维的特征表示。根据DETR模型获取到人和物的token信息，通过人物对组合的方式，得到该图像中所有的人物对，其中人物对表示为Nx(2D)，即Nx1024维，接着通过全连接操作，将Nx1024维映射为Nx512维。对主干网络的输出特征首先经过1x1Conv操作，特征通道由2048维压缩为512维，然后通过全局池化操作，将特征压缩到NxD，即Nx512维，用作全局特征，用于弥补裁剪操作中全局信息的丢失。

在所述姿态提取特征模块中，提取输入图像中人的姿态特征信息。输入图像到姿态估计网络，获取该网络主干部分的输出特征。DETR检测网络获取人物的区域坐标，通过区域坐标采用裁剪的方式从输出特征图上获取人的姿态特征信息。对人的姿态特征信息取最大池化，并与其他特征信息融合，共同输入到交互解码器中。通过人物姿态估计网络，向人物交互检测网络提供人物姿态特征信息，这种额外的姿态信息解决了交互检测网络无法识别人物姿态的问题，进一步提升了交互检测的精度。

由此，本实施例提供的一种基于人物交互检测模型的检测方法，步骤如下：采用预训练的DETR模型获取主干网络中人物的位置和类别特征信息；通过增强小目标模块将主干网络中的后三层进行多尺度特征融合，将融合后的特征图作为输入特征图；将输入特征图输入到交互区域学习模块进行精细化处理，将输入特征图输入到交互动作学习模块获取人物交互动作特征信息，在交互区域学习模块和交互动作学习模块通过感兴趣区域裁剪方式获取人物对的感兴趣区域，再将得到的区域特征通过池化操作压缩特征到指定维度，便于后续能够和其他特征进行融合；姿态提取特征模块通过输入图像提取人的姿态特征信息，通过感兴趣区域裁剪方式获取人物对的感兴趣区域，再将得到的区域特征通过池化操作压缩特征到指定；将各模块得到的特征信息进行融合后输出到交互解码器中，交互解码器将解码后的特征信息输出，从而可以实现对输入图像中人物的交互特征信息进行精细化处理，更加关注人物交互的区域，凸显出人物交互的关键特征。

需要说明的是，本实施例中所述的将得到的区域特征通过池化操作压缩到指定维度是指将特征图压缩到固定的维度，便于后续步骤中与其他特征图进行融合。此外，采用预训练的DETR模型，其中主干网络为resnet50网络，DETR编码器和DETR解码器的检测头为transformer。

此外，还可通过本实施例以人物交互对的位置信息与ground truth计算iou，ground truth可以理解为真实的标签值，作为模型训练阶段所要提供的监督信息，iou是一个简单的测量标准。如果iou大于0.4，则认为该人物对是正样本，否则是负样本，该步骤的目的是确定所有的人物交互对中哪些交互对是正样本，哪些交互对是负样本。正样本的含义是该样本中人和物具有交互关系，如一个人在踢球，则人和球就存在交互关系，就是正样本。负样本的含义是样本中人和物不具备交互关系。最后，通过Focal Loss进行人物优化，获取低维特征信息，其中，FocalLoss公式可表示为FL(p_t)＝-(1–p_t)^γlog(p_t)。其中，p_t为预测值，γ取值0.2。此方法更有利于对小目标的精准定位，解决了计算小目标iou时受检测框扰动过大的问题，极大地提高了小目标人物交互的准确率。

以上示意性地对本发明创造及其实施方式进行了描述，该描述没有限制性，在不背离本发明的精神或者基本特征的情况下，能够以其他的具体形式实现本发明。附图中所示的也只是本发明创造的实施方式之一，实际的结构并不局限于此，权利要求中的任何附图标记不应限制所涉及的权利要求。所以，如果本领域的普通技术人员受其启示，在不脱离本创造宗旨的情况下，不经创造性的设计出与该技术方案相似的结构方式及实施例，均应属于本专利的保护范围。此外，“包括”一词不排除其他元件或步骤，在元件前的“一个”一词不排除包括“多个”该元件。产品权利要求中陈述的多个元件也可以由一个元件通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

Claims

1.一种人物交互检测模型，其特征在于，包括增强小目标检测模块、交互区域学习模块、交互动作学习模块和姿态提取特征模块，

2.根据权利要求1所述的一种人物交互检测模型，其特征在于，在所述增强小目标检测模块中，多尺度特征融合后表示为：

3.根据权利要求2所述的一种人物交互检测模型，其特征在于，在所述交互区域学习模块中，所述空间-通道注意力模块中，空间注意力用于寻找输入特征图中最重要的区域，通道注意力用于突出各个输入特征图之间的重要性。

4.根据权利要求3所述的一种人物交互检测模型，其特征在于，所述空间-通道注意力模块，其空间注意力表示为：

A^sp(z)＝σ[softmax(pool(W_q(z)))×W_v(z)]

其中，Wq和Wv是1x1的卷积层，pool表示全局池化操作；

其通道注意力表示为：

其中，Res表示为Resnet模块，W_E和Ws表示全连接层；

空间-通道注意力模块表示为：

z′＝A^sp(z)⊙^spZ^ch。

5.根据权利要求4所述的一种人物交互检测模型，其特征在于，所述交互区域学习模块中，DETR检测网络获取输入特征图中人物的区域坐标，通过区域坐标采用裁剪的方式获取感兴趣的区域特征；对获取的区域特征，采用掩码的方式只保留该区域特征图上人物的区域特征信息。

6.根据权利要求5所述的一种人物交互检测模型，其特征在于，所述交互动作学习模块中，采用transformer的编码结构获取交互动作特征信息；DETR检测网络获取输入特征图中人物的区域坐标，通过区域坐标采用裁剪的方式获取感兴趣的区域特征信息。

7.根据权利要求6所述的一种人物交互检测模型，其特征在于，所述姿态提取特征模块中，DETR检测网络获取人物的区域坐标，通过区域坐标采用裁剪的方式从输入图像中获取人的姿态特征信息。

8.根据权利要求7所述的一种人物交互检测模型，其特征在于，所述交互区域学习模块、交互动作学习模块和姿态提取特征模块采用全局池化的方式将获取的区域特征信息和姿态特征信息压缩到指定维度。

9.一种基于权利要求1-8任一所述的一种人物交互检测模型的检测方法，步骤如下：

所述姿态提取特征模块提取输入图像中人的姿态特征信息；

将各模块获取的特征信息进行融合后输出到交互解码器中；

交互解码器输出解码后的人物交互特征信息。

10.根据权利要求9所述的一种基于人物交互检测模型的检测方法，其特征在于，所述主干网络为resnet50网络，所述交互解码器为transformer解码器。