WO2021093329A1

WO2021093329A1 - 交互行为识别方法、装置、计算机设备和存储介质

Info

Publication number: WO2021093329A1
Application number: PCT/CN2020/097002
Authority: WO
Inventors: 余代伟; 孙皓; 董昱青; 庄喜阳; 李永翔
Original assignee: 苏宁易购集团股份有限公司; 苏宁云计算有限公司
Priority date: 2019-11-12
Filing date: 2020-06-19
Publication date: 2021-05-20
Also published as: CA3160731A1; CN110991261A

Abstract

本申请涉及一种交互行为识别方法、装置、计算机设备和存储介质。该方法包括：获取待检测图像；将待检测图像输入预设的多任务模型，得到待检测图像中行人的关键点和检测框，关键点均位于检测框内部，多任务模型用于行人检测和人体关键点检测；根据行人的关键点和待检测图像对应的预设物品架图像，确定行人和对应物品架的交互行为信息。采用本方法能够高效地识别行人与物品的交互行为。

Description

交互行为识别方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机视觉技术领域，特别是涉及一种交互行为识别方法、装置、计算机设备和存储介质。

背景技术

随着互联网时代的到来，零售行业开始进入飞速发展的阶段，未来的零售是智慧零售，也就是运用互联网和大数据等技术，去感知用户的消费习惯，从而为消费者提供多样化、个性化的产品和服务，而人货交互行为识别是智慧零售领域需要解决的问题。

传统的人货交互行为识别方法一般是借助声、光、电等传感器设备来实现行为识别，需要高昂的硬件成本，而且使用场景受限，无法大规模应用于商超等复杂环境；商超监控设备每天产生大量视频数据，分析监控视频可以获得很多人货交互行为的相关信息，但这需要耗费庞大的人力，还存在效率低下的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种能够高效地识别人体与物品交互行为的交互行为识别方法、装置、计算机设备和存储介质。

一种交互行为识别方法，该方法包括：

获取待检测图像；

将待检测图像输入预设的多任务模型，得到待检测图像中行人的关键点和检测框，关键点均位于检测框内部，多任务模型用于行人检测和人体关键点检测；

根据行人的关键点和待检测图像对应的预设物品架图像，确定行人和对应物品架的交互行为信息。

在其中一个实施例中，预设物品架图像为预设物品架掩模图像，根据行人的关键点和待检测图像对应的预设物品架图像，确定行人和对应物品架的交互行为信息，包括：

选取行人的关键点中的手腕关键点；

根据手腕关键点和预设的半径阈值，得到行人的手部区域；

当手部区域的图像和预设物品架掩模图像的相交面积大于预设面积阈值时，判定行人与对应物品架发生交互行为；

当手部区域的图像和预设物品架掩模图像的相交面积小于或等于面积阈值时，判定行人与对应物品架未发生交互行为。

在其中一个实施例中，该方法还包括：

选取行人的检测框中任一点作为定位点，将定位点在待测试图像中的位置坐标设定为行人的第一位置坐标；

根据预设坐标映射关系，将行人的第一位置坐标映射到世界坐标系中，得到行人的第二位置坐标，第二位置坐标为行人在世界坐标系中的位置坐标；

采集行人在预设时间段内各时间点的第二位置坐标，得到行人在预设时间段内的路线图。

在其中一个实施例中，该方法还包括：

根据行人的关键点，得到行人的朝向信息；

根据行人的朝向信息和预设物品架图像，得到行人朝向的物品架区域。

在其中一个实施例中，根据行人的关键点，得到行人的朝向信息，包括：

选取行人的关键点中的肩部关键点，肩部关键点包括左肩关键点和右肩关键点；

对左肩关键点的坐标和右肩关键点的坐标求差，得到肩部向量；

采用反余弦函数计算肩部向量与预设单位向量的夹角，预设单位向量为待检测图像的坐标系y轴负方向上的单位向量；

对夹角的弧度值与π求和，得到行人的朝向角；

当朝向角大于等于π且小于1.5π时，判定行人朝向待检测图像的一侧；

当朝向角大于1.5π且小于等于2π时，判定行人朝向待检测图像的另一侧。

在其中一个实施例中，获取待检测图像，包括：

获取目标场所的监控视频；

从监控视频中筛选出具有行人的图像作为待检测图像。

在其中一个实施例中，该方法还包括：

获取样本图像；

对样本图像中的行人进行关键点标注和检测框标注，得到标注图像数据；

将标注图像数据输入神经网络模型中进行训练，得到多任务模型；优选地，神经网络模型采用ResNet-101+FPN网络模型。

一种人货交互行为识别装置，该装置包括：

获取模块，用于获取待检测图像；

检测模块，用于将待检测图像输入预设的多任务模型，得到待检测图像中行人的关键点和检测框，关键点均位于检测框内部，多任务模型用于行人检测和人体关键点检测；

识别模块，用于根据行人的关键点和待检测图像对应的预设物品架图像，确定行人和对应物品架的交互行为信息。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取待检测图像；

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取待检测图像；

上述交互行为识别方法、装置、计算机设备和存储介质，获取待检测图像，通过将待检测图像输入预设的多任务模型，得到待检测图像中行人的关键点和检测框，该方法通过用于行人检测和人体关键点检测的多任务模型，可以同步获取行人检测框和人体关键点，提高了图像处理效率；关键点均位于检测框内部，可以排除检测框外部的错误关键点，从而达到综合利用检测框和关键点，提高关键点标注准确度的目的；根据行人的关键点和待检测图像对应的预设物品架图像，确定行人和对应物品架的交互行为信息，能够高效地识别交互行为，并提高识别准确率。

附图说明

图1为一个实施例中交互行为识别方法的应用环境图；

图2为一个实施例中交互行为识别方法的流程示意图；

图3为一个实施例中交互行为判断步骤的流程示意图；

图4为另一个实施例中交互行为识别方法的流程示意图；

图5为一个实施例中交互行为识别装置的结构框图；

图6为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的交互行为识别方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104通过网络进行通信。终端102可以但不限于是各种图像采集装置，具体地，终端102可以为商场超市或图书馆等场所现有的监控设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种交互行为识别方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤202，获取待检测图像。

其中，待检测图像为图像采集装置所采集的具有行人的图像，上述图像采集装置可以为商场超市或图书馆等目标场所已经安装并使用的监控设备，例如目标场所现有的摄像头，无需对目标场所进行改造，部署成本低。

具体地，通过摄像头获取监控视频，从该监控视频中筛选出具有行人的图片作为待检测图像。

步骤204，将待检测图像输入预设的多任务模型，得到待检测图像中行人的关键点和检测框，关键点均位于检测框内部，多任务模型用于行人检测和人体关键点检测。

其中，多任务模型可以通过行人检测获得待检测图像中行人的检测框，同时进行人体关键点检测获得行人的关键点，从而实现同步获取行人的检测框和关键点，不同任务之间特征共享，降低了计算量，减少了硬件资源占用，缩短了单帧图像处理时间，可以对从多路摄像头获取到的待检测图像同时进行处理，实现多路摄像头并行处理。

具体地，将获取到的待检测图像输入预设的多任务模型，该多任务模型对待检测图像进行行人检测和人体关键点检测，多任务模型在处理待检测图像的过程中，可以排除掉位于检测框外部的关键点，使得输出的关键点均位于检测框内部，最后多任务模型可输出待检测图像中行人的关键点和检测框。

例如，向上述多任务模型输入待检测图片I ^H×W×3，多任务模型输出关键点

和检测框

其中，

其中，N是待检测图像中的行人个数，K是每个行人关键点的个数，通常取K＝17；

表示第i个人的第j个关键点在待检测图像上的坐标；

表示第i个人的检测框的左上角和右下角在待检测图片上的坐标，score表示检测框的置信度，即可信程度。

步骤206，根据行人的关键点和待检测图像对应的预设物品架图像，确定行人和对应物品架的交互行为信息。

其中，预先对现有的摄像头、目标场所布局、物品架进行定位和标注，并为每个摄像头配置对应的预设物品架图像，已知待检测图像是通过其中一个摄像头获取的，可见由同一个摄像头获取的待检测图像均对应上述摄像头，从而待检测图像也对应上述摄像头配置的预设物品架图像。

具体地，可以选取行人的关键点中的一个部位关键点作为参考关键点，然后根据该参考关键点与上述预设物品架图像之间的相互关系，例如距离或相交面积，来判断行人和对应物品架之间的交互行为。

上述交互行为识别方法中，获取待检测图像，通过将待检测图像输入预设的多任务模型，得到待检测图像中行人的关键点和检测框，该方法通过用于进行行人检测和人体关键点检测的多任务模型，可以同步获取行人检测框和人体关键点，提高了图像处理效率；关键点均位于检测框内部，可以排除检测框外部的错误关键点，从而达到综合利用检测框和关键点，提高关键点标注准确度的目的；根据行人的关键点和待检测图像对应的预设物品架图像，确定行人和对应物品架的交互行为信息，能够高效地识别交互行为，并提高识别准确率；而且本方法可以实现全流程自动化处理，不需要人工干预，极大地降低人工成本。

在一个实施例中，如图3所示，预设物品架图像为预设物品架掩模图像，该预设物品架掩模图像可以是从大量监控视频中抽取一帧图像，再用多边形标注出该图像中物品架外轮廓所得到的图像；根据行人的关键点和待检测图像对应的预设物品架图像，确定行人和对应物品架的交互行为信息，包括：

步骤302，选取行人的关键点中的手腕关键点；

其中，手腕关键点数据包括左手腕关键点数据和右手腕关键点数据。

步骤304，根据手腕关键点和预设的半径阈值，得到行人的手部区域；

具体地，分别以左手手腕关键点和右手手腕关键点为圆心，预设的半径阈值为半径，划分出左手区域和右手区域，从而得到左手区域的图像和右手区域的图像。

步骤306，判断手部区域的图像和预设物品架掩模图像的相交面积是否大于预设面积阈值；

步骤308，若是，判定行人与对应物品架发生交互行为；

步骤310，若否，判定行人与对应物品架未发生交互行为。

在上述步骤306中，该手部区域包括左手区域和右手区域，具体地，当左手区域和右手区域中至少一个手部区域的图像和预设物品架掩模图像的相交面积大于预设面积阈值时，判定行人与对应物品架发生交互行为；否则，判定行人与对应物品架未发生交互行为。

例如，

表示以左手手腕为圆心，R为半径的手部区域，即左手区域；

表示以右手手腕为圆心，R为半径的手部区域，即右手区域；

预设面积阈值为150单位面积，当H _R∩M _S＞150时，判定行人与对应物品架发生交互行为，即行人正在购物；

当H _R∩M _S≤150时，判定行人与对应物品架未发生交互行为，即行人没在购物。

在本实施例中，提供了一种交互行为识别方法，该交互行为识别方法通过直接估算手部和物品架的相交面积来进行交互行为判断，简单易行，可扩展性强，计算速度快，实时性更好；该方法通常用于商场超市中人货交互行为识别，此时物品架为商场超市中的货架，但本方法也可用于其他场所的人体与物体交互行为识别，例如图书馆，此时物品架为图书馆书架。

在一个实施例中，该方法还包括：

具体地，选取上述检测框的中心点作为定位点，选取方便，且中心点可以更准确地表明行人的位置。

这里，预设坐标映射关系为待检测图像的坐标系和世界坐标系之间的坐标映射关系；具体地，预先标定图像采集装置在世界坐标系中的位置，通过图像采集装置的位置信息，即可得到该图像采集装置所采集的待检测图像在世界坐标系中的坐标位置，从而推断出待检测图像的坐标系和世界坐标系之间的坐标映射关系。

其中，预设时间段为行人从进入目标场所到走出目标场所的时间，行人在预设时间段内的路线图即行人从进入目标场所到走出目标场所所经过的路线，即行人的动线图，结合目标场所布局图，即可在目标场所布局图上绘制出进入目标场所的行人的动线图。

在本实施例中，提供了一种交互行为识别方法，该方法可以根据行人的检测框和预设坐标映射关系，得到行人在预设时间段内的路线图，便于记录行人在预设时间内在目标场所内的行动轨迹，当本方法应用于商场超市时，可以直观地观察到顾客从进场到离场期间在超市内的行动路线数据，工作人员可根据这些数据调整超市布局，使其更适应顾客的购物习惯。

在一个实施例中，该方法还包括：

根据行人的关键点，得到行人的朝向信息；

具体地，选取行人的关键点中的肩部关键点；

例如：肩部关键点包括左肩关键点

和右肩关键点

其中，

对左肩关键点的坐标和右肩关键点的坐标求差，得到肩部向量：

对夹角的弧度值与π求和，得到行人的朝向角：

当朝向角大于等于π且小于1.5π时，判定行人朝向待检测图像的一侧；当朝向角大于1.5π且小于等于2π时，判定行人朝向待检测图像的另一侧。

根据行人的朝向信息和预设物品架图像，得到行人朝向的物品架区域。具体地，根据行人在待检测图像内的朝向和待检测图像所对应的预设物品架图像，可以得到行人朝向的物品架区域。

在本实施例中，提供了一种交互行为识别方法，其利用肩部关键点数据，计算出行人的朝向，朝向结果的鲁棒性更高，从而判断出顾客关注的货架区域，可以为商超的货品摆放提供参考。

在一个实施例中，获取待检测图像，包括：

获取目标场所的监控视频；

具体地，对商超里已经安装并使用的图像采集设备进行位置标定，并为各图像采集设备配置对应的货架掩模图像，获取图像采集设备拍摄到的监控视频，上述的图像采集设备一般采用摄像头。

从监控视频中筛选出具有行人的图像作为待检测图像。

在本实施例中，提供了一种交互行为识别方法，该方法直接利用目标场所已有的监控设备，例如商场或超市的摄像头，无需对场地进行改造，部署成本低，容易推广。

在一个实施例中，该方法还包括：

获取样本图像；具体地，获取商场超市的监控视频，从监控视频中筛选出大量具有行人的图像作为样本图像。

对样本图像中的行人进行关键点标注和检测框标注，得到标注图像数据；具体地，标注样本图像中的行人检测框，并标注行人的眼睛、鼻子、耳朵、肩膀、肘、腕、髋、膝、踝等关键点位置，最后得到标注图像数据。

将标注图像数据输入神经网络模型中进行训练，得到多任务模型；优选地，神经网络模型采用ResNet-101+FPN网络模型，该神经网络模型为一阶段自底向上多任务网络模型，和同类多阶段算法相比，节约处理时间；和自顶向下算法相比，处理时间不随图片中人数变化而变化。

在本实施例中，提供了一种交互行为识别方法，其通过建立和训练多任务模型，对待检测图像进行处理，模型的训练和优化均在后台完成，不影响商场、超市或图书馆等场所的运营；而且模型泛化能力强，可以方便快速部署；多任务模型的不同任务之间可以特征共享，降低了计算量，减少了硬件资源占用，缩短单帧图像处理时间，实现多路摄像头并行处理。

在一个实施例中，如图4所示，该方法包括以下步骤：

步骤402，获取目标场所的监控视频；

步骤404，从监控视频中筛选出具有行人的图像作为待检测图像；

步骤406，将待检测图像输入预设的多任务模型，得到待检测图像中行人的关键点和检测框，关键点均位于检测框内部；

步骤408，根据行人的关键点和待检测图像对应的预设物品架图像，确定行人和对应物品架的交互行为信息；

步骤410，根据行人的检测框和预设坐标映射关系，得到行人在预设时间段内的路线图；

步骤412，根据行人的关键点，得到行人的朝向信息。

应该理解的是，虽然图2-4的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-4中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图5所示，提供了一种交互行为识别装置，包括获取模块502、检测模块504和识别模块506，其中：

获取模块502，用于获取待检测图像；

检测模块504，用于将待检测图像输入预设的多任务模型，得到待检测图像中行人的关键点和检测框，关键点均位于检测框内部，多任务模型用于行人检测和人体关键点检测；

识别模块506，用于根据行人的关键点和待检测图像对应的预设物品架图像，确定行人和对应物品架的交互行为信息。

在一个实施例中，预设物品架图像为预设物品架掩模图像，上述识别模块506包括：

第一关键点选取单元，用于选取行人的关键点中的手腕关键点；

手部区域单元，用于根据手腕关键点和预设的半径阈值，得到行人的手部区域；

交互判定单元，用于当手部区域图像和预设物品架掩模图像的相交面积大于预设面积阈值时，判定行人与对应物品架发生交互行为；当手部区域图像和预设物品架掩模图像的相交面积小于或等于面积阈值时，判定行人与对应物品架未发生交互行为。

在一个实施例中，该装置还包括：

第一位置坐标模块，用于选取行人的检测框中任一点作为定位点，将定位点在待测试图像中的位置坐标设定为行人的第一位置坐标；

第二位置坐标模块，用于根据预设坐标映射关系，将行人的第一位置坐标映射到世界坐标系中，得到行人的第二位置坐标，第二位置坐标为行人在世界坐标系中的位置坐标；

路线图模块，用于采集行人在预设时间段内各时间点的第二位置坐标，得到行人在预设时间段内的路线图。

在一个实施例中，该装置还包括：

朝向信息模块，用于根据行人的关键点，得到行人的朝向信息；

朝向区域模块，用于根据行人的朝向信息和预设物品架图像，得到行人朝向的物品架区域。

在一个实施例中，上述朝向信息模块包括：

第二关键点选取单元，用于选取行人的关键点中的肩部关键点，肩部关键点包括左肩关键点和右肩关键点；

朝向角计算单元，用于对左肩关键点的坐标和右肩关键点的坐标求差，得到肩部向量；采用反余弦函数计算肩部向量与预设单位向量的夹角，预设单位向量为待检测图像的坐标系y轴负方向上的单位向量；对夹角的弧度值与π求和，得到行人的朝向角；

朝向判断单元，用于当朝向角大于等于π且小于1.5π时，判定行人朝向待检测图像的一侧；当朝向角大于1.5π且小于等于2π时，判定行人朝向待检测图像的另一侧。

在一个实施例中，上述获取模块502包括：

视频获取单元，用于获取目标场所的监控视频；

图像获取单元，用于从监控视频中筛选出具有行人的图像作为待检测图像。

在一个实施例中，该装置还包括：

样本获取模块，用于获取样本图像；

样本数据模块，用于对样本图像中的行人进行关键点标注和检测框标注，得到标注图像数据；

模型训练模块，用于将标注图像数据输入神经网络模型中进行训练，得到多任务模型；优选地，神经网络模型采用ResNet-101+FPN网络模型。

关于交互行为识别装置的具体限定可以参见上文中对于交互行为识别方法的限定，在此不再赘述。上述交互行为识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图6所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种交互行为识别方法。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现以下步骤：获取待检测图像；将待检测图像输入预设的多任务模型，得到待检测图像中行人的关键点和检测框，关键点均位于检测框内部，多任务模型用于行人检测和人体关键点检测；根据行人的关键点和待检测图像对应的预设物品架图像，确定行人和对应物品架的交互行为信息。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：预设物品架图像为预设物品架掩模图像，根据行人的关键点和待检测图像对应的预设物品架图像，确定行人和对应物品架的交互行为信息这一步骤时，包括：选取行人的关键点中的手腕关键点；根据手腕关键点和预设的半径阈值，得到行人的手部区域；当手部区域图像和预设物品架掩模图像的相交面积大于预设面积阈值时，判定行人与对应物品架发生交互行为；当手部区域图像和预设物品架掩模图像的相交面积小于或等于面积阈值时，判定行人与对应物品架未发生交互行为。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：选取行人的检测框中任一点作为定位点，将定位点在待测试图像中的位置坐标设定为行人的第一位置坐标；根据预设坐标映射关系，将行人的第一位置坐标映射到世界坐标系中，得到行人的第二位置坐标，第二位置坐标为行人在世界坐标系中的位置坐标；采集行人在预设时间段内各时间点的第二位置坐标，得到行人在预设时间段内的路线图。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：根据行人的关键点，得到行人的朝向信息；根据行人的朝向信息和预设物品架图像，得到行人朝向的物品架区域。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：根据行人的关键点，得到行人的朝向信息，包括：选取行人的关键点中的肩部关键点，肩部关键点包括左肩关键点和右肩关键点；对左肩关键点的坐标和右肩关键点的坐标求差，得到肩部向量；采用反余弦函数计算肩部向量与预设单位向量的夹角，预设单位向量为待检测图像的坐标系y轴负方向上的单位向量；对夹角的弧度值与π求和，得到行人的朝向角；当朝向角大于等于π且小于1.5π时，判定行人朝向待检测图像的一侧；当朝向角大于1.5π且小于等于2π时，判定行人朝向待检测图像的另一侧。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：获取待检测图像，包括：获取目标场所的监控视频；从监控视频中筛选出具有行人的图像作为待检测图像。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：获取样本图像；对样本图像中的行人进行关键点标注和检测框标注，得到标注图像数据；将标注图像数据输入神经网络模型中进行训练，得到多任务模型；优选地，神经网络模型采用ResNet-101+FPN网络模型。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：获取待检测图像；将待检测图像输入预设的多任务模型，得到待检测图像中行人的关键点和检测框，关键点均位于检测框内部，多任务模型用于行人检测和人体关键点检测；根据行人的关键点和待检测图像对应的预设物品架图像，确定行人和对应物品架的交互行为信息。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：预设物品架图像为预设物品架掩模图像，根据行人的关键点和待检测图像对应的预设物品架图像，确定行人和对应物品架的交互行为信息这一步骤时，包括：选取行人的关键点中的手腕关键点；根据手腕关键点和预设的半径阈值，得到行人的手部区域；当手部区域图像和预设物品架掩模图像的相交面积大于预设面积阈值时，判定行人与对应物品架发生交互行为；当手部区域图像和预设物品架掩模图像的相交面积小于或等于面积阈值时，判定行人与对应物品架未发生交互行为。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：选取行人的检测框中任一点作为定位点，将定位点在待测试图像中的位置坐标设定为行人的第一位置坐标；根据预设坐标映射关系，将行人的第一位置坐标映射到世界坐标系中，得到行人的第二位置坐标，第二位置坐标为行人在世界坐标系中的位置坐标；采集行人在预设时间段内各时间点的第二位置坐标，得到行人在预设时间段内的路线图。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：根据行人的关键点，得到行人的朝向信息；根据行人的朝向信息和预设物品架图像，得到行人朝向的物品架区域。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：根据行人的关键点，得到行人的朝向信息，包括：选取行人的关键点中的肩部关键点，肩部关键点包括左肩关键点和右肩关键点；对左肩关键点的坐标和右肩关键点的坐标求差，得到肩部向量；采用反余弦函数计算肩部向量与预设单位向量的夹角，预设单位向量为待检测图像的坐标系y轴负方向上的单位向量；对夹角的弧度值与π求和，得到行人的朝向角；当朝向角大于等于π且小于1.5π时，判定行人朝向待检测图像的一侧；当朝向角大于1.5π且小于等于2π时，判定行人朝向待检测图像的另一侧。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：获取待检测图像，包括：获取目标场所的监控视频；从监控视频中筛选出具有行人的图像作为待检测图像。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：获取样本图像；对样本图像中的行人进行关键点标注和检测框标注，得到标注图像数据；将标注图像数据输入神经网络模型中进行训练，得到多任务模型；优选地，神经网络模型采用ResNet-101+FPN网络模型。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

一种交互行为识别方法，其特征在于，所述方法包括：

获取待检测图像；

将所述待检测图像输入预设的多任务模型，得到所述待检测图像中行人的关键点和检测框，所述关键点均位于所述检测框内部，所述多任务模型用于行人检测和人体关键点检测；

根据所述行人的关键点和所述待检测图像对应的预设物品架图像，确定所述行人和对应物品架的交互行为信息。
根据权利要求1所述的方法，其特征在于，所述预设物品架图像为预设物品架掩模图像，所述根据所述行人的关键点和所述待检测图像对应的预设物品架图像，确定所述行人和对应物品架的交互行为信息，包括：

选取所述行人的关键点中的手腕关键点；

根据所述手腕关键点和预设的半径阈值，得到所述行人的手部区域；

当所述手部区域的图像和所述预设物品架掩模图像的相交面积大于预设面积阈值时，判定所述行人与对应物品架发生交互行为；

当所述手部区域的图像和所述预设物品架掩模图像的相交面积小于或等于所述面积阈值时，判定所述行人与对应物品架未发生交互行为。
根据权利要求1所述的方法，其特征在于，所述方法还包括：

选取所述行人的检测框中任一点作为定位点，将所述定位点在所述待测试图像中的位置坐标设定为所述行人的第一位置坐标；

根据预设坐标映射关系，将所述行人的第一位置坐标映射到世界坐标系中，得到所述行人的第二位置坐标，所述第二位置坐标为所述行人在世界坐标系中的位置坐标；

采集所述行人在预设时间段内各时间点的第二位置坐标，得到所述行人在所述预设时间段内的路线图。
根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据所述行人的关键点，得到所述行人的朝向信息；

根据所述行人的朝向信息和所述预设物品架图像，得到所述行人朝向的物品架区域。
根据权利要求4所述的方法，其特征在于，所述根据所述行人的关键点，得到所述行人的朝向信息，包括：

选取所述行人的关键点中的肩部关键点，所述肩部关键点包括左肩关键点和右肩关键点；

对所述左肩关键点的坐标和所述右肩关键点的坐标求差，得到肩部向量；

采用反余弦函数计算所述肩部向量与预设单位向量的夹角，所述预设单位向量为所述待检测图像的坐标系y轴负方向上的单位向量；

对所述夹角的弧度值与π求和，得到所述行人的朝向角；

当所述朝向角大于等于π且小于1.5π时，判定所述行人朝向所述待检测图像的一侧；

当所述朝向角大于1.5π且小于等于2π时，判定所述行人朝向所述待检测图像的另一侧。
根据权利要求1至5任意一项所述的方法，其特征在于，所述获取待检测图像，包括：

获取目标场所的监控视频；

从所述监控视频中筛选出具有行人的图像作为所述待检测图像。
根据权利要求1至5任意一项所述的方法，其特征在于，所述方法还包括：

获取样本图像；

对所述样本图像中的行人进行关键点标注和检测框标注，得到标注图像数据；

将所述标注图像数据输入神经网络模型中进行训练，得到所述多任务模型；优选地，所述神经网络模型采用ResNet-101+FPN网络模型。
一种交互行为识别装置，其特征在于，所述装置包括：

获取模块，用于获取待检测图像；

检测模块，用于将所述待检测图像输入预设的多任务模型，得到所述待检测图像中行人的关键点和检测框，所述关键点均位于所述检测框内部，所述多任务模型用于行人检测和人体关键点检测；

识别模块，用于根据所述行人的关键点和所述待检测图像对应的预设物品架图像，确定所述行人和对应物品架的交互行为信息。
一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。