CN112668410B

CN112668410B - 分拣行为检测方法、***、电子装置和存储介质

Info

Publication number: CN112668410B
Application number: CN202011472670.5A
Authority: CN
Inventors: 郑雷
Original assignee: Zhejiang Dahua Technology Co Ltd
Current assignee: Zhejiang Dahua Technology Co Ltd
Priority date: 2020-12-15
Filing date: 2020-12-15
Publication date: 2024-03-29
Anticipated expiration: 2040-12-15
Also published as: CN112668410A

Abstract

本申请涉及一种分拣行为检测方法、***、电子装置和存储介质，通过获取在分拣作业区域中分拣作业主体和被分拣对象产生交互的第一图像帧序列；获取分拣作业区域的多个第二图像帧序列，第二图像帧序列包括在多个视角下拍摄分拣作业区域得到的图像，且第二图像帧序列和第一图像帧序列逐帧对齐；对第一图像帧序列和第二图像帧序列进行三维场景重建处理，得到三维重建信息；提取被分拣对象的运动特征和三维重建信息的全局特征；拼接运动特征和全局特征，并采用分类器对拼接后的特征进行分类，得到分拣作业主体是否产生预设分拣行为的分类结果，解决了分拣行为检测结果的准确度较低的问题，提升了分拣行为检测结果的准确度。

Description

分拣行为检测方法、***、电子装置和存储介质

技术领域

本申请涉及视频监控技术领域，特别是涉及一种分拣行为检测方法、***、电子装置和存储介质。

背景技术

随着物流行业的发展，越来越需要在分拣作业过程中对分拣人员的操作加以规范性进行约束，从而降低暴力分拣事件的发生，提升物流服务的质量。

相关技术在检测暴力分拣行为时，分别给出了以下技术方案：

方案1：采用深度学习方法(YOLO卷积神经网络)进行包裹识别，通过包裹坐标的实时变化判断所检测的分拣行为是否属于暴力分拣行为。该方案存在的问题为：在分拣过程中包裹移动是快速进行的，会出现摄像头捕捉到的图像因运动而产生模糊的结果，导致包裹目标检测丢失，大大降低了暴力分拣行为报警的召回率。

方案2：对目标行人的分拣轨迹进行跟踪，对分拣行人的关节姿态进行幅度计算，判断是否属于暴力分拣行为。该方案存在的问题为：只考虑到视频帧中的行人轨迹跟踪而进行的关节姿态移动幅度判定，没有考虑到与行人所分拣的包裹进行绑定分析，导致在某些情况下行人动作误识别，大大降低了暴力分拣行为报警的有效率。

方案3：通过随机森林进行人体姿态估计后，使用递归神经网络对从人体三维姿态中提取的姿态时空相对特征进行建模训练，从而实现对快递暴力分拣行为的识别。该方案存在的问题为：只对人体三维姿态进行建模，忽略了被分拣对象，从而造成人体动作误识别导致识别准确度较低。

方案4：将监控视频帧输入到预先建立的目标检测模型，输出候选区域的类别标识和坐标值，如果类别标识指示候选区域包含目标对象，则确定监控视频帧为用于分析暴力分拣行为的起始帧。该方案存在的问题为：只要目标候选区域中的分拣行为主体与被分拣对象产生肢体接触则定为起始帧，然后间隔固定帧数作为结束帧，这样会导致超过设定时间间隔的暴力分拣行为漏报。

目前针对相关技术中分拣行为检测结果的准确度较低的问题，尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种分拣行为检测方法、***、电子装置和存储介质，以至少解决相关技术中分拣行为检测结果的准确度较低的问题。

第一方面，本申请实施例提供了一种分拣行为检测方法，包括：

获取在分拣作业区域中分拣作业主体和被分拣对象产生交互的第一图像帧序列；

获取所述分拣作业区域的多个第二图像帧序列，其中，所述第二图像帧序列包括在多个视角下拍摄所述分拣作业区域得到的图像，且所述第二图像帧序列和所述第一图像帧序列逐帧对齐；

对所述第一图像帧序列和所述第二图像帧序列进行三维场景重建处理，得到以所述被分拣对象和所述分拣作业主体作为前景的三维重建信息；

分别从所述三维重建信息中提取所述被分拣对象的运动特征和所述三维重建信息的全局特征；

拼接所述运动特征和所述全局特征，并采用分类器对拼接后的特征进行分类，得到所述分拣作业主体是否产生预设分拣行为的分类结果，所述预设分拣行为包括所述分拣作业主体暴力抛掷所述被分拣对象的暴力分拣行为或者所述分拣作业主体非暴力抛掷所述被分拣对象的非暴力分拣行为。

在其中一些实施例中，对所述第一图像帧序列和所述第二图像帧序列进行三维场景重建处理，得到以所述被分拣对象和所述分拣作业主体作为前景的三维重建信息包括：

将所述第一图像帧序列和所述第二图像帧序列拆解成帧图像，并将所述第一图像帧序列和所述第二图像帧序列的帧图像对齐；

采用三维场景重建模型将对齐之后的帧图像进行三维场景重建处理，得到以所述被分拣对象和所述分拣作业主体作为前景的三维重建信息，其中，所述三维重建信息包括对应于每个点的位置信息和RGB信息。

在其中一些实施例中，采用三维场景重建模型将对齐之后的帧图像进行三维场景重建处理，得到以所述被分拣对象和所述分拣作业主体作为前景的三维重建信息包括：

在所述三维场景重建模型中采用预训练形式处理所述对齐之后的帧图像，其中，所述三维场景重建模型采用的训练函数包括像素对齐隐式函数，所述三维场景重建模型采用的监督信息包括所述分拣作业区域的深度图像。

在其中一些实施例中，从所述三维重建信息中提取所述被分拣对象的运动特征包括：

根据所述第一图像帧序列和所述第二图像帧序列，获取对应于所述三维重建信息的时序信息；

采用第一三维时序卷积模型处理所述三维重建信息和所述时序信息，得到所述被分拣对象的运动特征，其中，所述第一三维时序卷积模型采用的监督信息包括所述被分拣对象是否发生运动的二值信号。

在其中一些实施例中，采用第一三维时序卷积模型处理所述三维重建信息和所述时序信息，得到所述被分拣对象的运动特征包括：

在所述第一三维时序卷积模型中采用预训练形式处理所述三维重建信息和所述时序信息，其中，包括：删除所述第一三维时序卷积模型中最后一层神经元输出的二值信号，提取所述第一三维时序卷积模型中倒数第二层神经元的输出结果，得到所述被分拣对象的运动特征。

在其中一些实施例中，从所述三维重建信息中提取所述全局特征包括：

采用第二三维时序卷积模型处理所述三维重建信息，提取所述全局特征，其中，所述第二三维时序卷积模型采用的监督信息包括所述分拣作业主体是否发生暴力分拣行为的二值信号。

在其中一些实施例中，在采用第二三维时序卷积模型处理所述三维重建信息，提取所述全局特征之前，所述方法还包括：

同时训练所述第二三维时序卷积模型和所述分类器，所述第二三维时序卷积模型和所述分类器采用的监督信息均包括所述分拣作业主体是否发生暴力分拣行为的二值信号。

在其中一些实施例中，获取在分拣作业区域中分拣作业主体和被分拣对象产生交互的第一图像帧序列包括：

获取第一摄像机拍摄所述分拣作业区域得到的第三图像帧序列；

检测所述第三图像帧序列中分拣作业主体的动作，判断当前是否存在分拣作业主体和被分拣对象产生交互的行为；

在判断到当前存在分拣作业主体和被分拣对象产生交互的行为的情况下，获取所述第一摄像机从当前起拍摄得到的所述第一图像帧序列。

在其中一些实施例中，在判断到当前存在分拣作业主体和被分拣对象产生交互的行为的情况下，所述方法还包括：

判断当前分拣作业主体和被分拣对象产生交互的持续时长是否达到预设时长；

在判断到当前分拣作业主体和被分拣对象产生交互的持续时长达到预设时长的情况下，获取所述第一摄像机从当前起拍摄得到且分拣作业主体和被分拣对象产生交互的持续时长达到预设时长的所述第一图像帧序列。

启动多个第二摄像机拍摄所述分拣作业区域，得到所述分拣作业区域的所述多个第二图像帧序列，其中，每个第二摄像机的拍摄视角不同。

在其中一些实施例中，所述第一摄像机的拍摄视角的中轴线和所述第二摄像机的拍摄视角的中轴线之间所呈夹角不小于90度。

第二方面，本申请实施例提供了一种分拣行为检测***，包括：第一摄像机、多个第二摄像机和服务器设备；其中，所述第一摄像机和所述多个第二摄像机连接所述服务器设备；

所述第一摄像机和所述多个第二摄像机之间具有不同的拍摄视角，每个第二摄像机之间具有不同的拍摄视角，所述第一摄像机和所述多个第二摄像机用于拍摄分拣作业区域，得到图像帧序列；

所述服务器设备用于执行如上述第一方面所述的分拣行为检测方法。

第三方面，本申请实施例提供了一种电子装置，包括存储器、处理器以及存储在所述存储器上并在所述处理器上运行的计算机程序，在其中一些实施例中，所述处理器执行所述计算机程序时实现如上述第一方面所述的分拣行为检测方法。

第四方面，本申请实施例提供了一种存储介质，其上存储有计算机程序，在其中一些实施例中，所述程序被处理器执行时实现如上述第一方面所述的分拣行为检测方法。

相比于相关技术，本申请实施例提供的分拣行为检测方法、***、电子装置和存储介质，通过获取在分拣作业区域中分拣作业主体和被分拣对象产生交互的第一图像帧序列；获取分拣作业区域的多个第二图像帧序列，其中，第二图像帧序列包括在多个视角下拍摄分拣作业区域得到的图像，且第二图像帧序列和第一图像帧序列逐帧对齐；对第一图像帧序列和第二图像帧序列进行三维场景重建处理，得到以被分拣对象和分拣作业主体作为前景的三维重建信息；分别从三维重建信息中提取被分拣对象的运动特征和三维重建信息的全局特征；拼接运动特征和全局特征，并采用分类器对拼接后的特征进行分类，得到分拣作业主体是否产生预设分拣行为的分类结果，预设分拣行为包括分拣作业主体暴力抛掷被分拣对象的暴力分拣行为或者分拣作业主体非暴力抛掷被分拣对象的非暴力分拣行为，解决了相关技术中分拣行为检测结果的准确度较低的问题，提升了分拣行为检测结果的准确度。

本申请的一个或多个实施例的细节在以下附图和描述中提出，以使本申请的其他特征、目的和优点更加简明易懂。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的分拣行为检测方法的流程图；

图2是根据本申请优选实施例的分拣行为检测方法的流程图；

图3是根据本申请实施例的分拣行为检测***的结构示意图；

图4是根据本申请实施例的电子装置的硬件结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行描述和说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。基于本申请提供的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

显而易见地，下面描述中的附图仅仅是本申请的一些示例或实施例，对于本领域的普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图将本申请应用于其他类似情景。此外，还可以理解的是，虽然这种开发过程中所做出的努力可能是复杂并且冗长的，然而对于与本申请公开的内容相关的本领域的普通技术人员而言，在本申请揭露的技术内容的基础上进行的一些设计，制造或者生产等变更只是常规的技术手段，不应当理解为本申请公开的内容不充分。

在本申请中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是，本申请所描述的实施例在不冲突的情况下，可以与其它实施例相结合。

除非另作定义，本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制，可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形，意图在于覆盖不排他的包含；例如包含了一系列步骤或模块(单元)的过程、方法、***、产品或设备没有限定于已列出的步骤或单元，而是可以还包括没有列出的步骤或单元，或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电气的连接，不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象，不代表针对对象的特定排序。

本实施例提供了一种分拣行为检测方法。图1是根据本申请实施例的分拣行为检测方法的流程图，如图1所示，该流程包括如下步骤：

步骤S101，获取在分拣作业区域中分拣作业主体和被分拣对象产生交互的第一图像帧序列。

分拣作业区域可以是现实的空间区域，也可以是在图像中呈现的图像区域。分拣作业主体包括人，被分拣对象包括包裹，分拣作业主体和被分拣对象产生交互是指分拣作业主体作用于被分拣对象，致使被分拣对象发生移动，例如人在执行分拣作业时，会搬拿包裹，将包裹从一个位置搬运到另一个位置。第一图像帧序列包括至少一帧图像，第一图像帧序列可以从用于监控该分拣作业区域的摄像头中获取。

步骤S102，获取分拣作业区域的多个第二图像帧序列，其中，第二图像帧序列包括在多个视角下拍摄分拣作业区域得到的图像，且第二图像帧序列和第一图像帧序列逐帧对齐。

第二图像帧序列和第一图像帧序列具有不同的视角，以获取不同于第一图像帧序列的信息。第二图像帧序列和第一图像帧序列逐帧对齐是指第二图像帧序列中的每帧图像和第一图像帧序列中的每帧图像具有相同的拍摄时间，且第二图像帧序列的起始时间和第一图像帧序列的起始时间相同，第二图像帧序列的结束时间和第一图像帧序列的结束时间相同。

步骤S103，对第一图像帧序列和第二图像帧序列进行三维场景重建处理，得到以被分拣对象和分拣作业主体作为前景的三维重建信息。

不论是第一图像帧序列还是第二图像帧序列，每帧图像中包含有前景和背景，前景包括被分拣对象和分拣作业主体，背景是指除前景以外的其他物体。相关技术中的分拣行为检测方案由于只处理单视角的帧图像，存在前景与背景无法区分的问题。在本实施例中，由于不同视角下获取到的图像帧序列的背景不同，且最大程度保留了包含分拣作业主体和被分拣对象的前景，因此能够充分利用前景进行三维场景重建处理，保证重建时获取更多重建目标信息，凸显前景，弱化背景，解决因单视角造成前景与背景无法区分的问题，从而排除背景区域的干扰。

步骤S104，分别从三维重建信息中提取被分拣对象的运动特征和三维重建信息的全局特征。

通过对三维重建信息中景深方向的运动矢量进行编码，得到被分拣对象的运动特征。通过对三维重建信息进行全局特征提取，得到全局特征。

步骤S105，拼接运动特征和全局特征，并采用分类器对拼接后的特征进行分类，得到分拣作业主体是否产生预设分拣行为的分类结果，预设分拣行为包括分拣作业主体暴力抛掷被分拣对象的暴力分拣行为或者分拣作业主体非暴力抛掷被分拣对象的非暴力分拣行为。

运动特征和全局特征以向量形式表示，通过将运动特征和全局特征在相同的维度上进行结合，能够实现特征的拼接。相比于相关技术中只考虑到视频帧中的行人轨迹跟踪而进行的关节姿态移动幅度判定，导致在某些情况下行人动作误识别的问题，本实施例通过多个视角获取分拣作业主体与被分拣对象的特征并拼接，实现了分拣作业主体与被分拣对象之间的关联分析，解决了分拣作业主体行为误识别的问题。

其中，暴力分拣行为的暴力程度可以通过分拣作业主体的关节活动幅度来表征，也可以通过被分拣对象的运动幅度来表征，本实施例不作限定。

通过上述步骤，解决了相关技术中分拣行为检测结果的准确度较低的问题，提升了分拣行为检测结果的准确度，在物流分拣复杂场景的干扰下，准确识别出发生暴力分拣行为的分拣作业主体与被分拣对象，从而提升暴力分拣报警事件的有效率与召回率。

在其中一些实施例中，对第一图像帧序列和第二图像帧序列进行三维场景重建处理，得到以被分拣对象和分拣作业主体作为前景的三维重建信息包括：

将第一图像帧序列和第二图像帧序列拆解成帧图像，并将第一图像帧序列和第二图像帧序列的帧图像对齐；采用三维场景重建模型将对齐之后的帧图像进行三维场景重建处理，得到以被分拣对象和分拣作业主体作为前景的三维重建信息，其中，三维重建信息包括对应于每个点的位置信息和RGB信息。

在本实施例中，对于第一图像帧序列和第二图像帧序列，可以把每个图像帧序列单独拆解成帧图像，并将第一图像帧序列和第二图像帧序列进行逐帧对齐，保证能够获取在同一分拣作业区域且同一时间的不同视角信息。其中，三维重建信息通过RGB-D图像(深度图像)转换得到，以点云数据形式呈现，使用一组n维向量来表示三维场景中某一个点所代表的位置信息及其RGB(红绿蓝色彩)信息。

在其中一些实施例中，采用三维场景重建模型将对齐之后的帧图像进行三维场景重建处理，得到以被分拣对象和分拣作业主体作为前景的三维重建信息包括：

在三维场景重建模型中采用预训练形式处理对齐之后的帧图像，其中，三维场景重建模型采用的训练函数包括像素对齐隐式函数，三维场景重建模型采用的监督信息包括分拣作业区域的深度图像。

在三维场景重建模型中采用预训练形式处理对齐之后的帧图像包括以下步骤：在计算性能满足预设条件的情况下用较大的数据集训练出三维场景重建模型；根据不同的任务，改造三维场景重建模型，并用新任务的数据集在三维场景重建模型上进行微调。如此设置，能够减少三维场景重建模型的训练代价，配合下游任务可以实现更快的收敛速度，尤其是对一些训练数据比较稀缺的任务，能够有效地提高模型性能。

像素对齐隐式函数(PIFu)能够根据输入的图像帧序列进行三维场景重建，重建出分拣作业主体与被分拣对象。而像素对齐隐式函数的输入可以是一帧图像，也可以是多帧图像，本实施例选择不同角度的多帧图像作为像素对齐隐式函数的输入，这样能够保证重建时获取更多重建目标信息并且排除只有一个视角造成前景与背景无法区分的问题，从而排除背景区域的干扰，使得在三维场景中作业主体与被分拣对象的特征更加明显与突出。

其中，三维场景重建模型采用的监督信息包括人工标注的对应场景下的RGB-D图像(深度图像)。

在其中一些实施例中，从三维重建信息中提取被分拣对象的运动特征包括：

根据第一图像帧序列和第二图像帧序列，获取对应于三维重建信息的时序信息；采用第一三维时序卷积模型处理三维重建信息和时序信息，得到被分拣对象的运动特征，第一三维时序卷积模型采用的监督信息包括被分拣对象是否发生运动的二值信号。

第一三维时序卷积模型可以通过二维时序卷积模型拓展得到，本实施例的深度学习都是在三维场景中进行，因此，第一三维时序卷积模型的输入也是三维场景中的数据，为了确定第一图像帧序列和第二图像帧序列的分拣行为，还需要获取时序信息，结合三维重建信息一起处理，得到分拣对象的运动特征。

在其中一些实施例中，采用第一三维时序卷积模型处理三维重建信息和时序信息，得到被分拣对象的运动特征包括：

在第一三维时序卷积模型中采用预训练形式处理三维重建信息和时序信息，其中，包括：删除运动特征提取模型中最后一层神经元输出的二值信号，提取第一三维时序卷积模型中倒数第二层神经元的输出结果，得到被分拣对象的运动特征。

在第一三维时序卷积模型中采用预训练形式的目的是为了得到第一三维时序卷积模型中除最后一层神经元以外其他层神经元的参数，也就是倒数第二层神经元的输出结果，从而得到被分拣对象的运动特征，而不是被分拣对象是否发生运动的二值信号。

在其中一些实施例中，从三维重建信息中提取全局特征包括：

采用第二三维时序卷积模型处理三维重建信息，提取全局特征，第二三维时序卷积模型采用的监督信息包括分拣作业主体是否发生暴力分拣行为的二值信号。

第二三维时序卷积模型和第一三维时序卷积模型属于相同类型的深度学习模型，两者的训练样本相同，区别在于监督信息不同，第一三维时序卷积模型的监督信息是被分拣对象是否发生运动的二值信号，第二三维时序卷积模型的监督信息是分拣作业主体是否发生暴力分拣行为的二值信号。如此，导致两个模型最后处理得到的特征不同，这种区别通过模型进行学习之后便可以自动给出相应编码，不需人工区分。

在其中一些实施例中，在采用第二三维时序卷积模型处理三维重建信息，提取全局特征之前，方法还包括：

同时训练第二三维时序卷积模型和分类器，第二三维时序卷积模型和分类器采用的监督信息均包括分拣作业主体是否发生暴力分拣行为的二值信号。

第二三维时序卷积模型和分类器组合之后直接输出分拣作业主体是否发生暴力分拣行为的二值信号，可以使得第二三维时序卷积模型不再需要额外的监督信息。

获取第一摄像机拍摄分拣作业区域得到的第三图像帧序列；检测第三图像帧序列中分拣作业主体的动作，判断当前是否存在分拣作业主体和被分拣对象产生交互的行为；在判断到当前存在分拣作业主体和被分拣对象产生交互的行为的情况下，获取第一摄像机从当前起拍摄得到的第一图像帧序列。

检测第一摄像机拍摄得到的第三图像帧序列，通过用于检测人体关节点的检测算法识别出当前分拣作业主体是否有“搬、拿”动作，如果返回“是”，则认为当前分拣作业主体和被分拣对象产生交互，并获取第一摄像机从当前起拍摄得到的第一图像帧序列。

在其中一些实施例中，在判断到当前存在分拣作业主体和被分拣对象产生交互的行为的情况下，方法还包括：

判断当前分拣作业主体和被分拣对象产生交互的持续时长是否达到预设时长；在判断到当前分拣作业主体和被分拣对象产生交互的持续时长达到预设时长的情况下，获取第一摄像机从当前起拍摄得到且分拣作业主体和被分拣对象产生交互的持续时长达到预设时长的第一图像帧序列。

在分拣作业主体分拣被分拣对象的过程中，为了得到包含一次完整的分拣行为的图像帧序列，判定出两次动作间隔的时间需要大于预设时长才认为有效，否则认为只是前一次动作未完成，避免图像帧序列太短导致分拣流程捕捉不全。

启动多个第二摄像机拍摄分拣作业区域，得到分拣作业区域的多个第二图像帧序列，其中，每个第二摄像机的拍摄视角不同。

当检测到分拣行为时，代表分拣作业区域已经在进行分拣作业了，此时才启动多个视角的第二摄像机进行拍摄，得到不同视角下分拣作业区域的图像帧序列，避免第二摄像机拍摄资源的浪费。

在其中一些实施例中，第一摄像机的拍摄视角的中轴线和第二摄像机的拍摄视角的中轴线之间所呈夹角不小于90度。

在进行三维场景重建时，只需关注到前景而忽略背景，因此要求相邻摄像机之间背景重叠区域尽可能小。例如，将相邻两个摄像机呈90度角安装，以最小安装角度获取最少背景重叠区域。如果安装角度过小，则需要安装更多第二摄像机来排除背景的干扰。

下面通过优选实施例对本申请实施例进行描述和说明。

图2是根据本申请优选实施例的分拣行为检测方法的流程图，如图2所示，该方法包括如下步骤：

步骤S201，获取主摄像机视频流。主摄像机即为第一摄像机。

步骤S202，分析人体动作。将主摄像机视频流输入到人体动作检测模块，通过人体关节点检测模块识别出当前分拣作业主体是否有“搬、拿”动作，如果返回“是”，则认为当前分拣作业主体与被分拣对象产生交互。

步骤S203，判断人体和包裹是否交互。若是，执行步骤S205，否则，返回步骤S202。

步骤S204，获取辅助像机视频流。辅助像机即第二摄像机。获取到产生交互的确定信息后，启动辅助摄像机(例如为n个)，获取辅助像机的视频流，直到分拣作业主体与下一个被分拣对象产生交互后，即人体动作检测模块检测当前分拣作业主体下一次的“搬、拿”动作，将这一阶段视频流作为下一级的输入。其中，判定出两次动作间隔的时间需要大于预设时长才认为有效，否则认为只是前一次动作未完成，避免视频流太短导致暴力分拣行为捕捉不全。n个辅助摄像机与主摄像机呈一定夹角，以多视角的方式为后续进行三维场景重建时提供更多有效信息。因为后续三维场景重建时，只需关注到前景信息而忽略背景信息，因此要求相邻摄像机之间背景重叠区域尽可能小，例如相邻两个摄像机呈90度角安装可以以最小安装角度获取最少背景重叠区域，如果安装角度过小，则需要更多辅助摄像机以便排除背景信息，从而在步骤S206中，增强PIFu函数根据前景信息重建三维场景的能力。

步骤S205，帧对齐。将主摄像机视频流与辅助摄像机采集到的视频流进行帧对齐后，送至三维场景重建模块，保证每个视频流起始时间与终止时间一致。

步骤S206，三维场景重建；然后分别执行步骤S207和步骤S208。三维场景重建模块通过像素对齐隐式函数(PIFu)对接收到的主摄像机及辅助摄像机的视频流进行三维场景还原，在还原过程中，把每个视频流单独拆解成帧图像，在帧对齐的情况下，保证了同一场景下同一时间的不同视角信息。由于不同视角采集到的视频图像中背景不同但是最大程度保留了分拣作业主体与被分拣对象的前景信息，因此能够充分利用前景信息进行已包含前景的三维场景重建，从而排除非被分拣对象以及背景信息的干扰。这里的三维重建信息类似于点云数据，使用一组m维向量来表示三维场景中某一个点所代表的位置信息及其RGB信息，这些信息可以由PIFu输出的RGB-D图像(深度图像)转换得到。三维场景重建模块采用预训练形式，监督信息是人工标注的对应场景下的RGB-D图像。

步骤S207，采用第一三维时序卷积模型并以预训练方式提取运动特征。通过对被分拣对象在三维场景中对应的运动特征进行编码，例如可以采用预训练三维时序卷积的方法对输入信息进行特征提取，得到特征输出。这里训练三维时序卷积模块的方式与步骤S210有所不同，这里的监督信息为被分拣对象是否发生运动的二值信号，训练完成运动特征提取后去掉最后一层输出层，固定剩下所有层参数，用来作为运动特征提取器。需要说明的是，步骤S207和步骤S210中的三维时序卷积模型的输入都是当前这一阶段视频流的三维场景重建信息以及时序信息，是从二维时序卷积模型拓展而来的。

步骤S208，采用第二三维时序卷积模型并以预训练方式提取全局特征。通过三维时序卷积对当前重建信息进行全局特征提取，这里的第二三维时序卷积模型与步骤S212的分类器同时训练，不再需要额外的监督信息。把它定义为全局信息提取，因为它和步骤S212的分类器组合之后可以直接输出拣作业主体是否发生暴力分拣行为的二值信号。

步骤S209，拼接特征。拼接运动特征和全局特征。

步骤S210，采用分类器对拼接后的特征分类。对拼接后的特征向量通过分类器进行分类与标识码(标识码包括0或者1，其中0代表非暴力分拣行为，1代表暴力分拣行为)输出。这里的分类器可以是具有分类功能的全连接神经网络或者卷积神经网络。

步骤S211，判断是否存在暴力分拣行为。若是，执行步骤S212；否则，结束流程。

步骤S212，报警。

需要说明的是，在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。例如，步骤S207和步骤S208的执行顺序不分先后。

本优选实施例包括以下优势：

实现了一种针对暴力分拣的检测方案，通过多个摄像机获取不同角度的分拣作业主体与被分拣对象的特征进行三维关联建模，分析并报警暴力分拣事件，有效降低因为误检造成的误报。

使用三维时序卷积对三维场景重建后的暴力分拣这一持续性事件进行特征提取与结果分类，能够有效排除非被分拣对象的干扰，从而提升整体的检测性能。

将景深方向的运动状态进行特征编码后与全局特征进行拼接，再进行分类与报警标识码输出。

结合上述实施例的分拣行为检测方法，本实施例提供了一种分拣行为检测***，图3是根据本申请实施例的分拣行为检测***的结构示意图，如图3所示，该***包括：第一摄像机301、多个第二摄像机302和服务器设备303；其中，第一摄像机301和多个第二摄像机302连接服务器设备303；第一摄像机301和多个第二摄像机302之间具有不同的拍摄视角，每个第二摄像机302之间具有不同的拍摄视角，第一摄像机301和多个第二摄像机302用于拍摄分拣作业区域，得到图像帧序列；服务器设备303用于执行上述实施例的分拣行为检测方法。

通过本实施例的分拣行为检测***，解决了相关技术中分拣行为检测结果的准确度较低的问题，提升了分拣行为检测结果的准确度。

另外，结合图1描述的本申请实施例的分拣行为检测方法可以由电子装置来实现。图4是根据本申请实施例的电子装置的硬件结构示意图，如图4所示，电子装置可以包括一个或多个(图4中仅示出一个)处理器402(处理器402可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器404，可选地，上述电子装置还可以包括用于通信功能的传输设备406以及输入输出设备408。本领域普通技术人员可以理解，图4所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，电子装置还可包括比图4中所示更多或者更少的组件，或者具有与图4所示不同的配置。

存储器404可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本申请实施例中的分拣行为检测方法对应的计算机程序，处理器402通过运行存储在存储器404内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器404可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器404可进一步包括相对于处理器402远程设置的存储器，这些远程存储器可以通过网络连接至电子装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输设备406用于经由一个网络接收或者发送数据。上述的网络具体实例可包括电子装置的通信供应商提供的无线网络。在一个实例中，传输设备406包括一个网络适配器(Network Interface Controller，简称为NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输设备406可以为射频(Radio Frequency，简称为RF)模块，其用于通过无线方式与互联网进行通讯。

可选地，在本实施例中，上述处理器402可以被设置为通过计算机程序执行以下步骤：

步骤S101，获取在分拣作业区域中分拣作业主体和被分拣对象产生交互的第一图像帧序列；

步骤S102，获取分拣作业区域的多个第二图像帧序列，其中，第二图像帧序列包括在多个视角下拍摄分拣作业区域得到的图像，且第二图像帧序列和第一图像帧序列逐帧对齐；

步骤S103，对第一图像帧序列和第二图像帧序列进行三维场景重建处理，得到以被分拣对象和分拣作业主体作为前景的三维重建信息；

步骤S104，分别从三维重建信息中提取被分拣对象的运动特征和三维重建信息的全局特征；

步骤S105，拼接运动特征和全局特征，并采用分类器对拼接后的特征进行分类，得到分拣作业主体是否产生预设分拣行为的分类结果，预设分拣行为包括分拣作业主体暴力抛掷被分拣对象的暴力分拣行为或者分拣作业主体非暴力抛掷被分拣对象的非暴力分拣行为，解决了相关技术中分拣行为检测结果的准确度较低的问题，提升了分拣行为检测结果的准确度。

需要说明的是，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

另外，结合上述实施例中的分拣行为检测方法，本申请实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现上述实施例中的任意一种分拣行为检测方法。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种分拣行为检测方法，其特征在于，包括：

2.根据权利要求1所述的分拣行为检测方法，其特征在于，对所述第一图像帧序列和所述第二图像帧序列进行三维场景重建处理，得到以所述被分拣对象和所述分拣作业主体作为前景的三维重建信息包括：

3.根据权利要求2所述的分拣行为检测方法，其特征在于，采用三维场景重建模型将对齐之后的帧图像进行三维场景重建处理，得到以所述被分拣对象和所述分拣作业主体作为前景的三维重建信息包括：

4.根据权利要求1所述的分拣行为检测方法，其特征在于，从所述三维重建信息中提取所述被分拣对象的运动特征包括：

5.根据权利要求4所述的分拣行为检测方法，其特征在于，采用第一三维时序卷积模型处理所述三维重建信息和所述时序信息，得到所述被分拣对象的运动特征包括：

6.根据权利要求1所述的分拣行为检测方法，其特征在于，从所述三维重建信息中提取所述全局特征包括：

7.根据权利要求6所述的分拣行为检测方法，其特征在于，在采用第二三维时序卷积模型处理所述三维重建信息，提取所述全局特征之前，所述方法还包括：

8.根据权利要求1所述的分拣行为检测方法，其特征在于，获取在分拣作业区域中分拣作业主体和被分拣对象产生交互的第一图像帧序列包括：

9.根据权利要求8所述的分拣行为检测方法，其特征在于，在判断到当前存在分拣作业主体和被分拣对象产生交互的行为的情况下，所述方法还包括：

10.根据权利要求8所述的分拣行为检测方法，其特征在于，在判断到当前存在分拣作业主体和被分拣对象产生交互的行为的情况下，所述方法还包括：

11.根据权利要求10所述的分拣行为检测方法，其特征在于，所述第一摄像机的拍摄视角的中轴线和所述第二摄像机的拍摄视角的中轴线之间所呈夹角不小于90度。

12.一种分拣行为检测***，其特征在于，包括：第一摄像机、多个第二摄像机和服务器设备；其中，所述第一摄像机和所述多个第二摄像机连接所述服务器设备；

所述服务器设备用于执行如权利要求1至11中任一项所述的分拣行为检测方法。

13.一种电子装置，包括存储器、处理器以及存储在所述存储器上并在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至11中任一项所述的分拣行为检测方法。

14.一种存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1至11中任一项所述的分拣行为检测方法。