CN111783665A

CN111783665A - 一种动作识别方法、装置、存储介质和电子设备

Info

Publication number: CN111783665A
Application number: CN202010624706.0A
Authority: CN
Inventors: 黄泽; 张泽覃; 陈冰
Original assignee: Innovation Qizhi Xi'an Technology Co ltd
Current assignee: Innovation Qizhi Xi'an Technology Co ltd
Priority date: 2020-06-30
Filing date: 2020-06-30
Publication date: 2020-10-16

Abstract

本申请实施例提供一种动作识别方法、装置、存储介质和电子设备，该动作识别方法包括：获取待处理图像；将所述待处理图像输入到预先训练好的检测模型中，获取包含重合部分的第一检测框，其中，所述第一检测框表示所述待处理图像中的第一对象所在的区域；对所述第一检测框进行边缘检测，获得所述重合部分内的对象边缘像素的梯度值；在所述重合部分内的对象边缘像素的梯度值呈凹形的情况下，从所述第一检测框中删除所述重合部分，以获得目标检测框；将所述目标检测框输入到预先训练好的动作识别模型中，获取所述第一对象的动作识别结果。本申请实施例通过从第一检测框中删除重合部分内的像素，从而避免了除第一对象之外的其他对象的干扰。

Description

一种动作识别方法、装置、存储介质和电子设备

技术领域

本申请涉及计算机技术领域，尤其涉及一种动作识别方法、装置、存储介质和电子设备。

背景技术

动作识别近年来一直是计算机视觉领域的研究热点，它在智能监控等多个领域均有广泛应用。

目前，现有的动作识别的方法包括局部搜索检测的方法，该局部搜索检测的方法是通过骨骼点识别算法检测出图像中所有对象(例如，行人等)的关键点，随后通过骨骼点的偶匹配算法进行关键点的组合，从而实现了对象的动作姿态的估计。

在实现本发明的过程中，发明人发现现有技术中存在着如下问题：在密集人群的场景下，对象被遮挡是无法避免的现象，但是，局部搜索检测的方法在面对对象被遮挡的情况时，可能会将不同人的不同部位进行错误地拼接，从而导致动作识别出现错误的情况。

发明内容

本申请实施例的目的在于提供的一种动作识别方法、装置、存储介质和电子设备，以解决对象被遮挡导致的动作识别错误的问题。

第一方面，本申请实施例提供了一种动作识别方法，该动作识别方法包括：获取待处理图像；将所述待处理图像输入到预先训练好的检测模型中，获取包含重合部分的第一检测框，其中，所述第一检测框表示所述待处理图像中的第一对象所在的区域；对所述第一检测框进行边缘检测，获得所述重合部分内的对象边缘像素的梯度值；在所述重合部分内的对象边缘像素的梯度值呈凹形的情况下，从所述第一检测框中删除所述重合部分，以获得目标检测框；将所述目标检测框输入到预先训练好的动作识别模型中，获取所述第一对象的动作识别结果。

因此，本申请实施例通过在重合部分内的对象边缘像素的梯度值呈凹形的情况下，确定重合部分为被遮挡的部分，随后从第一检测框中删除重合部分内的像素，从而避免了除第一对象之外的其他对象的干扰，进而解决对象被遮挡导致的动作识别错误的问题。

此外，利用本申请实施例中的预先训练好的动作识别模型对目标检测框进行检测，从而本申请实施例能够精准地对第一对象的动作进行识别，进而本申请实施例能够适用于密集型人群场景。

在一个可能的实施例中，所述重合部分是第二检测框和所述第一检测框的重合部分，所述第二检测框表示所述待处理图像中的第二对象所在的区域，在所述重合部分内的对象边缘像素的梯度值呈凹形的情况下，从所述第一检测框中删除所述重合部分，包括：计算所述第一检测框和所述第二检测框的重合度；在所述重合度小于预设重合度的情况下，从所述第一检测框中删除所述重合部分。

因此，本申请实施例通过将重合度较小的检测框中的重合部分进行删除，从而避免了其他对象信息的干扰。

在一个可能的实施例，所述动作识别方法还包括：在所述重合度大于等于所述预设重合度且所述第一检测框的置信度小于所述第二检测框的置信度的情况下，将所述第一检测框删除。

因此，本申请实施例能够将严重重合的检测框过滤掉。

在一个可能的实施例，在所述将所述待处理图像输入到预先训练好的检测模型中，获取包含重合部分的第一检测框之前，所述动作识别方法还包括：将用于训练初始检测模型的样本图像输入到所述初始检测模型中，获取预测框，其中，所述预测框表示所述样本图像中的样本对象所在的预测区域；根据所述预测框和与所述样本图像对应的第一样本检测框，确定第一损失值，其中，所述第一样本检测框表示所述样本图像中的样本对象所在的区域；利用所述第一损失值调整所述初始检测模型的参数，以获取所述预先训练好的检测模型。

因此，本申请实施例通过预先训练检测模型，从而可直接获取检测框，无需在每次获取检测框的过程前都建立新的模型。

在一个可能的实施例，所述第一损失值包括回归损失值，所述动作识别方法还包括，根据以下公式计算所述回归损失值：

其中，L_CIOU表示所述回归损失值，IOU表示所述预测框和所述第一样本检测框的交集，p(b,b^gt)表示所述预测框的中心点和所述第一样本检测框的中心点之间的距离，c表示所述预测框和所述第一样本检测框的最小外接矩形的对角线长度，a表示第一超参数，w^gt表示所述第一样本检测框的宽度，h^gt表示所述第一样本检测框的长度，w表示所述预测框的宽度，h表示所述预测框的长度。

因此，为了更精准地拟合回归框，本申请实施例中的计算第一损失值的损失函数中引入了回归损失函数CIoU Loss，以预测第一样本框和预测框之间的重叠面积、中心距离以及长宽比的差比作为惩罚项，避免了额外的干扰像素。

在一个可能的实施例，在所述将所述目标检测框输入到预先训练好的动作识别模型中，获取所述第一对象的动作识别结果之前，所述动作识别方法还包括：将用于训练初始动作识别模型的第二样本检测框输入到所述初始动作识别模型中，以获取预测动作识别结果；根据预测动作识别结果和与所述第二样本检测框对应的样本动作识别结果，确定第二损失值；利用所述第二损失值调整所述初始动作识别模型的参数，获得所述预先训练好的动作识别模型。

因此，本申请实施例通过预先训练动作识别模型，从而可直接获取动作识别结果，无需在每次获取动作识别结果的过程前都建立新的模型。

在一个可能的实施例，所述根据预测动作识别结果和与所述第二样本检测框对应的样本动作识别结果，确定第二损失值，包括，根据以下公式计算所述第二损失值：

L₁＝μL_fl+L_softmax；

其中，L₁表示第二损失值，μ表示调节分类损失函数Focal Loss和交叉熵损失函数Softmax Loss占比的第二超参数，L_fl表示通过Focal Loss计算得到的分类损失函数值，L_softmax表示通过Softmax Loss计算得到的交叉熵损失值。

第二方面，本申请实施例提供了一种动作识别装置，该动作识别装置包括：获取模块，用于获取待处理图像；输入模块，用于将所述待处理图像输入到预先训练好的检测模型中，获取包含重合部分的第一检测框，其中，所述第一检测框表示所述待处理图像中的第一对象所在的区域；边缘检测模块，用于对所述第一检测框进行边缘检测，获得所述重合部分内的对象边缘像素的梯度值；删除模块，用于在所述重合部分内的对象边缘像素的梯度值呈凹形的情况下，从所述第一检测框中删除所述重合部分，以获得目标检测框；所述输入模块，还用于将所述目标检测框输入到预先训练好的动作识别模型中，获取所述第一对象的动作识别结果。

第三方面，本申请实施例提供了一种存储介质，该存储介质上存储有计算机程序，该计算机程序被处理器运行时执行第一方面或第一方面的任一可选的实现方式所述的方法。

第四方面，本申请实施例提供了一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当所述电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行第一方面或第一方面的任一可选的实现方式所述的方法。

第五方面，本申请提供一种计算机程序产品，所述计算机程序产品在计算机上运行时，使得计算机执行第一方面或第一方面的任意可能的实现方式中的方法。

为使本申请实施例所要实现的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例提供的一种动作识别方法的流程图；

图2示出了本申请实施例提供的一种训练初始检测模型的方法的流程图；

图3示出了本申请实施例提供的一种训练初始动作识别模型的方法的流程图；

图4示出了本申请实施例提供的一种动作识别方法的具体流程图；

图5示出了本申请实施例提供的一种待处理图像的示意图；

图6示出了本申请实施例提供的一种标注的待处理图像的示意图；

图7示出了本申请实施例中的一种目标检测框的示意图；

图8示出了本申请实施例中的另一种目标检测框的示意图；

图9示出了本申请实施例提供的一种动作识别装置的结构框图；

图10是本申请实施例提供的一种电子设备的结构框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

目前，现有的动作识别的方法还包括两部检测的方法。其中，该两部检测的方法是通过检测模型预测出包含待检测对象(例如，人)的检测框，随后通过对检测框进行关键点识别来计算出对象的骨骼关键点的位置，从而基于预测的骨骼关键点来进一步通过制定的规则进行标准动作的姿态匹配，从而预测出对象的动作。

此外，在密集人群的场景下，对象被遮挡是无法避免的现象，但是，该两部检测的方法的处理过程中检测得到的检测框可能会出现其他对象的干扰因素，对骨骼点的预测效果也会受到相应的影响。

以及，该两部检测的方法的效果也极易受到检测框的影响，如果预测的检测框出现外扩或者缺失的情况下，动作的识别效果也会受到不同程度上的干扰。

另外，两部检测的方法和局部搜索检测的方法在面临密集型人群场景(例如，地铁等交通工具上等)时，随着图像中对象数量的增多而检测效果线性降低，极有可能无法满足实时性的需求。

基于此，本申请实施例巧妙地提出了一种动作识别方案，通过获取待处理图像，随后将待处理图像输入到预先训练好的检测模型中，获取包含重合部分的第一检测框，其中，第一检测框表示待处理图像中的第一对象所在的区域，随后对第一检测框进行边缘检测，获得重合部分内的对象边缘像素的梯度值，随后在重合部分内的对象边缘像素的梯度值呈凹形的情况下，从第一检测框中删除重合部分，以获得目标检测框，最后将目标检测框输入到预先训练好的动作识别模型中，获取第一对象的动作识别结果。

因此，本申请实施例通过在重合部分内的对象边缘像素的梯度值呈凹形的情况下，确定重合部分为被遮挡的部分，随后从第一检测框中删除重合部分内的像素，从而避免了除第一对象之外的其他对象的干扰。

请参见图1，图1示出了本申请实施例提供的一种动作识别方法的流程图，应理解，图1所示的方法可以由动作识别装置执行，该动作识别装置装置可以与下文中的图9所示的装置对应，该装置可以是能够执行该方法的各种设备，例如，如个人计算机、服务器或网络设备等，本申请实施例并不限于此。如图1所示的动作识别方法包括：

步骤S110，获取待处理图像。

具体地，可通过图像采集装置获取待处理图像，从而后续该动作识别装置可对采集的待处理图像进行动作识别。

应理解，图像采集装置的具体装置可根据实际需求来进行设置，本申请实施例并不局限于此。

例如，图像采集装置可以是设置在地铁里的摄像头等。

步骤S120，将待处理图像输入到预先训练好的检测模型中，获取包含重合部分的第一检测框。其中，第一检测框表示待处理图像中的第一对象所在的区域。

应理解，重合部分是指当前检测框和除当前检测框之外的其他检测框之间的重合部分。其中，该重合部分不仅可包括当前检测框中的对象，还可包括其他检测框中的对象(例如，其他检测框中的对象的部分肢体等)；该重合部分也可只包含当前检测框中的对象。

还应理解，第一对象可以是行人，也可以是动物等。

为了便于理解本申请实施例，下面通过具体的实施例来进行描述。

请参见图2，图2示出了本申请实施例提供的一种训练初始检测模型的方法的流程图。如图2所示的方法包括：

步骤S210，将样本图像输入到初始检测模型中，获取预测框。其中，样本图像是属于样本数据的，而且样本图像是用于训练初始检测模型的图像，预测框表示样本图像中的样本对象所在的预测区域。也就是说，预测框是初始检测模型的输出结果。

应理解，在将样本图像输入到初始检测模型之前，还可预先对样本图像进行预处理，随后再将经预处理之后的样本图像输入到初始检测模型中，本申请实施例并不局限于此。

例如，样本图像的预处理过程可包括：可随机擦除样本图像中的像素，从而能够提升初始检测模型在行人被遮挡情况下的检测性能。

再例如，样本图像的预处理过程也可包括：还可利用随机颜色扰动策略对样本图像进行处理，从而增加了数据量，进而提高了训练模型的鲁棒性。

此外，需要说明的是，该初始检测模型除了输出预测框之外，还可输出预测框的置信度。

对应地，对于预先训练好的检测模型来说，该预先训练好的检测模型除了输出第一检测框之外，还可输出有第一检测框的置信度。

步骤S220，根据预测框和与样本图像对应的第一样本检测框，确定第一损失值。其中，第一样本检测框表示样本图像中的样本对象所在的区域。

应理解，该第一样本检测框表示的是样本图像中的样本对象所在的真实区域。

还应理解，第一损失值的计算公式可根据实际需求来进行设置，本申请实施例并不局限于此。

例如，该第一损失值可以是第一分类损失值和回归损失值相加后得到的。其中，第一分类损失值是通过第一分类损失函数Focal Loss计算得到的，回归损失值是通过回归损失函数CIoU Loss计算得到的。

还应理解，第一分类损失函数Focal Loss对应的计算公式和回归损失函数CIoULoss对应的计算公式均可根据实际需求来进行设置，本申请实施例并不局限于此。

例如，可根据以下公式来计算回归损失函数CIoU Loss，具体地：

其中，L_CIOU表示回归损失值，IOU表示预测框和第一样本检测框的交集，p(b,b^gt)表示预测框的中心点和第一样本检测框的中心点之间的距离，c表示预测框和第一样本检测框的最小外接矩形的对角线长度，a表示用于调节权值大小的第一超参数，w^gt表示第一样本检测框的宽度，h^gt表示第一样本检测框的长度，w表示预测框的宽度，h表示预测框的长度。

再例如，第一分类损失函数Focal Loss的计算公式可以是现有的函数，本申请实施例并不局限于此。

步骤S230，利用第一损失值调整初始检测模型的参数，以获取预先训练好的检测模型。

此外，需要说明的是，虽然图2示出了初始检测模型的训练过程，但本领域的技术人员应当理解，在检测模型是预先训练好的检测模型的情况下，可省略图2的过程，即无需每次都对初始检测模型进行训练。

另外，在将待处理图像输入到预先训练好的检测模型之后，该预先训练好的检测模型可输出第一检测框和第一检测框的置信度。

步骤S130，对第一检测框进行边缘检测，并获得第一检测框内的对象边缘像素的梯度值。

应理解，对象边缘像素可以是第一检测框内的对象(包括第一对象)的边缘处的像素。

还应理解，对第一检测框进行边缘检测所使用的具体算法可根据实际需求来进行设置，本申请实施例并不局限于此。

例如，对第一检测框进行边缘检测所使用的算法可以是Canny边缘检测算法。

步骤S140，根据第一检测框内的对象边缘像素的梯度值，获取第一检测框中的重合部分内的对象边缘像素的梯度值。

具体地，由于重合部分内的像素的位置是已知的，从而可根据重合部分内的像素的位置来从第一检测框内的所有对象边缘像素的梯度值中挑选出重合部分内的对象边缘像素的梯度值。

步骤S150，在重合部分内的对象边缘像素的梯度值呈凹形的情况下，从第一检测框中删除重合部分，以获得目标检测框。

也就是说，在重合部分呈凹形的情况下，则确定该重合部分是被遮挡的图像，则可擦除重合部分内的像素。

应理解，虽然步骤S130和步骤S150示出了对重合部分内的像素进行擦除的过程，但本领域的技术人员应当理解，对第一检测框的处理方式还可根据实际需求来进行设置。

可选地，由于重合部分可以是第一检测框和用于标识待处理图像中的第二对象所在区域的第二检测框的重合部分，从而可计算第一检测框和第二检测框的重合度。

以及，在重合度大于等于预设重合度的情况下，则可过滤掉置信度较小的检测框，例如，在第一检测框的置信度小于第二检测框的置信度的情况下，则可过滤掉第一检测框，将第二检测框作为目标检测框；在重合度小于预设重合度的情况下，则可对第一检测框进行边缘检测。

以及，在重合度小于预设重合度且重合部分内的对象边缘像素的梯度值呈凸形的情况下，则确定第一检测框是无遮挡的图像，则无需对第一检测框进行处理，将第一检测框作为目标检测框；在重合部分内的对象边缘像素的梯度值呈凹形的情况下，则确定该重合部分是被遮挡的图像，则可擦除第一检测框内的重合部分内的像素，获得目标检测框。

应理解，预设重合度的大小可根据实际需求来进行设置，本申请实施例并不局限于此。

因此，本申请实施例可先按照检测框的置信度的大小进行排序，从而根据预设重合度过滤掉严重重合的检测框，随后对于重合度比较低的检测框，可通过边缘轮廓检测来判断重合部分所属的检测框，并将被遮挡的检测框进行重合部分的删除，从而避免了其他对象的信息的干扰。

步骤S160，将目标检测框输入到预先训练好的动作识别模型中，获取第一对象的动作识别结果。

具体地，请参见图3，图3示出了本申请实施例提供的一种训练初始动作识别模型的方法的流程图。如图3所示的方法包括：

步骤S310，将第二样本检测框输入到初始动作识别模型中，以获取预测动作识别结果。

应理解，第二样本检测框可以是擦除重合部分后剩余的检测框，也可以是没有擦除重合部分的检测框。也就是说，本申请实施例中的动作识别模型可以识别擦除重合部分内的检测框，也可以识别没有擦除重合部分的检测框。

应理解，该预测动作识别结果可以是具体的动作，也可以是包含有不同动作标识的概率的向量数据，本申请实施例并不局限于此。

此外，在获取向量数据后，可根据向量数据来确定对线的动作。

步骤S320，根据预测动作识别结果和与第二样本检测框对应的样本动作识别结果，确定第二损失值。

应理解，第二损失值的计算公式可根据实际需求来进行设置，本申请实施例并不局限于此。

例如，可根据以下公式来计算第二损失值：

L₁＝μL_fl+L_softmax

其中，L₁表示第二损失值，μ表示调节两个损失函数(即第二分类损失函数FocalLoss和交叉熵损失函数Softmax Loss)占比的第二超参数，L_fl表示通过第二分类损失函数Focal Loss计算得到的分类损失函数值，L_softmax表示通过交叉熵损失函数Softmax Loss计算得到的交叉熵损失值。

还应理解，交叉熵损失函数Softmax Loss的计算公式和第二分类损失函数FocalLoss的计算公式均可根据实际需求来进行设置，本申请实施例并不局限于此。

可选地，可根据以下公式来计算分类损失函数值：

其中，λ表示用于调节正负样本的权重的第三超参数，且λ∈[0,1]，其中，负样本是指图像中的检测框，正样本是指图像中的环境等；y^∧表示预测动作识别结果，即其为初始动作识别模型输出的预测值；y表示样本动作识别结果，即它为第二样本检测框对应的动作识别结果的真实值；β为用于加快交叉熵损失函数Softmax Loss收敛过程的第四超参数。

因此，如果在动作识别的过程中，直接对目标检测框进行识别分类，则会出现量的错误标签，因为目标检测框很有可能无法满足原有的数据分布。从而，针对以上的情况，本申请实施例以第二分类损失函数Focal Loss和交叉熵损失函数Softmax Loss的线性组合作为最终的损失函数，从而减少了负样本数量占比较多所带来的干扰。

可选地，可根据以下公式来计算交叉熵损失值：

其中，T表示动作识别模型的输出向量的长度；y_j表示用于标识类别的标签(例如，在动作识别模型对应四个输出类别的情况下，第一个类别的标签可以是1000，第二个类别的标签可以是0100，第三个类别的标签可以是0010，第四个类别的标签可以是0001等)在j位置上的值(例如，如果标签为第j类，则y_j等于1，在其他位置上则为0)；s_j表示输出向量在j位置上的数值(即在为第j类的概率)。

步骤S330，利用第二损失值调整初始动作识别模型的参数，获得预先训练好的动作识别模型。

此外，需要说明的是，虽然图3示出了初始动作识别模型的训练过程，但本领域的技术人员应当理解，在动作识别模型是预先训练好的动作识别模型的情况下，可省略图3的过程，即无需每次都对初始动作识别模型进行训练。

另外，还需要说明的是，虽然上面步骤S120至步骤S160示出的是对第一检测框的动作识别过程，但本领域的技术人员应当理解，在待处理图像对应有多个检测框的情况下，所有检测框的动作识别过程均可通过步骤S120至步骤S160的过程来实现。

请参见图4，图4示出了本申请实施例提供的一种动作识别方法的具体流程图。如图4所示的动作识别方法包括：

步骤S410，获取待处理图像。

例如，请参见图5，图5示出了本申请实施例提供的一种待处理图像的示意图。如图5所示的待处理图像包括行人510和行人520。

步骤S420，通过预先训练好的检测模型，对待处理图像进行对象检测，获得检测框。

步骤S430，擦除检测框内的重合部分内的像素，获得目标检测框。

例如，请参见图6，图6示出了本申请实施例提供的一种标注的待处理图像的示意图。如图6所示，在待处理图像中，对行人510和行人520进行标注，且此时包含行人510的检测框和包含行人520的检测框是存在重合部分的。

以及，请参见图7，图7示出了本申请实施例中的一种目标检测框的示意图。如图7所示的目标检测框对应行人510。

以及，请参见图8，图8示出了本申请实施例中的另一种目标检测框的示意图。如图8所示的目标检测框对应行人520。

步骤S440，通过预先训练好的动作识别模型获取目标检测框对应的动作识别结果。

应理解，在获得目标检测框后，可对所有的目标检测框进行预处理，以将所有的目标检测框调整至预设尺寸。随后，再分别将预设尺寸的目标检测框输入到预先训练好的动作识别模型中，获得动作识别结果。

应理解，预设尺寸的大小可根据实际需求来进行设置，本申请实施例并不局限于此。

应理解，上述动作识别方法仅是示例性的，本领域技术人员根据上述的方法可以进行各种变形，修改或变形之后的内容也在本申请保护范围内。

例如，尽管在附图中以特定顺序描述了本申请方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。相反，流程图中描绘的步骤可以改变执行顺序。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

请参见图9，图9示出了本申请实施例提供的一种动作识别装置900的结构框图，应理解，该动作识别装置900与上述方法实施例对应，能够执行上述方法实施例涉及的各个步骤，该动作识别装置900具体的功能可以参见上文中的描述，为避免重复，此处适当省略详细描述。该动作识别装置900包括至少一个能以软件或固件(firmware)的形式存储于存储器中或固化在动作识别装置900的操作***(operating system，OS)中的软件功能模块。具体地，该动作识别装置900包括：

获取模块910，用于获取待处理图像；输入模块920，用于将待处理图像输入到预先训练好的检测模型中，获取包含重合部分的第一检测框，其中，第一检测框表示待处理图像中的第一对象所在的区域；边缘检测模块930，用于对第一检测框进行边缘检测，获得重合部分内的对象边缘像素的梯度值；删除模块940，用于在重合部分内的对象边缘像素的梯度值呈凹形的情况下，从第一检测框中删除重合部分，以获得目标检测框；输入模块920，还用于将目标检测框输入到预先训练好的动作识别模型中，获取第一对象的动作识别结果。

在一个可能的实施例中，重合部分是第二检测框和第一检测框的重合部分，第二检测框表示待处理图像中的第二对象所在的区域，删除模块940，包括：计算模块(未示出)，用于计算第一检测框和第二检测框的重合度；删除子模块(未示出)，用于在重合度小于预设重合度的情况下，从第一检测框中删除重合部分。

在一个可能的实施例中，删除子模块，还用于在重合度大于等于预设重合度且第一检测框的置信度小于第二检测框的置信度的情况下，将第一检测框删除。

在一个可能的实施例中，输入模块920，还用于将用于训练初始检测模型的样本图像输入到初始检测模型中，获取预测框，其中，预测框表示样本图像中的样本对象所在的预测区域；第一确定模块(未示出)，用于根据预测框和与样本图像对应的第一样本检测框，确定第一损失值，其中，第一样本检测框表示样本图像中的样本对象所在的区域；第一调整模块(未示出)，用于利用第一损失值调整初始检测模型的参数，以获取预先训练好的检测模型。

在一个可能的实施例中，第一损失值包括回归损失值，该动作识别装置900还包括，第一计算模块，用于根据以下公式计算回归损失值：

其中，L_CIOU表示回归损失值，IOU表示预测框和第一样本检测框的交集，p(b,b^gt)表示预测框的中心点和第一样本检测框的中心点之间的距离，c表示预测框和第一样本检测框的最小外接矩形的对角线长度，a表示第一超参数，w^gt表示第一样本检测框的宽度，h^gt表示第一样本检测框的长度，w表示预测框的宽度，h表示预测框的长度。

在一个可能的实施例中，输入模块920，还用于将用于训练初始动作识别模型的第二样本检测框输入到初始动作识别模型中，以获取预测动作识别结果；第二确定模块(未示出)，用于根据预测动作识别结果和与第二样本检测框对应的样本动作识别结果，确定第二损失值；第二调整模块(未示出)，用于利用第二损失值调整初始动作识别模型的参数，获得预先训练好的动作识别模型。

在一个可能的实施例中，该动作识别装置900还包括，第二计算模块，用于根据以下公式计算第二损失值：

L₁＝μL_fl+L_softmax；

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置的具体工作过程，可以参考前述方法中的对应过程，在此不再过多赘述。

本申请实施例还提供一种电子设备，请参见图10，图10是本申请实施例提供的一种电子设备1000的结构框图。电子设备1000可以包括处理器1010、通信接口1020、存储器1030和至少一个通信总线1040。其中，通信总线1040用于实现这些组件直接的连接通信。其中，本申请实施例中的通信接口1020用于与其他设备进行信令或数据的通信。处理器1010可以是一种集成电路芯片，具有信号的处理能力。上述的处理器1010可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器1010也可以是任何常规的处理器等。

存储器1030可以是，但不限于，随机存取存储器(Random Access Memory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(Programmable Read-OnlyMemory，PROM)，可擦除只读存储器(Erasable Programmable Read-Only Memory，EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory，EEPROM)等。存储器1030中存储有计算机可读取指令，当所述计算机可读取指令由所述处理器1010执行时，电子设备1000可以执行上述方法实施例中的各个步骤。

电子设备1000还可以包括存储控制器、输入输出单元、音频单元、显示单元。

所述存储器1030、存储控制器、处理器1010、外设接口、输入输出单元、音频单元、显示单元各元件相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通信总线1040实现电性连接。所述处理器1010用于执行存储器1030中存储的可执行模块。并且，电子设备1000用于执行下述方法：获取待处理图像；将所述待处理图像输入到预先训练好的检测模型中，获取包含重合部分的第一检测框，其中，所述第一检测框表示所述待处理图像中的第一对象所在的区域；对所述第一检测框进行边缘检测，获得所述重合部分内的对象边缘像素的梯度值；在所述重合部分内的对象边缘像素的梯度值呈凹形的情况下，从所述第一检测框中删除所述重合部分，以获得目标检测框；将所述目标检测框输入到预先训练好的动作识别模型中，获取所述第一对象的动作识别结果。

输入输出单元用于提供给用户输入数据实现用户与所述服务器(或本地终端)的交互。所述输入输出单元可以是，但不限于，鼠标和键盘等。

音频单元向用户提供音频接口，其可包括一个或多个麦克风、一个或者多个扬声器以及音频电路。

显示单元在所述电子设备与用户之间提供一个交互界面(例如用户操作界面)或用于显示图像数据给用户参考。在本实施例中，所述显示单元可以是液晶显示器或触控显示器。若为触控显示器，其可为支持单点和多点触控操作的电容式触控屏或电阻式触控屏等。支持单点和多点触控操作是指触控显示器能感应到来自该触控显示器上一个或多个位置处同时产生的触控操作，并将该感应到的触控操作交由处理器进行计算和处理。

可以理解，图10所示的结构仅为示意，所述电子设备1000还可包括比图10中所示更多或者更少的组件，或者具有与图10所示不同的配置。图10中所示的各组件可以采用硬件、软件或其组合实现。

本申请还提供一种存储介质，该存储介质上存储有计算机程序，该计算机程序被处理器运行时执行方法实施例所述的方法。

本申请还提供一种计算机程序产品，所述计算机程序产品在计算机上运行时，使得计算机执行方法实施例所述的方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***的具体工作过程，可以参考前述方法中的对应过程，在此不再过多赘述。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种动作识别方法，其特征在于，包括：

获取待处理图像；

将所述待处理图像输入到预先训练好的检测模型中，获取包含重合部分的第一检测框，其中，所述第一检测框表示所述待处理图像中的第一对象所在的区域；

对所述第一检测框进行边缘检测，获得所述重合部分内的对象边缘像素的梯度值；

在所述重合部分内的对象边缘像素的梯度值呈凹形的情况下，从所述第一检测框中删除所述重合部分，以获得目标检测框；

将所述目标检测框输入到预先训练好的动作识别模型中，获取所述第一对象的动作识别结果。

2.根据权利要求1所述的动作识别方法，其特征在于，所述重合部分是第二检测框和所述第一检测框的重合部分，所述第二检测框表示所述待处理图像中的第二对象所在的区域，在所述重合部分内的对象边缘像素的梯度值呈凹形的情况下，从所述第一检测框中删除所述重合部分，包括：

计算所述第一检测框和所述第二检测框的重合度；

在所述重合度小于预设重合度的情况下，从所述第一检测框中删除所述重合部分。

3.根据权利要求2所述的动作识别方法，其特征在于，所述动作识别方法还包括：

在所述重合度大于等于所述预设重合度且所述第一检测框的置信度小于所述第二检测框的置信度的情况下，将所述第一检测框删除。

4.根据权利要求1所述的动作识别方法，其特征在于，在所述将所述待处理图像输入到预先训练好的检测模型中，获取包含重合部分的第一检测框之前，所述动作识别方法还包括：

将用于训练初始检测模型的样本图像输入到所述初始检测模型中，获取预测框，其中，所述预测框表示所述样本图像中的样本对象所在的预测区域；

根据所述预测框和与所述样本图像对应的第一样本检测框，确定第一损失值，其中，所述第一样本检测框表示所述样本图像中的样本对象所在的区域；

利用所述第一损失值调整所述初始检测模型的参数，以获取所述预先训练好的检测模型。

5.根据权利要求4所述的动作识别方法，其特征在于，所述第一损失值包括回归损失值，所述动作识别方法还包括，根据以下公式计算所述回归损失值：

6.根据权利要求1所述的动作识别方法，其特征在于，在所述将所述目标检测框输入到预先训练好的动作识别模型中，获取所述第一对象的动作识别结果之前，所述动作识别方法还包括：

将用于训练初始动作识别模型的第二样本检测框输入到所述初始动作识别模型中，以获取预测动作识别结果；

根据预测动作识别结果和与所述第二样本检测框对应的样本动作识别结果，确定第二损失值；

利用所述第二损失值调整所述初始动作识别模型的参数，获得所述预先训练好的动作识别模型。

7.根据权利要求6所述的动作识别方法，其特征在于，所述根据预测动作识别结果和与所述第二样本检测框对应的样本动作识别结果，确定第二损失值，包括，根据以下公式计算所述第二损失值：

L₁＝μL_fl+L_softmax；

其中，L₁表示所述第二损失值，μ表示调节分类损失函数FocalLoss和交叉熵损失函数Softmax Loss占比的第二超参数，L_fl表示通过所述Focal Loss计算得到的分类损失函数值，L_softmax表示通过所述Softmax Loss计算得到的交叉熵损失值。

8.一种动作识别装置，其特征在于，包括：

获取模块，用于获取待处理图像；

输入模块，用于将所述待处理图像输入到预先训练好的检测模型中，获取包含重合部分的第一检测框，其中，所述第一检测框表示所述待处理图像中的第一对象所在的区域；

边缘检测模块，用于对所述第一检测框进行边缘检测，获得所述重合部分内的对象边缘像素的梯度值；

删除模块，用于在所述重合部分内的对象边缘像素的梯度值呈凹形的情况下，从所述第一检测框中删除所述重合部分，以获得目标检测框；

所述输入模块，还用于将所述目标检测框输入到预先训练好的动作识别模型中，获取所述第一对象的动作识别结果。

9.一种存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1-7任一所述的动作识别方法。

10.一种电子设备，其特征在于，所述电子设备包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当所述电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如权利要求1-7任一所述的动作识别方法。