CN113642360B

CN113642360B - 一种行为计时方法、装置、电子设备及存储介质

Info

Publication number: CN113642360B
Application number: CN202010346543.4A
Authority: CN
Inventors: 赵飞
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2020-04-27
Filing date: 2020-04-27
Publication date: 2024-06-04
Anticipated expiration: 2040-04-27
Also published as: CN113642360A

Abstract

本发明实施例提供了一种行为计时方法、装置、电子设备及存储介质。方案如下：获取待计时视频，从待计时视频中获取包括目标对象的目标图像序列，利用预设行为识别模型，确定目标图像序列中目标对象执行行为的目标行为类别；预设行为识别模型是利用预设训练集训练得到的，根据待计时视频的时间信息，确定目标对象执行目标行为类别的行为的时长。通过本发明实施例提供的技术方案，完全不需要人工的参与，并且由于待计时视频中每一视频帧的时间信息是唯一确定的，因此根据视频帧的时间信息所确定的目标对象执行目标行为类别的行为的时长将更加准确，有效提高了行为计时的准确性，节约了人力资源。

Description

一种行为计时方法、装置、电子设备及存储介质

技术领域

本发明涉及视频监控技术领域，特别是涉及一种行为计时方法、装置、电子设备及存储介质。

背景技术

目前，在视频监控领域中，对监控视频数据中包括的对象，如人、动物等的行为数据分析逐渐成为重要的研究方向。在对监控视频数据中包括的对象所执行行为的行为数据进行分析时，不可避免的需要对该对象执行某一个或多个行为的时长进行统计，即行为计时。例如，在智慧牧场中，可以根据动物的进食时长、饮水时长等行为计时结果，预估动物的健康状态等。

但是，在现有行为计时过程中，往往是人工对监控视频数据中的对象执行的行为进行计时，由于人工计时的误差，使得行为及时结果的准确性较差，并且需要耗费较多的人力资源。

发明内容

本发明实施例的目的在于提供一种行为计时方法、装置、电子设备及存储介质，以提高行为计时的准确性，节约人力资源。具体技术方案如下：

本发明实施例提供了一种行为计时方法，所述方法包括：

获取待计时视频；

从所述待计时视频中获取包括目标对象的目标图像序列；

利用预设行为识别模型，确定所述目标图像序列中所述目标对象执行行为的目标行为类别；所述预设行为识别模型是利用预设训练集训练得到的，所述预设训练集包括多个样本图像序列，以及每一样本图像序列中样本对象执行行为的样本行为类别；

根据所述待计时视频的时间信息，确定所述目标对象执行所述目标行为类别的行为的时长。

可选的，所述利用预设行为识别模型，确定所述目标图像序列中所述目标对象执行行为的目标行为类别的步骤，包括：

将所述目标图像序列输入预设行为识别模型，得到所述预设行为识别模型的预设层输出的行为特征数据，作为所述目标图像序列中所述目标对象执行行为的目标行为特征数据；

根据预先存储的行为特征数据与行为类别的对应关系，确定所述目标行为特征数据对应的目标行为类别。

可选的，所述根据预先存储的行为特征数据与行为类别的对应关系，确定所述目标行为特征数据对应的目标行为类别的步骤，包括：

计算所述目标行为特征数据与预先存储的行为特征数据间的相似度；

将所述相似度大于预设相似度阈值的预先存储的行为特征数据所对应的行为类别，确定为所述目标行为特征对应的目标行为类别。

可选的，所述从所述待计时视频中获取包括目标对象的目标图像序列的步骤，包括：

对所述待计时视频包括的每一视频帧进行目标跟踪检测，确定包括目标对象的多个目标视频帧；

基于所述多个目标视频帧，获取包括所述目标对象目标图像序列。

可选的，所述对所述待计时视频包括的每一视频帧进行目标跟踪检测，确定包括目标对象的多个目标视频帧的步骤，包括：

对所述待计时视频包括的每一视频帧进行目标跟踪检测，确定包括目标对象的多个视频帧中所述目标对象的属性变化参数；

将所述属性变化参数在预设属性变化参数阈值内的视频帧确定为目标视频帧；

其中，所述属性变化参数包括速度变化参数、宽高比变化参数、直方图变化参数中的一种或多种。

可选的，所述基于所述多个目标视频帧，获取包括所述目标对象目标图像序列的步骤，包括：

根据所述多个目标视频帧的每一个视频帧中所述目标对象所在区域的坐标，确定针对所述目标对象的待截取区域的坐标；

从所述多个目标视频帧的每一个视频帧中，截取所述待截取区域的坐标对应的图像；

基于截取得到的多个图像，获取包括所述目标对象的目标图像序列。

可选的，所述根据所述多个目标视频帧的每一个视频帧中所述目标对象所在区域的坐标，确定针对所述目标对象的待截取区域的坐标的步骤，包括：

将包含所述多个目标视频帧的每一个视频帧中所述目标对象所在区域的最小面积区域，确定为针对所述目标对象的待截取区域，并确定所述待截取区域的坐标。

可选的，所述基于截取得到的多个图像，获取包括所述目标对象的目标图像序列的步骤，包括：

按照预设时间步长，对截取得到的多个图像进行划分，得到多个包括所述目标对象的目标图像序列。

可选的，所述根据所述待计时视频的时间信息，确定所述目标对象执行所述目标行为类别的行为的时长的步骤，包括：

根据所述待计时视频的时间信息，统计每一目标图像序列对应的时长；

针对每一目标行为类别，计算该目标行为类别对应的各个目标图像序列的时长和，得到所述目标对象执行每一目标行为类别的行为的时长。

可选的，所述时间信息为时间戳信息或帧率信息；

所述根据所述待计时视频的时间信息，统计每一目标图像序列对应的时长的步骤，包括：

根据所述待计时视频的时间戳信息，计算每一目标图像序列对应的时长；或

根据所述待计时视频的帧率信息，以及每一目标图像序列所包括的图像的数量，计算每一目标图像序列对应的时长。

可选的，采用如下步骤训练得到所述行为识别模型：

获取所述预设训练集；

将所述预设训练集中的每一样本图像序列分别输入到预设神经网络中，得到每一样本图像序列中样本对象执行行为的预测行为类别；

根据每一样本图像序列对应的样本行为类别和预测行为类别，确定行为类别的损失值；

在所述损失值大于预设损失值阈值时，调整所述预设神经网络的参数，并返回执行所述将所述预设训练集中的每一样本图像序列分别输入到预设神经网络中，得到每一样本图像序列中样本对象执行行为的预测行为类别的步骤；

在所述损失值不大于所述预设损失值阈值时，将当前预设神经网络确定为预设行为识别模型。

本发明实施例还提供了一种行为计时装置，所述装置包括：

第一获取模块，用于获取待计时视频；

第二获取模块，用于从所述待计时视频中获取包括目标对象的目标图像序列；

第一确定模块，用于利用预设行为识别模型，确定所述目标图像序列中所述目标对象执行行为的目标行为类别；所述预设行为识别模型是利用预设训练集训练得到的，所述预设训练集包括多个样本图像序列，以及每一样本图像序列中样本对象执行行为的样本行为类别；

计时模块，用于根据所述待计时视频的时间信息，确定所述目标对象执行所述目标行为类别的行为的时长。

可选的，所述第一确定模块，包括：

第一确定子模块，用于将所述目标图像序列输入预设行为识别模型，得到所述预设行为识别模型的预设层输出的行为特征数据，作为所述目标图像序列中所述目标对象执行行为的目标行为特征数据；

第二确定子模块，用于根据预先存储的行为特征数据与行为类别的对应关系，确定所述目标行为特征数据对应的目标行为类别。

可选的，所述第二确定子模块，具体用于计算所述目标行为特征数据与预先存储的行为特征数据间的相似度；将所述相似度大于预设相似度阈值的预先存储的行为特征数据所对应的行为类别，确定为所述目标行为特征对应的目标行为类别。

可选的，所述第二获取模块，包括：

第三确定子模块，用于对所述待计时视频包括的每一视频帧进行目标跟踪检测，确定包括目标对象的多个目标视频帧；

第一获取子模块，用于基于所述多个目标视频帧，获取包括所述目标对象目标图像序列。

可选的，所述第三确定子模块，具体用于对所述待计时视频包括的每一视频帧进行目标跟踪检测，确定包括目标对象的多个视频帧中所述目标对象的属性变化参数；将所述属性变化参数在预设属性变化参数阈值内的视频帧确定为目标视频帧；

可选的，所述第一获取子模块，包括：

确定单元，用于根据所述多个目标视频帧的每一个视频帧中所述目标对象所在区域的坐标，确定针对所述目标对象的待截取区域的坐标；

截取单元，用于从所述多个目标视频帧的每一个视频帧中，截取所述待截取区域的坐标对应的图像；

获取单元，用于基于截取得到的多个图像，获取包括所述目标对象的目标图像序列。

可选的，所述确定单元，具体用于将包含所述多个目标视频帧的每一个视频帧中所述目标对象所在区域的最小面积区域，确定为针对所述目标对象的待截取区域，并确定所述待截取区域的坐标。

可选的，所述获取单元，具体用于按照预设时间步长，对截取得到的多个图像进行划分，得到多个包括所述目标对象的目标图像序列。

可选的，所述计时模块，包括：

统计子模块，用于根据所述待计时视频的时间信息，统计每一目标图像序列对应的时长；

计算子模块，用于针对每一目标行为类别，计算该目标行为类别对应的各个目标图像序列的时长和，得到所述目标对象执行每一目标行为类别的行为的时长。

可选的，所述时间信息为时间戳信息或帧率信息；

所述统计子模块，具体用于根据所述待计时视频的时间戳信息，计算每一目标图像序列对应的时长；或根据所述待计时视频的帧率信息，以及每一目标图像序列所包括的图像的数量，计算每一目标图像序列对应的时长。

可选的，所述装置还包括：

第三获取模块，用于获取所述预设训练集；

第二确定模块，用于将所述预设训练集中的每一样本图像序列分别输入到预设神经网络中，得到每一样本图像序列中样本对象执行行为的预测行为类别；

第三确定模块，用于根据每一样本图像序列对应的样本行为类别和预测行为类别，确定行为类别的损失值；

调整模块，用于在所述损失值大于预设损失值阈值时，调整所述预设神经网络的参数，并返回执行所述将所述预设训练集中的每一样本图像序列分别输入到预设神经网络中，得到每一样本图像序列中样本对象执行行为的预测行为类别的步骤；

第四确定模块，用于在所述损失值不大于所述预设损失值阈值时，将当前预设神经网络确定为预设行为识别模型。

本发明实施例还提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述任一所述的行为计时方法步骤。

本发明实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一所述的行为计时方法。

本发明实施例有益效果：

本发明实施例提供的行为计时方法、装置、电子设备及存储介质，可以从待计时视频中获得包括目标对象的目标图像序列，利用预设行为识别模型，确定目标图像序列中目标对象执行行为的目标行为类别，从而根据待计时视频的时间信息，确定目标对象执行目标行为类别的行为的时长。在此过程中，完全不需要人工的参与，并且由于待计时视频中每一视频帧的时间信息是唯一确定的，因此根据视频帧的时间信息所确定的目标对象执行目标行为类别的行为的时长将更加准确，有效提高了行为计时的准确性，节约了人力资源。

当然，实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的预设行为模型训练方法的一种流程示意图；

图2为本发明实施例提供的行为计时方法的第一种流程示意图；

图3为本发明实施例提供的行为计时方法的第二种流程示意图；

图4为本发明实施例提供的行为计时方法的第三种流程示意图；

图5-a为本发明实施例提供的对象1的感兴趣区域对应左上角顶点的最小坐标值的视频帧的示意图；

图5-b为本发明实施例提供的对象1的感兴趣区域对应右下角顶点的最小坐标值的视频帧的示意图；

图5-c为本发明实施例提供的一种待截取区域的一种示意图；

图6为本发明实施例提供的目标对象运动过程的一种示意图；

图7为本发明实施例提供的行为计时方法的第四种流程示意图；

图8为本发明实施例提供的行为识别方法的第五种流程示意图；

图9为本发明实施例提供的行为识别方法的第六种流程示意图；

图10为本发明实施例提供的行为计时装置的一种结构示意图；

图11为本发明实施例提供的电子设备的一种结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了解决人工计时准确性较差，耗费人力资源较多的问题，本发明实施例提供了一种行为计时方法。该方法可以适用于任一电子设备。在本发明实施例提供的方法中，获取待计时视频，从待计时视频中获取包括目标对象的目标图像序列，利用预设行为识别模型，确定目标图像序列中目标对象执行行为的目标行为类别；预设行为识别模型是利用预设训练集训练得到的，预设训练集包括多个样本图像序列，以及每一样本图像序列中样本对象执行行为的样本行为类别，根据待计时视频的时间信息，确定目标对象执行目标行为类别的行为的时长。

通过本发明实施例提供的方法，从待计时视频中获得包括目标对象的目标图像序列，利用预设行为识别模型，确定目标图像序列中目标对象执行行为的目标行为类别，从而根据待计时视频的时间信息，确定目标对象执行目标行为类别的行为的时长。在此过程中，完全不需要人工的参与，并且由于待计时视频中每一视频帧的时间信息是唯一确定的，因此根据视频帧的时间信息所确定的目标对象执行目标行为类别的行为的时长将更加准确，有效提高了行为计时的准确性，节约了人力资源。

下面通过具体的实施例，对本发明实施例进行举例说明。

如图1所示，图1为本发明实施例提供的预设行为模型训练方法的一种流程示意图。该方法包括以下步骤。

步骤S101，获取预设训练集。

在本步骤中，电子设备可以获取对预设神经网络进行训练的预设训练集。该预设训练集中可以包括多个样本图像序列，以及每一样本图像序列中样本对象执行行为的样本行为类别。

上述样本图像序列可以是样本对象执行样本行为类别的行为的样本视频中的每一视频帧所构成的图像序列。上述样本图像序列也可以是从样本对象执行样本行为类别的行为的样本视频中截取的图像所构成的图像序列。关于从样本视频中截取的图像，得到图像序列的具体方法可以参照下文描述，在此不作具体说明。

上述样本对象可以为不同属性的对象，例如，样本对象可以为人、动物等属性的对象。上述样本行为类别可以为多种行为所对应的类别，例如，样本对象为人，样本行为类别可以是跑步、看书、弹琴等类型的行为。再例如，样本对象为动物，样本行为类别可以是进食、饮水、睡觉等类型的行为。

在本发明实施例中，上述样本对象、样本行为类别以及样本对象执行样本行为类别的行为所对应的样本图像序列可以根据具体的应用场景等进行设置。以应用场景为智慧牧场为例进行说明，样本对象为牧场中的动物，如牛、羊等，样本行为类别可以为动物的进食行为、饮水行为、站立行为等，样本图像序列为动物执行各个类别的行为所对应的图像序列。如牛进食的图像序列，牛饮水的图像序列等。

在本发明实施例中，上述预设神经网络模型可以为使用图像序列行为识别框架结合分类神经网络得到的模型。利用该预设神经网络模型，对图像序列中对象执行行为进行特征提取，从而根据提取到的行为特征数据识别对象所执行行为类别的模块。图像序列行为识别框架包括但不限于长短期记忆网络(Long Short-Term Memory，LSTM)，双流网络，三维卷积网络(3D ConvNets，C3D)，伪3D残差网络(Pseudo-3D Residual Net，P3D)，外观和关系网络(Appearance-and-Relation Networks，ArtNet)。其中，ArtNet是对外观(appearance)和关系(relation)两种特征进行建模得到的网络模型。分类神经网络包括但不限于残差网络中的resnet18、resnet50、resnet101和resnet152，视觉几何组(VisualGeometry Group，VGG)。其中，resnet18、resnet50、resnet101和resnet152中的18、50、101和152表示网络的深度。在此，对上述预设神经网络模型的不作具体限定。

步骤S102，将预设训练集中的每一样本图像序列分别输入到预设神经网络中，得到每一样本图像序列中样本对象执行行为的预测行为类别。

在本步骤中，电子设备可以将预设训练集中的每一样本图像序列分别输入到预设神经网络中。电子设备利用该预设神经网络对每一样本图像序列中样本对象执行行为进行特征提取，并根据提取到的样本行为特征数据，确定每一样本图像序列中样本对象执行行为的预测行为类别，输出该预测行为类别。

步骤S103，根据每一样本图像序列对应的样本行为类别和预测行为类别，确定行为类别的损失值。

在本步骤中，电子设备在确定每一样本图像序列中样本对象执行行为的预测行为类别之后，可以根据预设训练集中包括的每一样本图像序列对应的样本行为类别和预测行为类别，计算行为类别的损失值。例如，电子设备可以利用误差平方和(Sum of theSquared Errors，SSE)等算法，计算行为类别的损失值。在此，对损失值的计算方法不作具体限定。

步骤S104，在损失值大于预设损失值阈值时，调整预设神经网络的参数，并返回执行步骤S102。

在本步骤中，当上述损失值大于预设损失值阈值时，电子设备可以确定预设神经网络未收敛。此时，电子设备可以采用预设参数调整方法，如反向调节方法、梯度下降方法等，调整预设神经网络的参数，并返回执行上述步骤S102，也就是返回执行上述将预设训练集中的每一样本图像序列分别输入到预设神经网络中，得到每一样本图像序列中样本对象执行行为的预测行为类别的步骤。

上述调整预设神经网络的参数包括但不限于调整预设神经网络中的偏置量和权重。

步骤S105，在损失值不大于预设损失值阈值时，将当前预设神经网络确定为预设行为识别模型。

在本步骤中，当上述损失值不大于预设损失值阈值时，电子设备可以确定预设神经网络收敛。此时，电子设备可以将当前的预设神经网络确定为预设行为识别模型。

通过图1所示的方法，电子设备可以对预设神经网络进行训练，提高训练得到的预设行为识别模型的准确性，从而提高利用预设行为识别模型，确定出的目标行为类别的准确性，提高行为计时的准确性。

基于图1训练得到的预设行为识别模型，本发明实施例提供了一种行为计时方法。如图2所示，图2为本发明实施例提供的行为计时方法的第一种流程示意图。该方法包括以下步骤。

步骤S201，获取待计时视频。

在本步骤中，电子设备可以从监控设备或监控视频对应的服务器获取待计时视频。

一个可选的实施例中，监控设备与电子设备通讯连接，监控设备实时获取监控区域内的视频数据，并将该视频数据发送给电子设备。电子设备接收监控设备发送的视频数据，作为待计时视频。

另一个可选的实施例中，监控设备与监控视频对应的服务器通讯连接，监控设备实时将监控区域内采集到的视频数据发送给服务器。服务器接收该视频数据。电子设备可以根据具体需求，从服务器获取视频数据作为待计时视频。例如，电子设备需要获取监控区域A在2019年12月12日12:00-16:00内的视频数据，电子设备可以向服务器发送视频数据的获取请求，该获取请求中包括监控区域A和2019年12月12日12:00-16:00对应的标识信息。服务器在接收到该获取请求后，可以将监控区域A在2019年12月12日12:00-16:00内的视频数据发送给电子设备。电子设备接收该视频数据，得到待计时视频。

步骤S202，从待计时视频中获取包括目标对象的目标图像序列。

在本步骤中，电子设备在获得上述待计时视频后，可以根据该待计时视频中包括的各个对象，获取包括目标对象的目标图像序列。具体的，电子设备可以对该待计时视频中的各个对象进行目标跟踪检测，得到目标跟踪检测结果，从而根据目标跟踪检测结果，从待计时视频中获取包含目标对象的图像序列，作为目标图像序列。关于目标对象的属性可参照上述样本对象的属性，在此不作具体说明。

上述目标图像序列中可以包括多个图像。针对目标图像序列中的每一图像，该图像的图像内容可以为上述待计时视频中的一完整视频帧所包括的图像内容，即该图像为待计时视频中的某一视频帧。以目标对象为奶牛为例，在上述待计时视频中的某一视频帧的图像内容为奶牛头部的特写，即奶牛的头部占据了整个视频帧的画面。此时，电子设备在确定的该奶牛对应的目标图像序列时，包括奶牛头部特写视频帧可以为目标图像序列中的一个图像。

针对目标图像序列中的每一图像，该图像的图像内容也可以为上述待计时视频中的一完整视频帧中包括的部分图像内容。以目标对象为人物A为例，在上述待计时视频中的某一视频帧为人物A的远景图像，即人物A在该视频帧中所占的面积相对较小。此时，电子设备在确定该人物A对应的目标图像序列时，包括人物A的远景图像中人物A所在区域的图像可以为目标图像序列中的一个图像。

关于上述目标图像序列的确定方法，具体可参见下文描述，在此不作具体说明。

在本发明实施例中，上述目标图像序列的数量可以为一个，也可以为多个。在此，对上述目标图像序列的数量不作具体限定。

一个可选的实施例中，当上述目标图像序列中包括的多个图像时，由于目标图像序列中的每一图像可以为上述待计时视频中的一视频帧，或待计时视频中以视频帧中的部分图像，因此，上述目标图像序列中每一图像的排列顺序可以与该图像所对应的视频帧在待计时视频中的排列顺序一致。

在本发明实施例中，上述目标对象可以为待计时视频中的任一对象，并不起任何限定作用。

步骤S203，利用预设行为识别模型，确定目标图像序列中目标对象执行行为的目标行为类别；预设行为识别模型是利用预设训练集训练得到的，预设训练集包括多个样本图像序列，以及每一样本图像序列中样本对象执行行为的样本行为类别。

在本步骤中，电子设备可以利用预设行为识别模型，即上述图1中的预设神经网络收敛时对应的预设神经网络模型，确定目标图像序列中目标对象执行行为的目标行为类别。

一个可选的实施例中，电子设备可以直接利用预设行为识别模型识别出上述目标图像序列中目标对象执行行为的目标行为类别。

另一个可选的实施例中，为了提高目标行为类别的准确性，电子设备可以利用预设行为识别模型提取上述目标图像序列中目标对象执行行为的目标行为特征数据，从而根据预先存储的行为特征数据与行为类别的对应关系，确定目标行为特征对应的目标行为类别。关于该方法的具体实现步骤，可参见下文描述，在此不作具体说明。

在本发明实施例中，上述每一目标图像序列中目标对象执行行为可以为一种类别的行为，也可以为多种类别的行为。也就是一目标图像序列中包括的目标行为类别可以为一种，也可以为多种。例如，目标图像序列为某一运动员跑步时喝水的图像序列，此时，目标图像序列可以包括两种目标行为类别，即跑步和喝水。

步骤S204，根据待计时视频的时间信息，确定目标对象执行目标行为类别的行为的时长。

上述待计时视频的时间信息可以为时间戳信息或帧率信息。

在上述步骤S204中，电子设备可以分别根据待计时视频的时间戳信息，或者根据待计时视频的帧率信息，确定目标对象执行目标行为类别的行为的时长。关于目标对象执行目标行为类别的行为的时长的具体确定方法，可参见下文描述，在此不作具体说明。

在本发明实施例中，上述行为计时所采用的电子设备与训练预设行为识别模型的电子设备可以为同一电子设备，也可以为不同的电子设备。在此不作具体限定。

采用图2所示的方法，从待计时视频中获得包括目标对象的目标图像序列，利用预设行为识别模型，确定目标图像序列中目标对象执行行为的目标行为类别，从而根据待计时视频的时间信息，确定目标对象执行目标行为类别的行为的时长。在此过程中，完全不需要人工的参与，并且由于待计时视频中每一视频帧的时间信息是唯一确定的，因此根据视频帧的时间信息所确定的目标对象执行目标行为类别的行为的时长将更加准确，有效提高了行为计时的准确性，节约了人力资源。

一个可选的实施例中，根据图2所示的方法，本发明实施例还提供了一种行为计时方法。如图3所示，图3为本发明实施例提供的行为计时方法的第二种流程示意图。该方法包括以下步骤。

步骤S301，获取待计时视频。

上述步骤S301与上述步骤S201相同。

步骤S302，对待计时视频包括的每一视频帧进行目标跟踪检测，确定包括目标对象的多个目标视频帧。

在本步骤中，电子设备可以利用目标检测算法对待计时视频中的每一视频帧进行目标检测，并利用目标追踪算法追踪待计时视频中的目标对象，从而在待计时视频中确定出包括目标对象的目标视频帧。

在本发明实施例中，利用上述目标检测算法可以确定出待计时视频的每一视频帧中包括的对象以及对象的属性等信息。利用上述目标追踪算法可以对待计时视频中出现的每一对象的位置、运动轨迹、属性变化参数等进行追踪。其中，属性变化参数可以包括速度变化参数、宽高比变化参数、直方图变化参数中的一种或多种。

上述目标检测算法包括但不限于方向梯度直方图(Histogram of OrientedGridients，HOG)、可变形部件模型(Deformable Parts Model，DPM)、更快的具有卷积神经网络特征的区域(Faster-Regions with CNN features，FRCNN)、你只看一次(You OnlyLook Once，YOLO)、单发多功能盒探测器(Single Shot MultiBox Detector，SSD)，其中，FRCNN和YOLO并没有统一的中文名称。上述目标追踪算法可以多目标跟踪(MultipleObject Tracking，MOT)算法。在本发明实施例中，对上述目标检测算法和目标追踪算法不作具体限定。

步骤S303，基于多个目标视频帧，获取包括目标对象目标图像序列。

一个可选的实施例中，电子设备可以直接将包括目标对象的每一目标视频帧确定为目标图像序列中包括的图像。

另一个可选的实施例中，为了降低视频帧中背景信息对后期目标行为类别识别的影响，电子设备可以确定出一待截取区域，从而在目标视频帧的每一视频帧中，截取待截取区域内的图像，得到目标图像序列。关于待截取区域的确定可参见下文描述，在此不作具体说明。

在本发明实施例中，通过对待计时视频中的每一视频帧进行目标跟踪检测，可以准确的确定出目标图像序列，提高了目标图像序列的准确性，从而提高了样本行为类别识别的准确性，以及目标对象执行目标行为类别的行为的时长的准确性。

步骤S304，利用预设行为识别模型，确定目标图像序列中目标对象执行行为的目标行为类别；预设行为识别模型是利用预设训练集训练得到的，预设训练集包括多个样本图像序列，以及每一样本图像序列中样本对象执行行为的样本行为类别。

步骤S305，根据待计时视频的时间信息，确定目标对象执行目标行为类别的行为的时长。

上述步骤S304-步骤S305与上述步骤S203-步骤S204相同。

一个可选的实施例中，上述步骤S302，对待计时视频包括的每一视频帧进行目标跟踪检测，确定包括目标对象的多个目标视频帧，具体可以包括以下步骤。

步骤一，对待计时视频包括的每一视频帧进行目标跟踪检测，确定包括目标对象的多个视频帧中目标对象的属性变化参数。

在本步骤中，在对待计时视频包括的每一视频帧进行目标跟踪检测时，也就是在利用目标追踪算法追踪待计时视频中的目标对象时，电子设备可以确定目标对象在连续多个视频帧中目标对象的属性变化参数。其中，属性变化参数可以包括速度变化参数、宽高比变化参数、直方图变化参数中的一种或多种。

上述属性变化参数还可以包括目标对象的大小变化参数等，在此，对上述属性变化参数不作具体限定。

步骤二，将属性变化参数在预设属性变化参数阈值内的视频帧确定为目标视频帧。

在本步骤中，电子设备可以将上述待计时视频中目标对象的属性变化参数与预设属性变化参数阈值进行比较。当目标对象的属性变化参数在预设属性变化参数阈值内时，电子设备可以将在预设属性变化参数阈值内的属性变化参数所对应的视频帧确定为目标视频帧。

为方便理解，对目标视频帧的确定进行举例说明。若上述属性变化参数为速度变化参数，在待计时视频中目标对象的速度变化过程为：速度1-速度2-速度3-速度2-速度1，其中，速度1<速度2<速度3。当预设属性变化参数阈值为速度2至速度3。此时，电子设备可以将待计时视频帧目标对象的速度变化在速度2-速度3-速度2所对应的每一视频帧，确定为目标视频帧。

在本发明实施例中，上述预设属性变化参数阈值可以为一具体数值，也可以为一数值范围，如上述预设属性变化参数阈值为速度2至速度3。在此，对上述预设属性变化参数不作具体限定。

一个可选的实施例中，当目标对象的属性变化参数不在预设属性变化参数阈值内时，也就是目标对象的属性变化参数大于预设属性变化参数阈值时，或者目标对象的属性变化参数大于、且小于预设属性变化参数阈值时，电子设备不会将不在预设属性变化参数阈值内的属性变化参数所对应的视频帧确定为目标视频帧。

为方便理解，仍以上述速度变化参数为例进行举例说明。在待计时视频中，目标对象执行了多种行为类别，如，走路、跑步、骑自行车等。其中，走路的速度明显慢于跑步和骑自行车的速度。若感兴趣的行为类别不包括走路时，也就是走路的速度不在上述预设属性变化参数阈值内。电子设备确定出的目标视频帧中将不包括目标对象走路时所对应的视频帧。

上述感兴趣的行为类别可以根据实际应用场景进行设定。以应用场景为上述智慧牧场为例，该智慧牧场的可以推断牛、羊等动物的健康状况，由于动物的进食行为、饮水行为、运动行为等均可以表现出动物的健康状况，因此，可以将动物的进食行为、饮水行为、运动行为等设定为感兴趣的行为类别。在此，对上述感兴趣的行为类别不作具体限定。

在本发明实施例中，通过待计时视频中目标对象的属性变化参数与预设属性变化参数阈值进行比较，可以粗略的对目标对象的执行行为的行为类别进行筛选，从而筛选出感兴趣的行为类别所对应的目标视频帧，降低其他行为类别的影响，减低目标视频帧的数据量，从而提高目标图像序列的确定效率，以及行为计时的效率。

一个可选的实施例中，根据图3所示的方法，本发明实施例还提供了一种行为计时方法。如图4所示，图4为本发明实施例提供的行为计时方法的第三种流程示意图。该方法包括以下步骤。

步骤S401，获取待计时视频。

步骤S402，对待计时视频包括的每一视频帧进行目标跟踪检测，确定包括目标对象的多个目标视频帧。

上述步骤S401-步骤S402与上述步骤S301-步骤S302相同。

步骤S403，根据多个目标视频帧的每一个视频帧中目标对象所在区域的坐标，确定针对目标对象的待截取区域的坐标。

在本步骤中，电子设备可以根据多个目标视频帧的每一个视频帧中目标对象所在区域的坐标，也就是每一目标视频帧中的感兴趣区域(region of interest，ROI)所对应的坐标，确定针对目标对象的待截取区域的坐标。关于待截取区域的确定方法可参见下文描述，在此不作具体说明。

在本发明实施例中，上述每一目标视频帧中的感兴趣区域可以为目标对象在该目标视频帧中的目标对象所在区域的外接矩形、外接椭圆或外接多边形。在此，对上述感兴趣区域的表示方式不作具体限定。

步骤S404，从多个目标视频帧的每一个视频帧中，截取待截取区域的坐标对应的图像。

步骤S405，基于截取得到的多个图像，获取包括目标对象的目标图像序列。

一个可选的实施例中，电子设备可以将截取到的多个图像，按照每一图像在上述待计时视频中的时间戳，对每一图像进行排序，得到目标图像序列。

另一个可选的实施例中，电子设备可以按照截取到的每一图像在上述待计时视频中的时间戳，对每一图像进行排序，并按照预设时间步长划分得到多个目标图像序列。关于目标图像序列的划分方法，可参见下文描述，在此不作具体说明。

在本发明实施例中，在每一目标视频帧中截取待截取区域所对应的图像，从而确定目标图像序列，可以有效减少待截取区域以外的背景信息，从而降低背景信息对后期目标行为类别识别的影响，提高目标行为类别识别的准确性。

步骤S406，利用预设行为识别模型，确定目标图像序列中目标对象执行行为的目标行为类别；预设行为识别模型是利用预设训练集训练得到的，预设训练集包括多个样本图像序列，以及每一样本图像序列中样本对象执行行为的样本行为类别。

步骤S407，根据待计时视频的时间信息，确定目标对象执行目标行为类别的行为的时长。

上述步骤S406-步骤S407与上述步骤S304-步骤S305相同。

一个可选的实施例中，上述步骤S403，根据多个目标视频帧的每一个视频帧中目标对象所在区域的坐标，确定针对目标对象的待截取区域的坐标，具体可以表示为：将包含多个目标视频帧的每一个视频帧中目标对象所在区域的最小面积区域，确定为针对目标对象的待截取区域，并确定待截取区域的坐标。

为方便理解，以上述感兴趣区域为目标对象所在区域的外接矩形区域，为例进行说明。

电子设备可以选取每一目标视频帧中感兴趣区域的左上角顶点的坐标位置，以及右下角顶点的坐标位置表示感兴趣区域所在的位置。例如，感兴趣区域R可以表示为R＝[left_top_x，left_top_y，right_bottom_x，right_bottom_y]。其中，left_top_x为左上角顶点的坐标中的横坐标值，left_top_y为左上角顶点的坐标中的纵坐标值，right_bottom_x为右下角顶点的坐标的横坐标值，right_bottom_y为右下角顶点的坐标的纵坐标值。

上述待截取区域Rtube可以表示为：Rtube＝[min({left_top_x})，min({left_top_y})，max({right_bottom_x})，max({right_bottom_y})]。也就是待截取区域为每一目标视频帧的左上角顶点的最小坐标值与右下角顶点的最大坐标所构成矩形区域。

结合图5-a、图5-b和图5-c对上述待截取区域进行举例说明。上述图5-a为本发明实施例提供的对象1的感兴趣区域对应左上角顶点的最小坐标值的视频帧的示意图。图5-b为本发明实施例提供的对象1的感兴趣区域对应右下角顶点的最小坐标值的视频帧的示意图。图5-c为本发明实施例提供的一种待截取区域的一种示意图。其中，501为视频帧501，对象502为对象1，区域503为视频帧501上的感兴趣区域，504为视频帧504，对象505为对象1，区域506为视频帧504上的感兴趣区域。区域507为待截取区域，508可以为包括对象1的任一视频帧508，如视频帧501或视频帧504。区域507的左上角顶点为区域503在视频帧501上左上角顶点所在的位置。区域507的右下角顶点为区域506在视频帧504上右下角顶点所在的位置。

当上述感兴趣区域为目标对象所在区域的外接椭圆区域或外接多边形区域时，可参照上述外接矩形区域确定待截取区域的方法，确定待截取区域。在此不作具体说明。

在本发明实施例中，将包含多个目标视频帧的每一个视频帧中目标对象所在区域的最小面积区域，确定为针对目标对象的待截取区域，可以使得确定的目标图像序列中的每一图像包括目标对象的所有信息，保证了目标图像序列中包括的目标对象的行为信息的完整性。同时，剔除了除待截取区域以外区域的背景信息，降低了背景信息的影响。

一个可选的实施例中，上述步骤S405，基于截取得到的多个图像，获取包括目标对象的目标图像序列，具体可以表示为：按照预设时间步长，对截取得到的多个图像进行划分，得到多个包括目标对象的目标图像序列。

一个可选的实施例中，电子设备可以基于时域不重叠的方式，按照预设时间步长，对截取得到的多个图像进行划分，得到多个包括目标对象的目标图像序列。

以截取到的图像的数量为10为例进行说明。其中，每一图像按照对应的时间排列依次为图像1、图像2、图像3、图像4、图像5、图像6、图像7、图像8、图像9、图像10。其中，图像1对应时间最早。若预设时间步长为5，则电子设备基于时域不重叠的方式，可以将该10个图像分为2个目标图像序列，即图像1-图像5构成的图像序列1，以及图像6-图像10构成的图像序列2。

另一个的实施例中，电子设备可以基于时域重叠的方式，按照预设时间步长，对截取得到的多个图像进行划分，得到多个包括目标对象的目标图像序列。

仍以上述图像1-图像10为例进行说明。若预设时间步长为5，则电子设备基于时域重叠的方式，可以将该10个图像分为6个目标图像序列，即图像1-图像5构成的图像序列1，图像2-图像6构成的图像序列2，图像3-图像7构成的图像序列3，图像4-图像8构成的图像序列4，图像5-图像9构成的图像序列5，以及图像6-图像10构成的图像序列6。

在本发明实施例中，按照预设时间步长，对截取得到的多个图像进行划分，得到多个包括目标对象的目标图像序列，可以进一步减少背景信息，降低背景信息的影响。

为方便理解，以图6为例进行说明。图6为本发明实施例提供的目标对象运动过程的一种示意图。在待计时视频中目标对象从A点跑步到C点，中途途径B点。图像601为A点对应视频帧截取后得到的图像，图像604为C点对应视频帧截取后得到的图像，图像607为B点对应视频帧截取后得到的图像。对象602、对象605以及对象608均为目标对象。区域603为对象602在图像601中的感兴趣区域所在的位置。区域606为对象605在图像604中的感兴趣区域所在的位置。区域609为对象608在图像607中的感兴趣区域所在的位置。

现采用上述方法将A点到C点间的截取到的多个图像分为2个目标图像序列，即A点到B点的图像序列1，以及B点到C点的图像序列2。由于图像序列1中的背景信息主要为A点到B点的背景信息，图像序列2中的背景信息主要为B点到C点的背景信息，因此，图像序列1和图像序列2对应的背景信息的差异性小于将A点到C点间截取的所有图像作为的图像序列3的背景信息差异性。这使得图像序列1和图像序列2的背景信息在一定程度上有所减少，降低了背景信息的影响。

一个可选的实施例中，当得到多个目标图像序列时，上述步骤S407，根据待计时视频的时间信息，确定目标对象执行目标行为类别的行为的时长，具体可以包括以下步骤。

步骤一，根据待计时视频的时间信息，统计每一目标图像序列对应的时长。

一个可选的实施例中，电子设备可以根据待计时视频的时间戳信息，计算每一目标图像序列对应的时长。

为便于理解，以上述待计时视频为一人物A从A点跑步到B点的跑步视频为例，此时，包括人物A的目标图像序列中包括的图像为人物A从A点跑步到B点的多个图像。假设人物A在待计时视频的3分50秒从A点出发，即目标图像序列中第一个图像所对应的时间戳信息为3分50秒，人物B在待计时视频的3分54秒到达B点，即目标图像序列中最后一个图像所对应的时间戳信息为3分54秒。此时电子设备可以确定该目标图像序列对应的时长为4秒＝3分54秒-3分50秒。

另一个可选的实施例中，电子设备可以根据待计时视频的帧率信息，以及每一目标图像序列所包括的图像的数量，计算每一目标图像序列对应的时长。

例如，一目标图像序列中包括50个图像，待计时视频的帧率为25fps(每秒的帧数)，即1秒播放25帧视频帧，也就是每一视频帧的时间为1/25秒。此时，电子设备可以确定该目标图像序列对应的时长为50*1/25＝2秒。

步骤二，针对每一目标行为类别，计算该目标行为类别对应的各个目标图像序列的时长和，得到目标对象执行每一目标行为类别的行为的时长。

为方便理解进行举例说明，若目标图像序列有3个，即序列1-序列3。序列1中包括的目标行为类别为跑步，时长为2秒。序列2中包括的目标行为类别为喝水和骑自行车，时长为3秒。序列3中包括的目标行为类别为骑自行车，时长为5秒。电子设备可以确定目标对象跑步的时长为2秒，喝水的时长为3秒，骑自行车的时长为3+5＝8秒。

在本发明实施例中，通过对截取到的多个图像进行划分，可以使得计算得到的目标对象执行每一目标行为类别的行为的时长更加准确。

在上述实施例中，电子设备优先确定每一目标图像序列所对应的时长，从而根据该时长，确定目标对象执行目标行为类别的行为的时长。除此以外，电子设备还可以采用其他方法根据待计时视频的时间信息，确定目标对象执行目标行为类别的行为的时长。以待计时视频的时间信息为上述帧率信息为例，电子设备还可以根据每一目标图像序列包括的图像的数量，以及每一目标图像序列中目标对象执行行为的目标行为类别，统计目标对象执行每一目标行为类别的行为所对应的图像数量，从而基于该图像数量和待计时视频的时间信息，确定目标对象执行每一目标行为类别的行为的时长。

为便于理解，仍以目标图像序列为上述序列1-序列3为例进行说明，假设序列1中包括图像的数量为50，序列2包括的图像的数量为75，序列3包括的图像的数量为125。此时，电子设备可以确定目标对象执行跑步行为对应的图像数量为50，目标对象执行喝水行为对应的图像数量为75，目标对象执行骑自行车行为对应的图像数量为75+125＝200。假设待计时视频的帧率仍为25fps，此时，电子设备可以确定目标对象跑步的时长为50*1/25＝2秒，喝水的时长为75*1/25＝3秒，骑自行车的时长为200*1/25＝8秒。

在本发明实施例中，对上述目标对象执行每一目标行为类别的行为的时长的确定方法不作具体限定。

一个可选的实施例中，根据图2所示的方法，本发明实施例还提供了一种行为计时方法。如图7所示，图7为本发明实施例提供的行为计时方法的第四种流程示意图。该方法包括以下步骤。

步骤S701，获取待计时视频。

步骤S702，从待计时视频中获取包括目标对象的目标图像序列。

上述步骤S701-步骤S702与上述步骤S201-步骤S202相同

步骤S703，将目标图像序列输入预设行为识别模型，得到预设行为识别模型的预设层输出的行为特征数据，作为目标图像序列中目标对象执行行为的目标行为特征数据。

以预设行为识别模型为上述C3D为例。在C3D中包括输入层、卷积层、池化层、全连接层、以及输出层。在全连接层将完成对输入信息的特征提取过程，也就是全连接层将得到提取的特征数据。因此，电子设备可以将目标图像序列输入预设行为识别模型，并获取预设行为识别模型的全连接层输出的行为特征数据，得到目标图像序列中目标对象执行行为的目标行为特征数据。

在本发明实施例中，根据预设行为识别模型的不同，上述预设层也有所不同，在此不作具体说明。

步骤S704，根据预先存储的行为特征数据与行为类别的对应关系，确定目标行为特征数据对应的目标行为类别。

在本步骤中，电子设备中预先存储的行为特征数据与行为类别的对应关系。在利用预设行为识别模型提取到目标图像序列中目标对象执行行为的目标行为特征数据后，电子设备可以根据预先存储的对应关系，确定目标行为特征数据对应的目标行为类别。

在本发明实施例中，上述预先存储的行为特征数据与行为类别的对应关系中的行为特征数据可以为用户感兴趣的对象和/或感兴趣的行为类别所对应图像序列中包括的行为特征数据。电子设备可以利用上述预设行为特征模型，对用户感兴趣的对象执行感兴趣的行为类别的图像序列进行特征提取，得到对应的行为特征数据，从而生成并存储行为特征数据与行为类别的对应关系。

在本发明实施例中，由于预设行为识别模型仅仅根据有限的预设训练集训练得到，在对预设训练集中样本行为类别以外的行为类别进行识别时，可能存在一定的误差。因此，采用预设行为识别模型，对样本行为类别以外的行为类别所对应的图像序列进行特征提取，从而根据提取到的行为特征数据与行为类别的对应关系，确定目标行为特征数据对应的目标行为类别可以更加准确。

步骤S705，根据待计时视频的时间信息，确定目标对象执行目标行为类别的行为的时长。

上述步骤S705与上述步骤S204相同。

一个可选的实施例中，上述步骤S704，根据预先存储的行为特征数据与行为类别的对应关系，确定目标行为特征数据对应的目标行为类别，具体可以包括以下步骤。

步骤一，计算目标行为特征数据与预先存储的行为特征数据间的相似度。

一个可选的实施例中，电子设备可以利用余弦相似度或欧式距离等方式，计算目标行为特征数据与预先存储的行为特征数据间的相似度。当目标行为特征数据与预先存储的行为特征数据间的距离越小，两者间的相似度越大。当目标行为特征数据与预先存储的行为特征数据间的距离越大，两者间的相似度越小。

步骤二，将相似度大于预设相似度阈值的预先存储的行为特征数据所对应的行为类别，确定为目标行为特征对应的目标行为类别。

在本步骤中，电子设备可以将目标行为特征数据与预先存储的行为特征数据间的相似度，与预设相似度阈值进行比较。当目标行为特征数据与预先存储的某一行为特征数据间的相似度大于预设相似度阈值时，也就是目标行为特征数据与预先存储的某一行为特征数据间的距离小于预设距离阈值时，电子设备可以将该行为特征数据对应的行为类别，确定为目标行为特征对应的目标行为类别。

在本发明实施例中，通过将目标行为特征数据与预先存储的行为特征数据间的相似度，与预设相似度阈值进行比较，可以准确的确定出目标行为特征对应的目标行为类别。

一个可选的实施例中，根据图2所示的方法，本发明实施例还提供了一种行为计时方法。如图8所示，图8为本发明实施例提供的行为识别方法的第五种流程示意图。该方法包括以下步骤。

步骤S801，获取待计时视频。

步骤S802，从待计时视频中获取包括目标对象的目标图像序列。

步骤S803，利用预设行为识别模型，确定目标图像序列中目标对象执行行为的目标行为类别；预设行为识别模型是利用预设训练集训练得到的，预设训练集包括多个样本图像序列，以及每一样本图像序列中样本对象执行行为的样本行为类别。

步骤S804，根据待计时视频的时间信息，确定目标对象执行目标行为类别的行为的时长。

上述步骤S801-步骤S804与上述步骤S201-步骤S204相同。

步骤S805，当目标对象执行目标行为类别的行为的时长不在预设时长范围内时，提示目标行为类别对应的行为异常。

一个可选的实施例中，电子设备可以将目标对象执行目标行为类别的行为的时长与预设时长范围的最大值和/或最小值进行比较，确定目标对象执行目标行为类别的行为的时长是否在预设时长范围内。当目标对象执行目标行为类别的行为的时长不在预设时长范围内时，电子设备可以确定目标对象执行目标行为类别的行为异常。此时，电子设备可以提示目标行为类别对应的行为异常。例如，对目标行为类别对应的异常行为进行异常告警。

上述异常告警的方式包括但不限于高亮显示，消息提醒等。

一个可选的实施例中，当目标对象执行目标行为类别的行为的时长在预设时长范围内时，电子设备可以确定目标对象执行目标行为类别的行为正常，即无异常。

在本发明实施例中，通过异常告警可以及时通知用户目标对象执行行为存在异常，便于用户及时发现并处理异常。

一个可选的实施例中，根据图2所示的方法，本发明实施例还提供了一种行为计时方法。如图9所示，图9为本发明实施例提供的行为识别方法的第六种流程示意图。该方法包括以下步骤。

步骤S901，获取待计时视频。

步骤S902，从待计时视频中获取包括目标对象的目标图像序列。

步骤S903，利用预设行为识别模型，确定目标图像序列中目标对象执行行为的目标行为类别；预设行为识别模型是利用预设训练集训练得到的，预设训练集包括多个样本图像序列，以及每一样本图像序列中样本对象执行行为的样本行为类别。

步骤S904，根据待计时视频的时间信息，确定目标对象执行目标行为类别的行为的时长。

上述步骤S901-步骤S904与上述步骤S201-步骤S204相同。

步骤S905，在播放待计时视频时，显示目标对象执行目标行为类别的行为的时长。

一个可选的实施例中，在播放待计时视频时，电子设备可以在每一视频帧中显示待计时视频中出现的所有目标对象执行目标行为类别的行为的时长。

另一个可选的实施例中，在播放待计时视频时，电子设备可以仅在目标图像序列对应的视频帧中显示对应的目标对象执行目标行为类别的行为的时长。

上述在显示目标对象执行目标行为类别的行为的时长时，还可以在其他区域显示该时长信息，例如，在待计时视频播放界面的其他区域显示时长信息。

在本发明实施例中，通过显示目标对象执行目标行为类别的行为的时长，便于用户及时目标对象执行目标行为类别的行为的时长。

基于同一种发明构思，根据上述本发明实施例提供的行为计时方法，本发明实施例还提供了一种行为计时装置。如图10所示，图10为本发明实施例提供的行为计时装置的一种结构示意图。该装置包括以下模块。

第一获取模块1001，用于获取待计时视频；

第二获取模块1002，用于从待计时视频中获取包括目标对象的目标图像序列；

第一确定模块1003，用于利用预设行为识别模型，确定目标图像序列中目标对象执行行为的目标行为类别；预设行为识别模型是利用预设训练集训练得到的，预设训练集包括多个样本图像序列，以及每一样本图像序列中样本对象执行行为的样本行为类别；

计时模块1004，用于根据待计时视频的时间信息，确定目标对象执行目标行为类别的行为的时长。

可选的，上述第一确定模块1103，包括：

第一确定子模块，用于将目标图像序列输入预设行为识别模型，得到预设行为识别模型的预设层输出的行为特征数据，作为目标图像序列中目标对象执行行为的目标行为特征数据；

第二确定子模块，用于根据预先存储的行为特征数据与行为类别的对应关系，确定目标行为特征数据对应的目标行为类别。

可选的，上述第二确定子模块，具体可以用于计算目标行为特征数据与预先存储的行为特征数据间的相似度；将相似度大于预设相似度阈值的预先存储的行为特征数据所对应的行为类别，确定为目标行为特征对应的目标行为类别。

可选的，上述第二获取模块1002，可以包括：

第三确定子模块，用于对待计时视频包括的每一视频帧进行目标跟踪检测，确定包括目标对象的多个目标视频帧；

第一获取子模块，用于基于多个目标视频帧，获取包括目标对象目标图像序列。

可选的，上述第三确定子模块，具体用于对待计时视频包括的每一视频帧进行目标跟踪检测，确定包括目标对象的多个视频帧中目标对象的属性变化参数；将属性变化参数在预设属性变化参数阈值内的视频帧确定为目标视频帧；

其中，上述属性变化参数可以包括速度变化参数、宽高比变化参数、直方图变化参数中的一种或多种。

可选的，上述第一获取子模块，可以包括：

确定单元，用于根据多个目标视频帧的每一个视频帧中目标对象所在区域的坐标，确定针对目标对象的待截取区域的坐标；

截取单元，用于从多个目标视频帧的每一个视频帧中，截取待截取区域的坐标对应的图像；

获取单元，用于基于截取得到的多个图像，获取包括目标对象的目标图像序列。

可选的，上述确定单元，具体可以用于将包含多个目标视频帧的每一个视频帧中目标对象所在区域的最小面积区域，确定为针对目标对象的待截取区域，并确定待截取区域的坐标。

可选的，上述获取单元，具体可以用于按照预设时间步长，对截取得到的多个图像进行划分，得到多个包括目标对象的目标图像序列。

可选的，上述计时模块1004，包括：

统计子模块，用于根据待计时视频的时间信息，统计每一目标图像序列对应的时长；

计算子模块，用于针对每一目标行为类别，计算该目标行为类别对应的各个目标图像序列的时长和，得到目标对象执行每一目标行为类别的行为的时长。

可选的，上述时间信息可以为时间戳信息或帧率信息；

上述统计子模块，具体可以用于根据待计时视频的时间戳信息，计算每一目标图像序列对应的时长；或根据待计时视频的帧率信息，以及每一目标图像序列所包括的图像的数量，计算每一目标图像序列对应的时长。

可选的，上述行为计时装置还可以包括：

第三获取模块，用于获取预设训练集；

第二确定模块，用于将预设训练集中的每一样本图像序列分别输入到预设神经网络中，得到每一样本图像序列中样本对象执行行为的预测行为类别；

调整模块，用于在损失值大于预设损失值阈值时，调整预设神经网络的参数，并返回执行将预设训练集中的每一样本图像序列分别输入到预设神经网络中，得到每一样本图像序列中样本对象执行行为的预测行为类别的步骤；

第四确定模块，用于在损失值不大于预设损失值阈值时，将当前预设神经网络确定为预设行为识别模型。

通过本发明实施例提供的装置，从待计时视频中获得包括目标对象的目标图像序列，利用预设行为识别模型，确定目标图像序列中目标对象执行行为的目标行为类别，从而根据待计时视频的时间信息，确定目标对象执行目标行为类别的行为的时长。在此过程中，完全不需要人工的参与，并且由于待计时视频中每一视频帧的时间信息是唯一确定的，因此根据视频帧的时间信息所确定的目标对象执行目标行为类别的行为的时长将更加准确，有效提高了行为计时的准确性，节约了人力资源。

基于同一种发明构思，根据上述本发明实施例提供的行为计时方法，本发明实施例还提供了一种电子设备，如11所示，包括处理器1101、通信接口1102、存储器1103和通信总线1104，其中，处理器1101，通信接口1102，存储器1103通过通信总线1104完成相互间的通信；

存储器1103，用于存放计算机程序；

处理器1101，用于执行存储器1103上所存放的程序时，实现如下步骤：

获取待计时视频；

从待计时视频中获取包括目标对象的目标图像序列；

利用预设行为识别模型，确定目标图像序列中目标对象执行行为的目标行为类别；预设行为识别模型是利用预设训练集训练得到的，预设训练集包括多个样本图像序列，以及每一样本图像序列中样本对象执行行为的样本行为类别；

根据待计时视频的时间信息，确定目标对象执行目标行为类别的行为的时长。

通过本发明实施例提供的电子设备，从待计时视频中获得包括目标对象的目标图像序列，利用预设行为识别模型，确定目标图像序列中目标对象执行行为的目标行为类别，从而根据待计时视频的时间信息，确定目标对象执行目标行为类别的行为的时长。在此过程中，完全不需要人工的参与，并且由于待计时视频中每一视频帧的时间信息是唯一确定的，因此根据视频帧的时间信息所确定的目标对象执行目标行为类别的行为的时长将更加准确，有效提高了行为计时的准确性，节约了人力资源。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

基于同一种发明构思，根据上述本发明实施例提供的行为计时方法，本发明实施例还提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一行为计时方法的步骤。

基于同一种发明构思，根据上述本发明实施例提供的行为计时方法，本发明实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一行为计时方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、电子设备、计算机可读存储介质及计算机程序产品等实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种行为计时方法，其特征在于，所述方法包括：

获取待计时视频；

从所述待计时视频中获取包括目标对象的目标图像序列；

根据所述待计时视频的时间信息，确定所述目标对象执行所述目标行为类别的行为的时长；

所述从所述待计时视频中获取包括目标对象的目标图像序列的步骤，包括：

基于所述多个目标视频帧，获取包括所述目标对象的目标图像序列；

所述基于所述多个目标视频帧，获取包括所述目标对象的目标图像序列的步骤，包括：

根据所述多个目标视频帧的每一个视频帧中所述目标对象所在区域的坐标，确定针对所述目标对象的待截取区域的坐标；其中，所述待截取区域为：包含所述多个目标视频帧的每一个视频帧中所述目标对象所在区域的最小面积区域；

基于截取得到的多个图像，获取包括所述目标对象的目标图像序列；

所述基于截取得到的多个图像，获取包括所述目标对象的目标图像序列的步骤，包括：

按照预设时间步长，对截取得到的多个图像进行划分，得到多个包括所述目标对象的目标图像序列；

所述对所述待计时视频包括的每一视频帧进行目标跟踪检测，确定包括目标对象的多个目标视频帧的步骤，包括：

其中，所述属性变化参数包括速度变化参数、宽高比变化参数、直方图变化参数中的一种或多种；

所述根据所述待计时视频的时间信息，确定所述目标对象执行所述目标行为类别的行为的时长的步骤，包括：

针对每一目标行为类别，计算该目标行为类别对应的各个目标图像序列的时长和，得到所述目标对象执行每一目标行为类别的行为的时长；

所述时间信息为时间戳信息或帧率信息；

2.根据权利要求1所述的方法，其特征在于，所述利用预设行为识别模型，确定所述目标图像序列中所述目标对象执行行为的目标行为类别的步骤，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据预先存储的行为特征数据与行为类别的对应关系，确定所述目标行为特征数据对应的目标行为类别的步骤，包括：

4.根据权利要求1所述的方法，其特征在于，所述根据所述多个目标视频帧的每一个视频帧中所述目标对象所在区域的坐标，确定针对所述目标对象的待截取区域的坐标的步骤，包括：

5.根据权利要求1所述的方法，其特征在于，采用如下步骤训练得到所述行为识别模型：

获取所述预设训练集；

6.一种行为计时装置，其特征在于，所述装置包括：

第一获取模块，用于获取待计时视频；

计时模块，用于根据所述待计时视频的时间信息，确定所述目标对象执行所述目标行为类别的行为的时长；

所述第二获取模块，包括：

第一获取子模块，用于基于所述多个目标视频帧，获取包括所述目标对象的目标图像序列；

所述第一获取子模块，包括：

确定单元，用于根据所述多个目标视频帧的每一个视频帧中所述目标对象所在区域的坐标，确定针对所述目标对象的待截取区域的坐标；其中，所述待截取区域为：包含所述多个目标视频帧的每一个视频帧中所述目标对象所在区域的最小面积区域；

获取单元，用于基于截取得到的多个图像，获取包括所述目标对象的目标图像序列；

所述获取单元，具体用于按照预设时间步长，对截取得到的多个图像进行划分，得到多个包括所述目标对象的目标图像序列；

所述第三确定子模块，具体用于对所述待计时视频包括的每一视频帧进行目标跟踪检测，确定包括目标对象的多个视频帧中所述目标对象的属性变化参数；将所述属性变化参数在预设属性变化参数阈值内的视频帧确定为目标视频帧；

所述计时模块，包括：

计算子模块，用于针对每一目标行为类别，计算该目标行为类别对应的各个目标图像序列的时长和，得到所述目标对象执行每一目标行为类别的行为的时长；

所述时间信息为时间戳信息或帧率信息；

7.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-5任一所述的方法步骤。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-5任一所述的方法步骤。