CN112528801A

CN112528801A - 一种异常事件检测方法、模型训练方法和装置

Info

Publication number: CN112528801A
Application number: CN202011400640.3A
Authority: CN
Inventors: 刘斌
Original assignee: Shanghai Goldway Intelligent Transportation System Co Ltd
Current assignee: Shanghai Goldway Intelligent Transportation System Co Ltd
Priority date: 2020-12-02
Filing date: 2020-12-02
Publication date: 2021-03-19
Anticipated expiration: 2040-12-02
Also published as: CN112528801B

Abstract

本申请实施例提供了一种异常事件检测方法、模型训练方法和装置，可以获取待检测视频；对待检测视频进行特征提取，得到待检测视频中每一待检测视频帧包含的对象的图像特征；针对每一待检测视频帧，将该待检测视频帧包含的对象的图像特征，输入至预先训练的异常事件检测模型，得到该待检测视频帧包含的对象触发预设异常事件的预测概率；其中，异常事件检测模型为基于样本视频，以弱监督学习方式进行训练得到的；样本视频中每一第一样本视频帧具有事件标签；事件标签表示该第一样本视频帧包含预设异常事件的概率；基于各个待检测视频帧包含的对象的预测概率，确定待检测视频中触发预设异常事件的对象，如此，能够降低检测的成本，提高检测的效率。

Description

一种异常事件检测方法、模型训练方法和装置

技术领域

本申请涉及图像处理技术领域，特别是涉及一种异常事件检测方法、模型训练方法和装置。

背景技术

视频监控作为安防***中至关重要的子***，在城市治安、交通管理、楼宇安防等方面发挥着不可替代的作用。相关技术中，可以对监控视频进行分析，以确定监控视频中触发异常事件的目标对象。例如，异常事件可以为车祸事件或打架事件，相应的，目标对象可以为车辆或者人物。

一种方式中，可以基于预先训练的神经网络模型对监控视频进行检测，以确定监控视频中触发异常事件的目标对象。然而，相关技术中，在对神经网络模型进行训练时，针对每一样本视频，需要人工标注该样本视频中每一视频帧包含的每一对象，以及该对象是否触发预设异常事件。进而，将监控视频输入训练得到的神经网络模型，针对监控视频中每一视频帧，可以得到该视频帧包含的每一对象触发预设异常事件的预测概率，相应的，可以基于各预测概率，确定监控视频中触发异常事件的目标对象。

然而，人工标注样本视频中每一视频帧包含的每一对象，以及该对象是否触发预设异常事件，会增大标注的复杂度和成本，进而，会增加检测的成本，降低检测的效率。

发明内容

本申请实施例的目的在于提供一种异常事件检测方法、模型训练方法和装置，能够降低检测的成本，提高检测的效率。具体技术方案如下：

第一方面，为了达到上述目的，本申请实施例公开了一种异常事件检测方法，所述方法包括：

获取待检测视频；

对所述待检测视频进行特征提取，得到所述待检测视频中每一待检测视频帧包含的对象的图像特征；

针对每一待检测视频帧，将该待检测视频帧包含的对象的图像特征，输入至预先训练的异常事件检测模型，得到该待检测视频帧包含的对象触发预设异常事件的预测概率；

其中，所述异常事件检测模型为基于样本视频，以弱监督学习方式进行训练得到的；所述样本视频中每一第一样本视频帧具有事件标签，所述事件标签表示该第一样本视频帧包含预设异常事件的概率；

基于各个待检测视频帧包含的对象的预测概率，确定所述待检测视频中触发预设异常事件的对象。

可选的，所述异常事件检测模型的训练过程包括：

获取每一第一样本视频帧的事件标签；

对所述样本视频进行特征提取，得到每一第一样本视频帧包含的对象的图像特征；

针对每一第一样本视频帧，将该第一样本视频帧包含的对象的图像特征，输入预设结构的卷积神经网络模型，得到该第一样本视频帧包含的对象触发预设异常事件的预测概率；

基于该第一样本视频帧的事件标签和该第一样本视频帧包含的对象的预测概率，确定该第一样本视频帧对应的损失函数值；

基于每一第一样本视频帧对应的损失函数值，对所述预设结构的卷积神经网络模型的模型参数进行调整，直至所述预设结构的卷积神经网络模型收敛，得到异常事件检测模型。

可选的，所述获取每一第一样本视频帧的事件标签，包括：

按照以时间戳的先后顺序，所述样本视频中各个第一样本视频帧包含预设异常事件的概率服从预设高斯分布，确定每一第一样本视频帧包含预设异常事件的概率，作为每一第一样本视频帧的事件标签；

其中，所述预设高斯分布的期望值为：预先标记的所述样本视频中触发所述预设异常事件的第一样本视频帧的时间戳；所述预设高斯分布的标准差为所述样本视频中所述预设异常事件的持续时长与第一预设数值的比值。

可选的，所述基于该第一样本视频帧的事件标签和该第一样本视频帧包含的对象的预测概率，确定该第一样本视频帧对应的损失函数值，包括：

若该第一样本视频帧的事件标签表示的概率小于第二预设阈值，则针对该第一样本视频帧中的每一对象，按照用于分配惩罚的第一交叉熵损失函数，计算该对象对应的损失函数值；其中，第一交叉熵损失函数为：S1＝-(1-P₁)×ln(1-P₂)，S1表示该对象对应的损失函数值，P₁表示该第一样本视频帧包含预设异常事件的概率，P₂表示该第一样本视频帧中该对象的预测概率；

若该第一样本视频帧的事件标签表示的概率不小于第二预设阈值，确定该第一样本视频帧中第三预设数值个第一对象；其中，该第一样本视频帧中所述第一对象的预测概率，大于该第一样本视频帧中除所述第一对象以外的第二对象的预测概率；所述第三预设数值表示触发所述预设异常事件的对象的数目；

按照用于分配奖励的第二交叉熵损失函数，计算所述第一对象对应的损失函数值，其中，第二交叉熵损失函数为：S2＝-P₁×lnP₃，S2表示所述第一对象对应的损失函数值，P₁表示该第一样本视频帧包含预设异常事件的概率，P₃表示该第一样本视频帧中所述第一对象的预测概率；

按照用于分配惩罚的第三交叉熵损失函数，计算所述第二对象对应的损失函数值，其中，第三交叉熵损失函数为：S3＝-(1-P₁)×ln(1-P₄)，S3表示所述第二对象对应的损失函数值，P₁表示该第一样本视频帧包含预设异常事件的概率，P₄表示该第一样本视频帧中所述第二对象的预测概率；

计算该第一样本视频帧包含的对象对应的损失函数值的平均值，作为该第一样本视频帧对应的损失函数值。

可选的，所述对所述待检测视频进行特征提取，得到所述待检测视频中每一待检测视频帧包含的对象的图像特征，包括：

针对所述待检测视频中的每一待检测视频帧，将该待检测视频帧输入至预先训练的第一特征提取模型，得到该待检测视频帧包含的对象所占图像区域的图像特征；

其中，所述第一特征提取模型为基于第二样本视频帧进行训练得到的；所述第二样本视频帧具有：表示所述第二样本视频帧包含的对象所占的图像区域的位置的位置标签。

可选的，在针对所述待检测视频中的每一待检测视频帧，将该待检测视频帧输入至预先训练的第一特征提取模型，得到该待检测视频帧包含的对象所占图像区域的图像特征之后，所述方法还包括：

将该待检测视频帧包含的对象所占图像区域的图像特征，输入至预先训练的位置检测模型，得到该待检测视频帧包含的对象所占图像区域；

其中，所述位置检测模型为基于第三样本视频帧进行训练得到的；所述第三样本视频帧具有：表示所述第三样本视频帧包含的对象所占的图像区域的位置的位置标签。

针对所述待检测视频中的每一待检测视频帧，将该待检测视频帧输入至预先训练的第二特征提取模型，得到该待检测视频帧包含的对象所占图像区域的图像特征；

所述方法还包括：

将该待检测视频帧包含的对象所占图像区域的图像特征，输入至对象分类模型，得到该待检测视频帧包含的对象的对象类别；

其中，所述第二特征提取模型和所述对象分类模型为基于第四样本视频帧进行训练得到的；所述第四样本视频帧具有：表示所述第四样本视频帧包含的对象的对象类别的类别标签，以及表示所述第四样本视频帧包含的对象所占的图像区域的位置的位置标签。

可选的，所述基于各个待检测视频帧包含的对象的预测概率，确定所述待检测视频中触发预设异常事件的对象，包括：

基于各个待检测视频帧包含的对象的预测概率，判断是否存在目标对象，其中，所述目标对象在第二预设数值个连续的待检测视频帧中的预测概率均大于第一预设阈值；

如果存在所述目标对象，将所述目标对象确定为所述待检测视频中触发预设异常事件的对象。

可选的，在针对每一待检测视频帧，将该待检测视频帧包含的对象的图像特征，输入至预先训练的异常事件检测模型，得到该待检测视频帧包含的对象触发预设异常事件的预测概率之后，所述方法还包括：

判断各个待检测视频帧中，是否存在包含的对象的预测概率属于预设概率范围内的目标视频帧；

如果存在所述目标视频帧，将所述待检测视频确定为样本视频，用于对所述异常事件检测模型进行训练。

第二方面，为了达到上述目的，本申请实施例公开了一种模型训练方法，所述方法包括：

获取样本视频；

获取所述样本视频中每一第一样本视频帧的事件标签，其中，第一样本视频帧的事件标签表示该第一样本视频帧包含预设异常事件的概率；

可选的，所述获取所述样本视频中每一第一样本视频帧的事件标签，包括：

第三方面，为了达到上述目的，本申请实施例公开了一种异常事件检测装置，所述装置包括：

待检测视频获取模块，用于获取待检测视频；

第一特征提取模块，用于对所述待检测视频进行特征提取，得到所述待检测视频中每一待检测视频帧包含的对象的图像特征；

异常事件检测模块，用于针对每一待检测视频帧，将该待检测视频帧包含的对象的图像特征，输入至预先训练的异常事件检测模型，得到该待检测视频帧包含的对象触发预设异常事件的预测概率；

对象确定模块，用于基于各个待检测视频帧包含的对象的预测概率，确定所述待检测视频中触发预设异常事件的对象。

可选的，所述装置还包括：

事件标签获取模块，用于获取每一第一样本视频帧的事件标签；

第二特征提取模块，用于对所述样本视频进行特征提取，得到每一第一样本视频帧包含的对象的图像特征；

第一处理模块，用于针对每一第一样本视频帧，将该第一样本视频帧包含的对象的图像特征，输入预设结构的卷积神经网络模型，得到该第一样本视频帧包含的对象触发预设异常事件的预测概率；

损失函数值确定模块，用于基于该第一样本视频帧的事件标签和该第一样本视频帧包含的对象的预测概率，确定该第一样本视频帧对应的损失函数值；

模型参数调整模块，用于基于每一第一样本视频帧对应的损失函数值，对所述预设结构的卷积神经网络模型的模型参数进行调整，直至所述预设结构的卷积神经网络模型收敛，得到异常事件检测模型。

可选的，所述事件标签获取模块，具体用于按照以时间戳的先后顺序，所述样本视频中各个第一样本视频帧包含预设异常事件的概率服从预设高斯分布，确定每一第一样本视频帧包含预设异常事件的概率，作为每一第一样本视频帧的事件标签；

可选的，所述损失函数值确定模块，包括：

第一计算子模块，用于若该第一样本视频帧的事件标签表示的概率小于第二预设阈值，则针对该第一样本视频帧中的每一对象，按照用于分配惩罚的第一交叉熵损失函数，计算该对象对应的损失函数值；其中，第一交叉熵损失函数为：S1＝-(1-P₁)×ln(1-P₂)，S1表示该对象对应的损失函数值，P₁表示该第一样本视频帧包含预设异常事件的概率，P₂表示该第一样本视频帧中该对象的预测概率；

处理子模块，用于若该第一样本视频帧的事件标签表示的概率不小于第二预设阈值，确定该第一样本视频帧中第三预设数值个第一对象；其中，该第一样本视频帧中所述第一对象的预测概率，大于该第一样本视频帧中除所述第一对象以外的第二对象的预测概率；所述第三预设数值表示触发所述预设异常事件的对象的数目；

第二计算子模块，用于按照用于分配奖励的第二交叉熵损失函数，计算所述第一对象对应的损失函数值，其中，第二交叉熵损失函数为：S2＝-P₁×lnP₃，S2表示所述第一对象对应的损失函数值，P₁表示该第一样本视频帧包含预设异常事件的概率，P₃表示该第一样本视频帧中所述第一对象的预测概率；

第三计算子模块，用于按照用于分配惩罚的第三交叉熵损失函数，计算所述第二对象对应的损失函数值，其中，第三交叉熵损失函数为：S3＝-(1-P₁)×ln(1-P₄)，S3表示所述第二对象对应的损失函数值，P₁表示该第一样本视频帧包含预设异常事件的概率，P₄表示该第一样本视频帧中所述第二对象的预测概率；

损失函数值确定子模块，用于计算该第一样本视频帧包含的对象对应的损失函数值的平均值，作为该第一样本视频帧对应的损失函数值。

可选的，所述第一特征提取模块，具体用于针对所述待检测视频中的每一待检测视频帧，将该待检测视频帧输入至预先训练的第一特征提取模型，得到该待检测视频帧包含的对象所占图像区域的图像特征；

可选的，所述装置还包括：

位置检测模块，用于在针对所述待检测视频中的每一待检测视频帧，将该待检测视频帧输入至预先训练的第一特征提取模型，得到该待检测视频帧包含的对象所占图像区域的图像特征之后，将该待检测视频帧包含的对象所占图像区域的图像特征，输入至预先训练的位置检测模型，得到该待检测视频帧包含的对象所占图像区域；

可选的，所述第一特征提取模块，具体用于针对所述待检测视频中的每一待检测视频帧，将该待检测视频帧输入至预先训练的第二特征提取模型，得到该待检测视频帧包含的对象所占图像区域的图像特征；

所述装置还包括：

分类模块，用于将该待检测视频帧包含的对象所占图像区域的图像特征，输入至对象分类模型，得到该待检测视频帧包含的对象的对象类别；

可选的，所述对象确定模块，包括：

判断子模块，用于基于各个待检测视频帧包含的对象的预测概率，判断是否存在目标对象，其中，所述目标对象在第二预设数值个连续的待检测视频帧中的预测概率均大于第一预设阈值；

对象确定子模块，用于如果存在所述目标对象，将所述目标对象确定为所述待检测视频中触发预设异常事件的对象。

可选的，所述装置还包括：

判断模块，用于在针对每一待检测视频帧，将该待检测视频帧包含的对象的图像特征，输入至预先训练的异常事件检测模型，得到该待检测视频帧包含的对象触发预设异常事件的预测概率之后，判断各个待检测视频帧中，是否存在包含的对象的预测概率属于预设概率范围内的目标视频帧；

第二处理模块，用于如果存在所述目标视频帧，将所述待检测视频确定为样本视频，用于对所述异常事件检测模型进行训练。

第四方面，为了达到上述目的，本申请实施例公开了一种模型训练装置，所述装置包括：

样本视频获取模块，用于获取样本视频；

事件标签获取模块，用于获取所述样本视频中每一第一样本视频帧的事件标签，其中，第一样本视频帧的事件标签表示该第一样本视频帧包含预设异常事件的概率；

特征提取模块，用于对所述样本视频进行特征提取，得到每一第一样本视频帧包含的对象的图像特征；

处理模块，用于针对每一第一样本视频帧，将该第一样本视频帧包含的对象的图像特征，输入预设结构的卷积神经网络模型，得到该第一样本视频帧包含的对象触发预设异常事件的预测概率；

模块参数调整模块，用于基于每一第一样本视频帧对应的损失函数值，对所述预设结构的卷积神经网络模型的模型参数进行调整，直至所述预设结构的卷积神经网络模型收敛，得到异常事件检测模型。

可选的，所述损失函数值确定模块，包括：

在本申请实施的另一方面，为了达到上述目的，本申请实施例还公开了一种电子设备，所述电子设备包括处理器、通信接口、存储器和通信总线，其中，所述处理器，所述通信接口，所述存储器通过所述通信总线完成相互间的通信；

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存放的程序时，实现如上述第一方面所述的异常事件检测方法或第二方面所述的模型训练方法。

在本申请实施的又一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现如上述第一方面所述的异常事件检测方法或第二方面所述的模型训练方法。

在本申请实施的又一方面，本申请实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述第一方面所述的异常事件检测方法或第二方面所述的模型训练方法。

本申请实施例提供了一种异常事件检测方法，可以获取待检测视频；对待检测视频进行特征提取，得到待检测视频中每一待检测视频帧包含的对象的图像特征；针对每一待检测视频帧，将该待检测视频帧包含的对象的图像特征，输入至预先训练的异常事件检测模型，得到该待检测视频帧包含的对象触发预设异常事件的预测概率；其中，异常事件检测模型为基于样本视频，以弱监督学习方式进行训练得到的；样本视频中每一第一样本视频帧具有事件标签，事件标签表示该第一样本视频帧包含预设异常事件的概率；基于各个待检测视频帧包含的对象的预测概率，确定待检测视频中触发预设异常事件的对象。

可见，基于弱监督学习，只需要获取第一样本视频帧包含预设异常事件的概率，就可以完成异常事件检测模型的训练，并不需要对第一样本视频帧包含的每一对象，以及该对象是否触发预设异常事件进行标注，相应的，基于异常事件检测模型，可以检测处待检测视频中触发预设异常事件的对象，也就是说，在检测过程中，只需要对第一样本视频中的粗粒度特征(即视频帧级别的特征)进行标注，而不需要对更细粒度的特征(即视频帧中对象级别的特征)进行标注，进而，能够降低检测的成本，提高检测的效率。

当然，实施本申请的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种异常事件检测方法的流程图；

图2为本申请实施例提供的另一种异常事件检测方法的流程图；

图3为本申请实施例提供的异常事件检测中一种训练异常事件检测模型的流程图；

图4为本申请实施例提供的异常事件检测中另一种训练异常事件检测模型的流程图；

图5为本申请实施例提供的训练异常事件检测模型中一种获取样本视频帧对应的损失函数值的流程图；

图6为本申请实施例提供的另一种异常事件检测方法的流程图；

图7为本申请实施例提供的一种异常事件检测的原理示意图；

图8为本申请实施例提供的另一种异常事件检测的原理示意图；

图9为本申请实施例提供的一种模型训练方法的流程示意图；

图10为本申请实施例提供的一种异常事件检测装置的结构图；

图11为本申请实施例提供的一种模型训练装置的结构图；

图12为本申请实施例提供的一种电子设备的结构图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

相关技术中，当对待检测视频进行检测时，需要人工标注样本视频中每一视频帧包含的每一对象，以及该对象是否触发预设异常事件，会增大标注的复杂度和成本，进而，会增加检测的成本，降低检测的效率。

为了解决上述问题，本申请实施例提供的一种异常事件检测方法，参见图1，该方法可以包括以下步骤：

S101：获取待检测视频。

S102：对待检测视频进行特征提取，得到待检测视频中每一待检测视频帧包含的对象的图像特征。

S103：针对每一待检测视频帧，将该待检测视频帧包含的对象的图像特征，输入至预先训练的异常事件检测模型，得到该待检测视频帧包含的对象触发预设异常事件的预测概率。

其中，异常事件检测模型为基于样本视频，以弱监督学习方式进行训练得到的；样本视频中每一第一样本视频帧具有事件标签，事件标签表示该第一样本视频帧包含预设异常事件的概率。

S104：基于各个待检测视频帧包含的对象的预测概率，确定待检测视频中触发预设异常事件的对象。

本申请实施例提供的对象检测方法，基于弱监督学习，只需要获取第一样本视频帧包含预设异常事件的概率，就可以完成异常事件检测模型的训练，并不需要对第一样本视频帧包含的每一对象，以及该对象是否触发预设异常事件进行标注，相应的，基于异常事件检测模型，可以检测处待检测视频中触发预设异常事件的对象，也就是说，在检测过程中，只需要对第一样本视频中的粗粒度特征(即视频帧级别的特征)进行标注，而不需要对更细粒度的特征(即视频帧中对象级别的特征)进行标注，进而，能够降低检测的成本，提高检测的效率。

针对步骤S101，待检测视频可以为需要确定是否包含预设异常事件，以及需要确定其中触发预设异常事件的对象的视频。

针对步骤S102，可以采取基于视频的特征提取算法，对待检测视频进行特征提取，例如，可以基于LSTM(Long Short-Term Memory，长短期记忆网络)对待检测视频进行特征提取。

或者，也可以采取基于视频帧的特征提取算法，对待检测视频进行特征提取，例如，可以基于Fast Region-CNN(Fast Region-Convolutional Neural Networks，快速区域卷积神经网络)对待检测视频进行特征提取。

在一个实施例中，参见图2，步骤S102可以包括：

S1021：针对待检测视频中的每一待检测视频帧，将该待检测视频帧输入至预先训练的第一特征提取模型，得到该待检测视频帧包含的对象所占图像区域的图像特征。

其中，第一特征提取模型为基于第二样本视频帧进行训练得到的，该第一特征提取模型可以包括多个卷积层。第二样本视频帧具有位置标签，位置标签表示第二样本视频帧包含的对象所占的图像区域的位置。例如，第二样本视频帧可以为预设数据集中的图像，预设数据集可以为ImageNet(图网)数据集，或者，也可以为Cifar数据集，但并不限于此。

在本申请实施例中，可以预先训练第一特征提取模型，由于训练第一特征提取模型的第二样本视频帧具有位置标签，因此，第一特征提取模型可以确定出各个对象所占的图像区域，进而，可以获取每一图像区域的图像特征。

一种实现方式中，第一特征提取模型可以获取每一待检测视频帧的特征图像，进而，基于每一待检测视频帧的特征图像，得到每一待检测视频帧包含的对象所占图像区域的图像特征。

在一个实施例中，还可以提高确定出每一对象的图像区域的精确度，在步骤S1021之后，该方法还可以包括以下步骤：将该待检测视频帧包含的对象所占图像区域的图像特征，输入至预先训练的位置检测模型，得到该待检测视频帧包含的对象所占图像区域。

其中，位置检测模型为基于第三样本视频帧进行训练得到的，该位置检测模型可以包括多个卷积层。第三样本视频帧具有位置标签，位置标签表示第三样本视频帧包含的对象所占的图像区域的位置。第三样本视频帧可以为上述预设数据集中的图像。

在本申请实施例中，可以预先训练位置检测模型，由于训练位置检测模型的第三样本视频帧具有位置标签，因此，位置检测模型可以检测出每一待检测视频帧中各个对象所占的图像区域。

也就是说，在基于第一特征提取模型确定出各个对象所占的图像区域的基础上，利用位置检测模型对各图像区域的图像特征做进一步卷积处理，能够更精确地检测出对象所占的图像区域，且基于上述处理，使得第一特征提取模型中不需要设置较多的卷积层，就可以准确地确定出对象所占的图像区域，进而，能够降低第一特征提取模型的模型复杂度。

在一个实施例中，还可以识别出待检测视频帧中对象的对象类别，步骤S102可以包括以下步骤：针对待检测视频中的每一待检测视频帧，将该待检测视频帧输入至预先训练的第二特征提取模型，得到该待检测视频帧包含的对象所占图像区域的图像特征。

相应的，该方法还可以包括以下步骤：将该待检测视频帧包含的对象所占图像区域的图像特征，输入至对象分类模型，得到该待检测视频帧包含的对象的对象类别。

其中，第二特征提取模型和对象分类模型为基于第四样本视频帧进行训练得到的。第四样本视频帧具有类别标签和位置标签，类别标签表示第四样本视频帧包含的对象的对象类别，位置标签表示第四样本视频帧包含的对象所占的图像区域的位置。

例如，对象的类别可以为人、汽车或动物等。第四样本视频帧可以为上述预设数据集中的图像。

在本申请实施例中，可以预先训练第二特征提取模型和对象分类模型，第二特征提取模型可以包括多个卷积层，对象分类模型也可以包括多个卷积层。由于第四样本视频帧包含类别标签和位置标签，因此，第二特征提取模型可以确定出各个对象所占的图像区域，以及每一图像区域的图像特征，也就能得到各个对象的图像特征。

相应的，对象分类模型可以基于第二特征提取模型得到的每一图像区域的图像特征，检测出该图像区域中的对象的对象类别。

在一个实施例中，异常事件检测模型可以包含多个卷积层。

在一个实施例中，参见图3，异常事件检测模型的训练过程可以包括以下步骤：

S301：获取每一第一样本视频帧的事件标签。

S302：对样本视频进行特征提取，得到每一第一样本视频帧包含的对象的图像特征。

S303：针对每一第一样本视频帧，将该第一样本视频帧包含的对象的图像特征，输入预设结构的卷积神经网络模型，得到该第一样本视频帧包含的对象触发预设异常事件的预测概率。

S304：基于该第一样本视频帧的事件标签和该第一样本视频帧包含的对象的预测概率，确定该第一样本视频帧对应的损失函数值。

S305：基于每一第一样本视频帧对应的损失函数值，对预设结构的卷积神经网络模型的模型参数进行调整，直至预设结构的卷积神经网络模型收敛，得到异常事件检测模型。

在本申请实施例中，对样本视频进行特征提取的方法，与上述步骤S102中对待检测视频进行特征提取的方法类似，可以参考相关介绍。

预设结构的卷积神经网络模型可以具有初始的模型参数，基于该初始的模型参数，针对第一样本视频帧包含的每一对象的图像特征，可以计算出该对象触发预设异常事件的概率(即预测概率)。

然后，可以基于该第一样本视频帧的事件标签和该第一样本视频帧包含的对象的预测概率，确定该第一样本视频帧对应的损失函数值。该损失函数值可以表示预设结构的卷积神经网络模型，对该第一样本视频帧中的对象触发预设异常事件进行预测的准确程度。

相应的，基于各个第一样本视频帧的损失函数值对预设结构的卷积神经网络模型的模型参数进行调整，能够不断提高预设结构的卷积神经网络模型预测的准确度，直至达到收敛。

在一个实施例中，为了进一步降低对样本视频进行标注的成本和消耗的时间，提高检测的效率，可以基于预先标记的样本视频中触发预设异常事件的第一样本视频帧的时间戳，确定各第一样本视频帧的事件标签。

参见图4，步骤S301可以包括以下步骤：

S3011：按照以时间戳的先后顺序，样本视频中各个第一样本视频帧包含预设异常事件的概率服从预设高斯分布，确定每一第一样本视频帧包含预设异常事件的概率，作为每一第一样本视频帧的事件标签。

其中，预设高斯分布的期望值为：预先标记的样本视频中触发预设异常事件的第一样本视频帧的时间戳。预设高斯分布的标准差为样本视频中预设异常事件的持续时长与第一预设数值的比值。

其中，第一预设数值可以由技术人员根据经验设置，例如，第一预设数值可以为6，或者，可以为5，但并不限于此。

一种实现方式中，用户可以标注出样本视频中触发预设异常事件的第一样本视频帧(可以称为中心视频帧)。例如，预设异常事件为车祸事件，则中心视频帧可以为正在发生车祸事件的视频帧；预设异常事件为打架事件，则中心视频帧可以为人物正在打架的视频帧。进而，可以将中心视频帧的时间戳作为预设高斯分布的期望值(即μ)。

另外，用户还可以标注出样本视频中预设异常事件的持续时长，也就是说，包含预设异常事件的第一个第一样本视频帧，与最后一个第一样本视频帧之间的时长。进而，可以计算该持续时长与第一预设数值的比值，作为预设高斯分布的标准差(即σ)。

在确定出期望值和标准差后，可以按照该预设高斯分布，确定各个第一样本视频帧包含预设异常事件的概率。也就是说，可以将中心视频帧包含预设异常事件的概率确定为1，以中心视频帧向前和向后，各第一样本视频帧包含预设异常事件的概率逐渐降低，且按照时间戳的先后顺序服从该预设高斯分布。

基于该预设高斯分布，可以确定出样本视频中各个第一样本视频帧包含预设异常事件的概率，得到各个第一样本视频帧的事件标签。

基于上述实施例，用户只需要标注样本视频中的中心视频帧，不需要对每一第一样本视频帧进行标注，进而，能够进一步降低对样本视频进行标注的成本和消耗的时间，提高检测的效率。

可以理解的是，如果该样本视频不包含预设异常事件，则每一第一样本视频帧包含预设异常事件的概率可以为0。

在一个实施例中，可以基于交叉熵损失函数计算异常事件检测模型的损失函数值。参见图5，S304可以包括以下步骤：

S3041：若该第一样本视频帧的事件标签表示的概率小于第二预设阈值，则针对该第一样本视频帧中的每一对象，按照用于分配惩罚的第一交叉熵损失函数，计算该对象对应的损失函数值。

其中，第一交叉熵损失函数为：S1＝-(1-P₁)×ln(1-P₂)，S1表示该对象对应的损失函数值，P₁表示该第一样本视频帧包含预设异常事件的概率，P₂表示该第一样本视频帧中该对象的预测概率。

S3042：若该第一样本视频帧的事件标签表示的概率不小于第二预设阈值，确定该第一样本视频帧中第三预设数值个第一对象。

其中，该第一样本视频帧中第一对象的预测概率，大于该第一样本视频帧中除第一对象以外的第二对象的预测概率。第三预设数值表示触发预设异常事件的对象的数目。

S3043：按照用于分配奖励的第二交叉熵损失函数，计算第一对象对应的损失函数值。

其中，第二交叉熵损失函数为：S2＝-P₁×lnP₃，S2表示第一对象对应的损失函数值，P₁表示该第一样本视频帧包含预设异常事件的概率，P₃表示该第一样本视频帧中第一对象的预测概率。

S3044：按照用于分配惩罚的第三交叉熵损失函数，计算第二对象对应的损失函数值。

其中，第三交叉熵损失函数为：S3＝-(1-P₁)×ln(1-P₄)，S3表示第二对象对应的损失函数值，P₁表示该第一样本视频帧包含预设异常事件的概率，P₄表示该第一样本视频帧中第二对象的预测概率。

S3045：计算该第一样本视频帧包含的对象对应的损失函数值的平均值，作为该第一样本视频帧对应的损失函数值。

在本申请实施例中，针对每一第一样本视频帧，在计算对应的损失函数值之前，可以先判断该第一样本视频帧的事件标签表示的概率是否小于第二预设阈值(即判断该第一样本视频帧包含预设异常事件的概率是否小于第二预设阈值)。其中，第二预设阈值可以由技术人员根据经验进行设置。

一种实现方式中，可以基于上述预设高斯分布确定第二预设阈值。例如，可以计算上述预设高斯分布中，μ+3σ对应的概率，并将该概率作为第二预设阈值。或者，也可以计算上述预设高斯分布中，μ+4σ对应的概率，并将该概率作为第二预设阈值，并不限于此。

若该第一样本视频帧的事件标签表示的概率小于第二预设阈值，也就是说，该第一样本视频帧不包含预设异常事件，或者，该第一样本视频帧包含预设异常事件的概率较小。此时，针对该第一样本视频帧中的每一个对象，可以基于第一交叉熵损失函数计算该对象的损失函数值，计算得到的损失函数值可以表示对该对象的预测概率分配惩罚。

若该第一样本视频帧的事件标签表示的概率不小于第二预设阈值，也就是说，该第一样本视频帧包含预设异常事件，或者，该第一样本视频帧包含预设异常事件的概率较大。此时，可以确定该第一样本视频帧中预测概率较大的第一对象。

确定出的第一对象的数目(即第三预设数值)表示触发预设异常事件的对象的数目。例如，预设异常事件为打架事件，则第三预设数值可以为2，或者，也可以为3，但并不限于此；预设异常事件为连续追尾的车祸事件，则第三预设数值可以为3，或者，也可以为4，但并不限于此。

进而，则可以基于第二交叉熵损失函数计算第一对象的损失函数值，计算得到的损失函数值可以表示对第一对象的预测概率分配奖励。相应的，可以基于第三交叉熵损失函数计算第二对象的损失函数值，计算得到的损失函数值可以表示对第二对象的预测概率分配惩罚。

针对每一第一样本视频帧，可以得到该第一样本视频帧中各个对象的损失函数值，然后，可以计算各个对象的损失函数值的平均值，作为该第一样本视频帧对应的损失函数值，并根据该第一样本视频帧对应的损失函数值对异常事件检测模型的模型参数进行调整。

在一个实施例中，参见图6，步骤S104可以包括以下步骤：

S1041：基于各个待检测视频帧包含的对象的预测概率，判断是否存在目标对象。

其中，目标对象在第二预设数值个连续的待检测视频帧中的预测概率均大于第一预设阈值。

S1042：如果存在目标对象，将目标对象确定为待检测视频中触发预设异常事件的对象。

其中，第二预设数值可以由技术人员基于预设异常事件的类型，结合经验设置。例如，针对车祸事件，第二预设数值可以为40，或者，也可以为50，但并不限于此。例如，针对打架事件，第二预设数值可以为50，或者，也可以为60，但并不限于此。第一预设阈值可以由技术人员根据经验确定，例如，第一预设阈值可以为0.8，或者，也可以为0.9，但并不限于此。

在本申请实施例中，在确定出每一待检测视频帧包含的每一对象触发预设异常事件的预测概率后，可以判断待检测视频中是否存在目标对象。也就是说，可以判断是否存在一个对象，且该对象在第二预设数值个连续的待检测视频帧中的预测概率均大于第一预设阈值。

如果存在，表明该第二预设数值个连续的待检测视频帧均包含预设异常事件，且均包含该对象，进而，可以确定该对象为触发预设异常事件的目标对象。

在一个实施例中，为了进一步提高异常事件检测模型检测的准确度，在步骤S103之后，该方法还可以包括以下步骤：

判断待检测视频中，是否存在包含的对象触发预设异常事件的预测概率属于预设概率范围内的目标视频帧；如果存在目标视频帧，将待检测视频确定为样本视频，用于对异常事件检测模型进行训练。

在本申请实施例中，在对待检测视频进行检测，确定每一待检测视频帧包含的每一对象的预测概率后，可以判断是否存在一个待检测视频帧，且该待检测视频帧包含的对象的预测概率属于预设概率范围。

该待检测视频帧的预测概率属于预设概率范围，表明无法基于预测概率，确定该待检测视频帧包含的对象是否触发预设异常事件。

例如，针对该待检测视频帧中的对象，如果预测概率为1，则可以确定该待检测视频帧中该对象触发预设异常事件；如果预测概率为0，则可以确定该待检测视频帧中该对象未触发预设异常事件。

可以理解的是，如果该对象的预测概率位于0-1的中间位置，则无法确定该对象是否触发预设异常事件。因此，预设概率范围可以为(0.4，0.6)，或者，也可以为(0.45，0.55)，但并不限于此。

可见，如果该对象的预测概率属于预设概率范围，也就是说，针对该待检测视频帧，异常事件检测模型当前无法有效地识别出该对象是否触发预设异常事件。因此，可以获取该待检测视频中各个待检测视频帧的事件标签，进而，可以将该待检测视频作为样本视频，基于该待检测视频中各个待检测视频帧的事件标签，对异常事件检测模型再次进行训练，使得异常事件检测模型能够基于该待检测视频的特征进行学习，提高异常事件检测模型识别的准确度。

在一个实施例中，在确定出待检测视频中存在目标视频帧后，可以确定用户标注的该待检测视频中的中心视频帧，以及预设异常事件的持续时长，进而，基于预设高斯分布，确定该待检测视频中各个视频帧的事件标签。也就是说，用户只需要标注该待检测视频的中心视频帧，不需要对每一视频帧进行标注，进而，能够进一步降低标注记的成本和消耗的时间，提高检测的效率。

参见图7，图7为本申请实施例提供的一种异常事件检测的原理示意图。

弱监督视频标注：获取样本视频，并基于用户在样本视频中标注的中心视频帧、预设异常事件的持续时长和预设高斯分布，确定样本视频中每一样本视频帧的事件标签。

端到端深度视频行为分析：基于端到端的神经网络模型确定待检测视频中每一待检测视频帧包含的对象触发预设异常事件的概率。具体的，端到端深度视频行为分析可以包括特征提取和行为预测。

特征提取：对输入的待检测视频进行特征提取，得到每一待检测视频帧中对象的图像特征。

行为预测可以包含：对象检测、对象分类和行为分析。具体的，基于特征提取得到的图像特征，进行对象检测，可以确定出每一待检测视频帧中对象的图像区域；基于特征提取得到的图像特征，进行对象分类，可以确定出每一待检测视频帧中对象的对象类别；基于特征提取得到的图像特征，进行行为分析，可以确定出每一待检测视频帧中对象触发预设异常事件的预测概率。

弱监督学习：基于视频帧中对象的预测概率，确定视频帧对应的损失函数值，并结合视频帧的事件标签，计算视频帧对应的损失函数值，进而，可以基于损失函数值对行为分析所利用的模型的模型参数进行调整。

参见图8，图8为本申请实施例提供的另一种异常事件检测的原理示意图。

特征提取：对待检测视频进行特征提取，得到每一待检测视频帧的特征图像。

行为分析1：获取每一待检测视频帧的特征图像，进而，基于特征图像可以确定出该待检测视频帧中每一对象所占的图像区域的图像特征。

对象分类：基于每一图像区域的图像特征，确定每一图像区域的对象类别。

对象检测：基于每一图像区域的图像特征进一步识别，确定出对象所占的图像区域，能够提高确定出的对象所占的图像区域的精确度。

行为分析2：基于每一图像区域的图像特征，得到该图像区域的对象触发预设异常事件的预测概率。

基于相同的发明构思，本申请实施例还提供了一种模型训练方法，参见图9，图9为本申请实施例提供的一种模型训练方法的流程示意图，该方法可以包括以下步骤：

S901：获取样本视频。

S902：获取样本视频中每一第一样本视频帧的事件标签。

其中，第一样本视频帧的事件标签表示该第一样本视频帧包含预设异常事件的概率。

S903：对样本视频进行特征提取，得到每一第一样本视频帧包含的对象的图像特征。

S904：针对每一第一样本视频帧，将该第一样本视频帧包含的对象的图像特征，输入预设结构的卷积神经网络模型，得到该第一样本视频帧包含的对象触发预设异常事件的预测概率。

S905：基于该第一样本视频帧的事件标签和该第一样本视频帧包含的对象的预测概率，确定该第一样本视频帧对应的损失函数值。

S906：基于每一第一样本视频帧对应的损失函数值，对预设结构的卷积神经网络模型的模型参数进行调整，直至预设结构的卷积神经网络模型收敛，得到异常事件检测模型。

上述步骤S902-906可以参考上述实施例中S301-S305的相关介绍。

本申请实施例提供的模型训练方法，基于弱监督学习，只需要获取第一样本视频帧包含预设异常事件的概率，就可以完成异常事件检测模型的训练，并不需要对第一样本视频帧包含的每一对象，以及该对象是否触发预设异常事件进行标注，相应的，基于异常事件检测模型，可以检测处待检测视频中触发预设异常事件的对象，也就是说，在检测过程中，只需要对第一样本视频中的粗粒度特征(即视频帧级别的特征)进行标注，而不需要对更细粒度的特征(即视频帧中对象级别的特征)进行标注，进而，能够降低检测的成本，提高检测的效率。

在一个实施例中，步骤S902可以包括以下步骤：按照以时间戳的先后顺序，样本视频中各个第一样本视频帧包含预设异常事件的概率服从预设高斯分布，确定每一第一样本视频帧包含预设异常事件的概率，作为每一第一样本视频帧的事件标签；

其中，预设高斯分布的期望值为：预先标记的样本视频中触发预设异常事件的第一样本视频帧的时间戳；预设高斯分布的标准差为样本视频中预设异常事件的持续时长与第一预设数值的比值。

在一个实施例中，步骤S905可以包括以下步骤：

步骤一：若该第一样本视频帧的事件标签表示的概率小于第二预设阈值，则针对该第一样本视频帧中的每一对象，按照用于分配惩罚的第一交叉熵损失函数，计算该对象对应的损失函数值；其中，第一交叉熵损失函数为：S1＝-(1-P₁)×ln(1-P₂)，S1表示该对象对应的损失函数值，P₁表示该第一样本视频帧包含预设异常事件的概率，P₂表示该第一样本视频帧中该对象的预测概率；

步骤二：若该第一样本视频帧的事件标签表示的概率不小于第二预设阈值，确定该第一样本视频帧中第三预设数值个第一对象；其中，该第一样本视频帧中第一对象的预测概率，大于该第一样本视频帧中除第一对象以外的第二对象的预测概率；第三预设数值表示触发预设异常事件的对象的数目；

步骤三：按照用于分配奖励的第二交叉熵损失函数，计算第一对象对应的损失函数值，其中，第二交叉熵损失函数为：S2＝-P₁×lnP₃，S2表示第一对象对应的损失函数值，P₁表示该第一样本视频帧包含预设异常事件的概率，P₃表示该第一样本视频帧中第一对象的预测概率；

步骤四：按照用于分配惩罚的第三交叉熵损失函数，计算第二对象对应的损失函数值，其中，第三交叉熵损失函数为：S3＝-(1-P₁)×ln(1-P₄)，S3表示第二对象对应的损失函数值，P₁表示该第一样本视频帧包含预设异常事件的概率，P₄表示该第一样本视频帧中第二对象的预测概率；

步骤五：计算该第一样本视频帧包含的对象对应的损失函数值的平均值，作为该第一样本视频帧对应的损失函数值。

上述步骤一至步骤五，可以参考上述实施例中S3041-3045的相关介绍。

基于相同的发明构思，本申请实施例还提供了一种异常事件检测装置，参见图10，图10为本申请实施例提供的一种异常事件检测装置的结构图，该装置可以包括：

待检测视频获取模块1001，用于获取待检测视频；

第一特征提取模块1002，用于对所述待检测视频进行特征提取，得到所述待检测视频中每一待检测视频帧包含的对象的图像特征；

异常事件检测模块1003，用于针对每一待检测视频帧，将该待检测视频帧包含的对象的图像特征，输入至预先训练的异常事件检测模型，得到该待检测视频帧包含的对象触发预设异常事件的预测概率；

对象确定模块1004，用于基于各个待检测视频帧包含的对象的预测概率，确定所述待检测视频中触发预设异常事件的对象。

可选的，所述装置还包括：

可选的，所述损失函数值确定模块，包括：

可选的，所述第一特征提取模块1002，具体用于针对所述待检测视频中的每一待检测视频帧，将该待检测视频帧输入至预先训练的第一特征提取模型，得到该待检测视频帧包含的对象所占图像区域的图像特征；

其中，所述第一特征提取模型为基于第二样本视频帧进行训练得到的；所述第二样本视频帧具有位置标签，该位置标签表示所述第二样本视频帧包含的对象所占的图像区域的位置。

可选的，所述装置还包括：

其中，所述位置检测模型为基于第三样本视频帧进行训练得到的；所述第三样本视频帧具有位置标签，该位置标签表示所述第三样本视频帧包含的对象所占的图像区域的位置。

可选的，所述第一特征提取模块1002，具体用于针对所述待检测视频中的每一待检测视频帧，将该待检测视频帧输入至预先训练的第二特征提取模型，得到该待检测视频帧包含的对象所占图像区域的图像特征；

所述装置还包括：

其中，所述第二特征提取模型和所述对象分类模型为基于第四样本视频帧进行训练得到的；所述第四样本视频帧具有类别标签和位置标签，该类别标签表示所述第四样本视频帧包含的对象的对象类别，该位置标签表示所述第四样本视频帧包含的对象所占的图像区域的位置。

可选的，所述对象确定模块1004，包括：

可选的，所述装置还包括：

基于相同的发明构思，本申请实施例还提供了一种模型训练装置，参见图11，图11为本申请实施例提供的一种模型训练装置的结构图，该装置可以包括：

样本视频获取模块1101，用于获取样本视频；

事件标签获取模块1102，用于获取所述样本视频中每一第一样本视频帧的事件标签，其中，一个第一样本视频帧的事件标签表示该第一样本视频帧包含预设异常事件的概率；

特征提取模块1103，用于对所述样本视频进行特征提取，得到每一第一样本视频帧包含的对象的图像特征；

处理模块1104，用于针对每一第一样本视频帧，将该第一样本视频帧包含的对象的图像特征，输入预设结构的卷积神经网络模型，得到该第一样本视频帧包含的对象触发预设异常事件的预测概率；

损失函数值确定模块1105，用于基于该第一样本视频帧的事件标签和该第一样本视频帧包含的对象的预测概率，确定该第一样本视频帧对应的损失函数值；

模块参数调整模块1106，用于基于每一第一样本视频帧对应的损失函数值，对所述预设结构的卷积神经网络模型的模型参数进行调整，直至所述预设结构的卷积神经网络模型收敛，得到异常事件检测模型。

可选的，所述事件标签获取模块1102，具体用于按照以时间戳的先后顺序，所述样本视频中各个第一样本视频帧包含预设异常事件的概率服从预设高斯分布，确定每一第一样本视频帧包含预设异常事件的概率，作为每一第一样本视频帧的事件标签；

可选的，所述损失函数值确定模块1105，包括：

本申请实施例还提供了一种电子设备，如图12所示，包括处理器1201、通信接口1202、存储器1203和通信总线1204，其中，处理器1201，通信接口1202，存储器1203通过通信总线1204完成相互间的通信，

存储器1203，用于存放计算机程序；

处理器1201，用于执行存储器1203上所存放的程序时，实现上述实施例中任一异常事件检测方法或模型训练方法。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processor，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现本申请实施例提供的任一异常事件检测方法或模型训练方法。

本申请实施例还提供了另一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行本申请实施例提供的任一异常事件检测方法或模型训练方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、电子设备、计算机可读存储介质、计算机程序产品实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本申请的较佳实施例，并非用于限定本申请的保护范围。凡在本申请的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本申请的保护范围内。

Claims

1.一种异常事件检测方法，其特征在于，所述方法包括：

获取待检测视频；

2.根据权利要求1所述的方法，其特征在于，所述异常事件检测模型的训练过程包括：

获取每一第一样本视频帧的事件标签；

3.根据权利要求2所述的方法，其特征在于，所述获取每一第一样本视频帧的事件标签，包括：

4.根据权利要求2所述的方法，其特征在于，所述基于该第一样本视频帧的事件标签和该第一样本视频帧包含的对象的预测概率，确定该第一样本视频帧对应的损失函数值，包括：

5.根据权利要求1所述的方法，其特征在于，所述对所述待检测视频进行特征提取，得到所述待检测视频中每一待检测视频帧包含的对象的图像特征，包括：

其中，所述第一特征提取模型为基于第二样本视频帧进行训练得到的；所述第二样本视频帧具有位置标签，所述位置标签表示所述第二样本视频帧包含的对象所占的图像区域的位置。

6.根据权利要求5所述的方法，其特征在于，在针对所述待检测视频中的每一待检测视频帧，将该待检测视频帧输入至预先训练的第一特征提取模型，得到该待检测视频帧包含的对象所占图像区域的图像特征之后，所述方法还包括：

其中，所述位置检测模型为基于第三样本视频帧进行训练得到的；所述第三样本视频帧具有位置标签，所述位置标签表示所述第三样本视频帧包含的对象所占的图像区域的位置。

7.根据权利要求1所述的方法，其特征在于，所述对所述待检测视频进行特征提取，得到所述待检测视频中每一待检测视频帧包含的对象的图像特征，包括：

所述方法还包括：

其中，所述第二特征提取模型和所述对象分类模型为基于第四样本视频帧进行训练得到的；所述第四样本视频帧具有类别标签和位置标签，所述类别标签表示所述第四样本视频帧包含的对象的对象类别，所述位置标签表示所述第四样本视频帧包含的对象所占的图像区域的位置。

8.根据权利要求1所述的方法，其特征在于，所述基于各个待检测视频帧包含的对象的预测概率，确定所述待检测视频中触发预设异常事件的对象，包括：

9.根据权利要求1所述的方法，其特征在于，在针对每一待检测视频帧，将该待检测视频帧包含的对象的图像特征，输入至预先训练的异常事件检测模型，得到该待检测视频帧包含的对象触发预设异常事件的预测概率之后，所述方法还包括：

10.一种模型训练方法，其特征在于，所述方法包括：

获取样本视频；

11.一种异常事件检测装置，其特征在于，所述装置包括：

待检测视频获取模块，用于获取待检测视频；

12.一种模型训练装置，其特征在于，所述装置包括：

样本视频获取模块，用于获取样本视频；

13.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，所述处理器，所述通信接口，所述存储器通过所述通信总线完成相互间的通信；

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存放的程序时，实现权利要求1-9，或10任一所述的方法步骤。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-9，或10任一所述的方法步骤。