CN113435432B

CN113435432B - 视频异常检测模型训练方法、视频异常检测方法和装置

Info

Publication number: CN113435432B
Application number: CN202110993367.8A
Authority: CN
Inventors: 陈成伟; 谯睿智; 任博
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-08-27
Filing date: 2021-08-27
Publication date: 2021-11-30
Anticipated expiration: 2041-08-27
Also published as: CN113435432A

Abstract

本申请涉及一种视频异常检测模型训练方法、视频异常检测方法、装置、计算机设备和存储介质，包括：获取训练视频帧序列、对应的序列特征信息和训练视频帧序列对应的训练筛选视频帧的目标特征信息；将训练视频帧序列输入初始视频异常检测模型得到训练筛选视频帧对应的预测特征信息；基于目标特征信息和序列特征信息生成初始视频异常检测模型对应的时序判别模型的时序正训练样本，基于序列特征信息和预测特征信息生成时序负训练样本；基于目标特征信息、预测特征信息、时序正训练样本和时序负训练样本对初始视频异常检测模型和时序判别模型进行对抗训练，直至满足收敛条件，得到目标视频异常检测模型。采用本方法能提高视频异常检测模型的准确性。

Description

视频异常检测模型训练方法、视频异常检测方法和装置

技术领域

本申请涉及计算机技术领域，特别是涉及一种视频异常检测模型训练方法、视频异常检测方法、装置、计算机设备和存储介质。

背景技术

随着视频的不断普及，自动识别视频中的异常事件变得越来越有重要，智能的视频异常检测可以在一定程度上节省人力资源，提高效率。

传统技术中，主要是将已知的异常视频和正常视频作为训练样本，基于训练样本通过全监督的方式训练视频异常检测模型。然而，由于异常视频的数量有限，并且异常视频中的异常数据难以学习，最终导致训练得到的视频异常检测模型的检测准确性比较低。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高模型准确性的视频异常检测模型训练方法、视频异常检测方法、装置、计算机设备和存储介质。

一种视频异常检测模型训练方法，所述方法包括：

获取训练视频帧序列和所述训练视频帧序列对应的序列特征信息，获取所述训练视频帧序列对应的训练筛选视频帧的目标特征信息，所述训练视频帧序列是从初始视频帧序列中过滤所述训练筛选视频帧得到的；

将所述训练视频帧序列输入初始视频异常检测模型，得到所述训练筛选视频帧对应的预测特征信息；

基于所述目标特征信息和所述序列特征信息生成所述初始视频异常检测模型对应的时序判别模型的时序正训练样本，基于所述序列特征信息和所述预测特征信息生成所述时序判别模型对应的时序负训练样本；

基于所述目标特征信息、所述预测特征信息、所述时序正训练样本和所述时序负训练样本，对所述初始视频异常检测模型和所述时序判别模型进行对抗学习，得到对抗损失；

基于所述对抗损失调整所述初始视频异常检测模型和所述时序判别模型的模型参数，直至满足收敛条件，得到目标视频异常检测模型。

在一个实施例中，所述获取训练视频帧序列和所述训练视频帧序列对应的序列特征信息，包括：

获取训练视频，从所述训练视频中获取多个候选视频帧，所述训练视频对应的视频异常检测结果为视频无异常；对各个候选视频帧进行目标对象检测，得到各个候选视频帧对应的目标对象区域；基于各个目标对象区域得到各个候选视频帧对应的目标对象视频帧，基于各个目标对象视频帧得到初始视频帧序列；对所述初始视频帧序列进行视频帧筛选，得到所述训练视频帧序列；对所述训练视频帧序列进行特征信息提取，得到所述序列特征信息。

在一个实施例中，所述对所述初始视频帧序列进行视频帧筛选，得到所述训练视频帧序列，包括：

基于所述初始视频帧序列对应的视频帧排序信息，依次从所述初始视频帧序列中筛选出一个目标对象视频帧，将筛选后的初始视频帧序列作为中间视频帧序列，得到多个中间视频帧序列，其中，被筛选出的目标对象视频帧为对应的中间视频帧序列的训练筛选视频帧；基于各个中间视频帧序列得到所述训练视频帧序列。

在一个实施例中，所述初始视频异常检测模型包括至少一个特征维度对应的图像特征预测网络；所述将所述训练视频帧序列输入初始视频异常检测模型，得到所述训练筛选视频帧对应的预测特征信息，包括：

将所述训练视频帧序列分别输入各个图像特征预测网络，得到所述训练筛选视频帧对应的各个特征维度的预测图像特征；基于各个预测图像特征得到所述预测特征信息。

在一个实施例中，所述图像特征预测网络包括正向特征预测网络和反向特征预测网络中的至少一种，所述预测图像特征包括正向预测图像特征和反向预测图像特征中的至少一种；所述将所述训练视频帧序列分别输入各个图像特征预测网络，得到所述训练筛选视频帧对应的各个特征维度的预测图像特征，包括：

将所述训练视频帧序列分别输入各个正向特征预测网络，得到各个特征维度对应的正向预测图像特征；将所述训练视频帧序列分别输入各个反向特征预测网络，得到各个特征维度对应的反向预测图像特征。

在一个实施例中，所述基于所述目标特征信息、所述预测特征信息、所述时序正训练样本和所述时序负训练样本，对所述初始视频异常检测模型和所述时序判别模型进行对抗学习，得到对抗损失，包括：

基于所述目标特征信息和所述预测特征信息生成特征损失；将所述时序正训练样本和所述时序负训练样本输入所述时序判别模型，得到所述时序正训练样本对应的正预测标签和所述时序负训练样本对应的负预测标签；基于所述时序正训练样本对应的正预测标签和正样本标签、所述时序负训练样本对应的负预测标签和负样本标签生成时序损失；基于所述特征损失和所述时序损失生成所述对抗损失。

在一个实施例中，所述目标特征信息包括至少两个特征维度对应的目标图像特征，所述预测特征信息包括所述至少两个特征维度对应的预测图像特征；所述基于所述目标特征信息和所述预测特征信息生成特征损失，包括：

从所述目标特征信息和所述预测特征信息中，基于参考特征维度对应的目标图像特征和预测图像特征之间的差异得到第一损失；对所述参考特征维度对应的目标图像特征进行特征变换处理，得到对应的第一更新特征，对所述参考特征维度对应的预测图像特征进行特征变换处理，得到对应的第二更新特征；基于所述第一更新特征和所述第二更新特征之间的差异得到第二损失；从所述目标特征信息和所述预测特征信息中，基于其他特征维度的目标图像特征和预测图像特征之间的差异得到第三损失；基于所述第一损失、所述第二损失和所述第三损失得到所述特征损失。

在一个实施例中，当前图像特征为所述参考特征维度对应的目标图像特征或预测图像特征，对所述当前图像特征进行特征变换处理，得到对应的当前更新特征，包括：

对当前图像特征进行特征压缩，得到第一图像特征；对所述第一图像特征进行特征扩展，得到第二图像特征；所述第二图像特征和当前图像特征具备相同的特征尺寸；基于当前图像特征和所述第二图像特征之间的差异得到目标特征差异；将所述第一图像特征作为更新的当前图像特征，返回所述对当前图像特征进行特征压缩的步骤，直至满足预设条件，得到多个有序排列的目标特征差异；基于各个目标特征差异得到所述当前更新特征。

在一个实施例中，所述基于所述第一更新特征和所述第二更新特征之间的差异得到第二损失，包括：

根据目标特征差异的排序信息，从所述第一更新特征和所述第二更新特征中获取匹配的目标特征差异，基于匹配的目标特征差异计算损失信息，得到多个有序排列的损失子信息；基于各个损失子信息得到所述第二损失。

在一个实施例中，所述方法还包括：

基于所述目标特征信息生成所述初始视频异常检测模型对应的模态判别模型的模态正训练样本，基于所述目标特征信息和所述预测特征信息生成所述模态判别模型对应的模态负训练样本；基于所述目标特征信息、所述预测特征信息、所述模态正训练样本和所述模态负训练样本，对所述初始视频异常检测模型和所述模态判别模型进行对抗学习，得到更新损失；基于所述更新损失调整所述初始视频异常检测模型和所述模态判别模型的模型参数，直至满足收敛条件，得到目标视频异常检测模型。

在一个实施例中，所述目标特征信息包括至少两个特征维度的目标图像特征，所述预测特征信息包括至少两个特征维度的预测图像特征；所述基于所述目标特征信息和所述预测特征信息生成所述模态判别模型对应的模态负训练样本，包括：

基于所述目标特征信息中目标特征维度的目标图像特征和所述预测特征信息中其他特征维度的预测图像特征，生成所述模态负训练样本。

在一个实施例中，所述预测图像特征包括正向预测图像特征和反向预测图像特征，所述基于所述目标特征信息中目标特征维度的目标图像特征和所述预测特征信息中其他特征维度的预测图像特征，生成所述模态负训练样本，包括：

基于所述目标特征维度的目标图像特征和所述其他特征维度的正向预测图像特征生成第一模态负训练样本；对所述其他特征维度的反向预测图像特征进行反向映射，基于所述目标特征维度的目标图像特征和反向映射后的反向预测图像特征生成第二模态负训练样本；基于所述第一模态负训练样本和所述第二模态负训练样本生成所述模态负训练样本。

在一个实施例中，当前特征信息包括内容特征维度和光流特征维度对应的图像特征，所述当前特征信息为所述目标特征信息、所述序列特征信息和所述预测特征信息中的任意一个。

一种视频异常检测模型训练装置，所述装置包括：

信息获取模块，用于获取训练视频帧序列和所述训练视频帧序列对应的序列特征信息，获取所述训练视频帧序列对应的训练筛选视频帧的目标特征信息，所述训练视频帧序列是从初始视频帧序列中过滤所述训练筛选视频帧得到的；

特征信息预测模块，用于将所述训练视频帧序列输入初始视频异常检测模型，得到所述训练筛选视频帧对应的预测特征信息；

训练样本生成模块，用于基于所述目标特征信息和所述序列特征信息生成所述初始视频异常检测模型对应的时序判别模型的时序正训练样本，基于所述序列特征信息和所述预测特征信息生成所述时序判别模型对应的时序负训练样本；

损失确定模块，用于基于所述目标特征信息、所述预测特征信息、所述时序正训练样本和所述时序负训练样本，对所述初始视频异常检测模型和所述时序判别模型进行对抗学习，得到对抗损失；

模型参数调整模块，用于基于所述对抗损失调整所述初始视频异常检测模型和所述时序判别模型的模型参数，直至满足收敛条件，得到目标视频异常检测模型。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

一种视频异常检测方法，所述方法包括：

获取待检测视频对应的待检测视频帧序列，获取所述待检测视频帧序列对应的目标筛选视频帧的标准特征信息，所述待检测视频帧序列是从所述待检测视频对应的目标视频帧序列中过滤所述目标筛选视频帧得到的；

将所述待检测视频帧序列输入目标视频异常检测模型，得到所述目标筛选视频帧对应的估计特征信息；

基于所述标准特征信息和所述估计特征信息之间的特征信息差异确定所述待检测视频对应的视频异常检测结果；

其中，所述目标视频异常检测模型的训练过程包括：获取训练视频帧序列和对应的序列特征信息，获取所述训练视频帧序列对应的训练筛选视频帧的目标特征信息；将所述训练视频帧序列输入初始视频异常检测模型，得到所述训练筛选视频帧对应的预测特征信息；基于所述目标特征信息和所述序列特征信息生成所述初始视频异常检测模型对应的时序判别模型的时序正训练样本，基于所述序列特征信息和所述预测特征信息生成所述时序判别模型对应的时序负训练样本；基于所述目标特征信息、所述预测特征信息、所述时序正训练样本和所述时序负训练样本，对所述初始视频异常检测模型和所述时序判别模型进行对抗训练，直至满足收敛条件，得到目标视频异常检测模型。

在一个实施例中，所述基于所述标准特征信息和所述估计特征信息之间的特征信息差异确定所述待检测视频对应的视频异常检测结果，包括：

当所述特征信息差异大于或等于预设阈值时，确定所述视频异常检测结果为视频异常；当所述特征信息差异小于预设阈值时，确定所述视频异常检测结果为视频无异常。

一种视频异常检测装置，所述装置包括：

数据获取模块，用于获取待检测视频对应的待检测视频帧序列，获取所述待检测视频帧序列对应的目标筛选视频帧的标准特征信息，所述待检测视频帧序列是从所述待检测视频对应的目标视频帧序列中过滤所述目标筛选视频帧得到的；

模型使用模块，用于将所述待检测视频帧序列输入目标视频异常检测模型，得到所述目标筛选视频帧对应的估计特征信息；

检测结果确定模块，用于基于所述标准特征信息和所述估计特征信息之间的特征信息差异确定所述待检测视频对应的视频异常检测结果；

上述视频异常检测模型训练方法、视频异常检测方法、装置、计算机设备和存储介质，获取训练视频帧序列和训练视频帧序列对应的序列特征信息，获取训练视频帧序列对应的训练筛选视频帧的目标特征信息，训练视频帧序列是从初始视频帧序列中过滤训练筛选视频帧得到的，将训练视频帧序列输入初始视频异常检测模型，得到训练筛选视频帧对应的预测特征信息。这样，训练视频帧序列中缺失了训练筛选视频帧，即训练视频帧序列为不完整视频序列，将训练视频帧序列输入视频异常检测模型可以预测训练筛选视频帧的特征信息。基于目标特征信息和序列特征信息生成初始视频异常检测模型对应的时序判别模型的时序正训练样本，基于序列特征信息和预测特征信息生成时序判别模型对应的时序负训练样本，基于目标特征信息、预测特征信息、时序正训练样本和时序负训练样本，对初始视频异常检测模型和时序判别模型进行对抗学习，得到对抗损失，基于对抗损失调整初始视频异常检测模型和时序判别模型的模型参数，直至满足收敛条件，得到目标视频异常检测模型。这样，目标特征信息和序列特征信息为准确的特征信息，预测特征信息为通过模型预测得到的特征信息，基于准确的特征信息生成正样本，基于准确的特征信息和预测得到的特征信息生成负样本，通过目标特征信息、预测特征信息、正样本和负样本对视频异常检测模型和时序判别模型进行对抗学习来进行模型训练，可以借助时序判别模型来提高视频异常检测模型的预测能力，从而训练得到检测准确性较高的视频异常检测模型。

附图说明

图1为一个实施例中视频异常检测模型训练方法、视频异常检测方法的应用环境图；

图2为一个实施例中视频异常检测模型训练方法的流程示意图；

图3为一个实施例中获取训练视频帧序列和对应的序列特征信息的流程示意图；

图4为一个实施例中生成不完整视频帧序列的流程示意图；

图5A为一个实施例中对抗学习的流程示意图；

图5B为另一个实施例中对抗学习的流程示意图；

图6为一个实施例中视频异常检测方法的流程示意图；

图7A为一个实施例中双向预测网络的示意图；

图7B为一个实施例中多模态判别器的示意图；

图7C为一个实施例中时序判别器的流程示意图；

图7D为一个实施例中实验对比结果的示意图；

图8为一个实施例中视频异常检测模型训练装置的结构框图；

图9为一个实施例中视频异常检测装置的结构框图；

图10为一个实施例中计算机设备的内部结构图；

图11为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

人工智能(Artificial Intelligence, AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision, CV)是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能***。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

自然语言处理(Nature Language processing, NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

机器学习(Machine Learning, ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

本申请实施例提供的方案涉及人工智能的计算机视觉技术、自然语言处理、机器学习等技术，具体通过如下实施例进行说明：

本申请提供的视频异常检测模型训练方法、视频异常检测方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、便携式可穿戴设备和车载终端等，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群或云服务器来实现。

终端102和服务器104均可单独用于执行本申请实施例中提供的视频异常检测模型训练方法、视频异常检测方法。

例如，服务器获取训练视频帧序列和训练视频帧序列对应的序列特征信息，获取训练视频帧序列对应的训练筛选视频帧的目标特征信息，其中，训练视频帧序列是从初始视频帧序列中过滤训练筛选视频帧得到的。服务器将训练视频帧序列输入初始视频异常检测模型，得到训练筛选视频帧对应的预测特征信息，基于目标特征信息和序列特征信息生成初始视频异常检测模型对应的时序判别模型的时序正训练样本，基于序列特征信息和预测特征信息生成时序判别模型对应的时序负训练样本。服务器获取基于目标特征信息、预测特征信息、时序正训练样本和时序负训练样本，对初始视频异常检测模型和时序判别模型进行对抗学习，得到对抗损失，基于对抗损失调整初始视频异常检测模型和时序判别模型的模型参数，直至满足收敛条件，得到目标视频异常检测模型。服务器可以通过目标视频异常检测模型对待检测视频进行视频异常检测。

终端102和服务器104也可协同用于执行本申请实施例中提供的视频异常检测模型训练方法、视频异常检测。

例如，服务器从终端获取训练视频帧序列和训练视频帧序列对应的序列特征信息，获取训练视频帧序列对应的训练筛选视频帧的目标特征信息。服务器将训练视频帧序列输入初始视频异常检测模型，得到训练筛选视频帧对应的预测特征信息，基于目标特征信息和序列特征信息生成初始视频异常检测模型对应的时序判别模型的时序正训练样本，基于序列特征信息和预测特征信息生成时序判别模型对应的时序负训练样本。服务器获取基于目标特征信息、预测特征信息、时序正训练样本和时序负训练样本，对初始视频异常检测模型和时序判别模型进行对抗学习，得到对抗损失，基于对抗损失调整初始视频异常检测模型和时序判别模型的模型参数，直至满足收敛条件，得到目标视频异常检测模型。服务器可以将目标视频异常检测模型发送至终端，在终端上通过目标视频异常检测模型进行视频异常检测。终端获取待检测视频对应的待检测视频帧序列，获取待检测视频帧序列对应的目标筛选视频帧的标准特征信息。终端将待检测视频帧序列输入目标视频异常检测模型，得到目标筛选视频帧对应的估计特征信息，基于标准特征信息和估计特征信息之间的特征信息差异确定待检测视频对应的视频异常检测结果。

进一步的，本申请涉及区块链技术，区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。本申请中的序列特征信息、目标特征信息、时序训练样本、模态训练样本等数据可以存储在区块链上。

在一个实施例中，如图2所示，提供了一种视频异常检测模型训练方法，以该方法应用于图1中的计算机为例进行说明，可以理解的是，计算机设备可以是终端102，也可以是服务器104。本实施例中，视频异常检测模型训练方法包括以下步骤：

步骤S202，获取训练视频帧序列和训练视频帧序列对应的序列特征信息，获取训练视频帧序列对应的训练筛选视频帧的目标特征信息，训练视频帧序列是从初始视频帧序列中过滤训练筛选视频帧得到的。

其中，训练视频帧序列是视频异常检测模型对应的训练样本。训练视频帧序列是从初始视频帧序列中过滤训练筛选视频帧得到的，即相对于初始视频帧序列而言，训练视频帧序列为不完整视频帧序列。初始视频帧序列包括多个视频帧，各个视频帧可以是连续的视频帧，例如，初始视频帧序列包括连续的5个视频帧，具体为视频帧1-5。当然，各个视频帧也可以是非连续的视频帧，例如，初始视频帧序列包括视频帧1、视频帧3、视频帧5、视频帧7和视频帧10。可以理解，初始视频帧序列中各个视频帧可以只包含前景图像区域，也可以包含前景图像区域和背景图像区域。前景图像区域具体可以是指目标对象所在图像区域。

训练筛选视频帧是指训练视频帧序列对应的筛选视频帧。筛选视频帧是指从初始视频帧序列中筛选出的视频帧。例如，初始视频帧序列包括视频帧1-5，将视频帧3从初始视频帧序列中筛选并过滤，得到训练视频帧序列，该训练视频帧序列包括视频帧1、视频帧2、视频帧4和视频帧5。

序列特征信息是指训练视频帧序列对应的准确特征信息、真实特征信息。序列特征信息包括训练视频帧序列中各个视频帧对应的特征信息。例如，训练视频帧序列包括视频帧1、视频帧2、视频帧4和视频帧5，序列特征信息包括视频帧1、视频帧2、视频帧4和视频帧5分别对应的特征信息。目标特征信息是指训练筛选视频帧对应的准确特征信息。特征信息包括至少一个特征维度的图像特征，例如，特征信息包括光流特征（即运动特征）、内容特征、光谱特征、语义特征等图像特征。当前视频帧对应的图像特征可以是基于当前视频帧和当前视频帧对应的至少一个相邻视频帧得到的，例如，基于视频帧1和视频帧2计算两帧图像之间的位移，基于该位移得到视频帧1对应的光流特征。当前视频帧对应的图像特征也可以是基于当前视频帧得到的。例如，内容特征是基于视频帧中各个像素点的像素信息得到的，语义特征是基于视频帧中文本信息得到的。

具体地，计算机设备可以在本地或从其他终端、服务器上获取训练视频帧序列、对应的训练筛选视频帧、训练视频帧序列对应的序列特征信息以及训练筛选视频帧对应的目标特征信息。例如，计算机设备从终端获取训练视频，从训练视频中提取初始视频帧序列，对初始视频帧序列进行视频帧筛选，将筛选后的初始视频帧序列作为训练视频帧序列，将筛选出的视频帧作为训练视频帧序列对应的训练筛选视频帧。进一步的，计算机设备对训练视频帧序列进行特征提取得到训练视频帧序列对应的序列特征信息，对训练筛选视频帧进行特征提取得到训练筛选视频帧对应的目标特征信息。计算机设备可以通过自定义算法来进行特征提取。

步骤S204，将训练视频帧序列输入初始视频异常检测模型，得到训练筛选视频帧对应的预测特征信息。

其中，初始视频异常检测模型是指待训练的视频异常检测模型。视频异常检测模型是机器学习模型，用于预测筛选视频帧对应的特征信息，从而基于预测结果来确定视频是否发生异常。预测特征信息是指训练筛选视频帧对应的推测出来的特征信息，是基于训练筛选视频帧之外的各个视频帧推测得到的特征信息。

具体地，计算机设备可以将训练视频帧序列输入初始视频异常检测模型，初始视频异常检测模型对训练视频帧序列进行图像分析，从而输出训练筛选视频帧对应的预测特征信息。可以理解，训练视频帧序列和训练筛选视频帧组成对应的初始视频帧序列，初始视频帧序列中各个视频帧之间具有一定的关联性和连贯性，因此，视频异常检测模型可以基于训练视频帧序列预测对应的训练筛选视频帧的特征信息。例如，训练视频帧序列包括视频帧1、视频帧2、视频帧4和视频帧5，训练筛选视频帧为视频帧3，视频异常检测模型可以基于视频帧1、视频帧2、视频帧4和视频帧5来预测视频帧3的特征信息。

步骤S206，基于目标特征信息和序列特征信息生成初始视频异常检测模型对应的时序判别模型的时序正训练样本，基于序列特征信息和预测特征信息生成时序判别模型对应的时序负训练样本。

其中，时序判别模型是从多个视频帧之间的时序性、连贯性角度出发去约束视频异常检测模型的特征信息预测。时序判别模型对应的训练样本是基于多个视频帧（训练筛选视频帧和训练视频帧序列）的相关信息生成的。时序正训练样本是指时序判别模型对应的正训练样本，时序负训练样本是指时序判别模型对应的负训练样本。时序判别模型的输入数据为初始视频帧序列对应的图像特征，即时序判别模型的输入数据为由多个视频帧分别对应的图像特征按照时序组成的特征信息。时序判别模型的输出数据为输入数据对应的预测标签。时序正训练样本是基于准确特征信息按照时序生成的训练样本。时序正训练样本对应正训练标签，例如，正训练标签可以为“真”。时序负训练样本是基于准确特征信息和预测特征信息按照时序生成的训练样本。时序负训练样本对应负训练标签，例如，负训练标签可以为“假”。视频异常检测模型存在对应的时序判别模型，时序判别模型用于将视频异常检测模型输出的预测特征信息从准确特征信息中尽可能分辨出来。视频异常检测模型对应的时序判别模型可以包括至少一个。

具体地，针对时序判别模型，计算机设备可以按照训练筛选视频帧在训练视频帧序列中的视频帧位置，将目标特征信息和序列特征信息进行组合来生成时序判别模型对应的正训练样本。计算机设备可以按照训练筛选视频帧在训练视频帧序列中的视频帧位置，将预测特征信息和序列特征信息进行组合来生成时序判别模型对应的负训练样本。时序正训练样本的预期输出标签为正标签，时序负训练样本的预期输出标签为负标签。

可以理解，时序判别模型可以是一个时序判别综合模型，时序判别模型也可以包括各个特征维度分别对应的时序判别子模型。以训练视频帧序列包括视频帧1、视频帧2和视频帧4，对应的训练筛选视频帧为视频帧3为例进行说明。若时序判别模型为时序判别综合模型，计算机设备可以将某一视频帧对应的多个特征维度的图像特征进行融合得到融合特征，得到各个视频帧对应的目标融合特征和预测融合特征。其中，目标融合特征是基于目标特征信息得到的，预测融合特征是基于预测特征信息得到的。计算机设备将视频帧1、视频帧2、视频帧3和视频帧4对应的目标融合特征按照时序进行排序得到的组合特征信息作为时序判别综合模型对应的正训练样本，将视频帧1、视频帧2、视频帧4对应的目标融合特征和视频帧3对应的预测融合特征按照时序进行排序得到的组合特征信息作为时序判别综合模型对应的负训练样本。

若时序判别模型包括多个时序判别子模型，以特征信息包括内容特征维度的图像特征为例，计算机设备可以将视频帧1、视频帧2、视频帧3和视频帧4对应的准确内容特征按照时序进行排序得到的组合特征信息作为内容时序判别子模型对应的正训练样本，可以将视频帧1、视频帧2、视频帧4对应的准确内容特征和视频帧3对应的预测内容特征按照时序进行排序得到的组合特征信息作为内容时序判别子模型对应的负训练样本。

步骤S208，基于目标特征信息、预测特征信息、时序正训练样本和时序负训练样本，对初始视频异常检测模型和时序判别模型进行对抗学习，得到对抗损失。

其中，对抗学习是指通过让至少两个机器学习模型以相互博弈的方式进行学习，从而训练得到期望的机器学习模型。将初始视频异常检测模型和时序判别模型进行对抗学习，初始视频异常检测模型的目标是根据输入数据得到所期望的输出数据。时序判别模型的目标是将初始视频异常检测模型预测出的数据从真实准确的数据中尽可能分辨出来。初始视频异常检测模型和时序判别模型相互对抗学习、不断调整参数，最终目的是让初始视频异常检测模型要尽可能地欺骗时序判别模型，使时序判别模型无法判断初始视频异常检测模型的输出结果是否真实。

具体地，计算机设备可以基于目标特征信息、预测特征信息、时序正训练样本和时序负训练样本，对初始视频异常检测模型和时序判别模型进行对抗学习，基于初始视频异常检测模型对应的输出数据和预期数据、时序判别模型对应的输出数据和预期数据计算对抗损失。

步骤S210，基于对抗损失调整初始视频异常检测模型和时序判别模型的模型参数，直至满足收敛条件，得到目标视频异常检测模型。

其中，目标视频异常检测模型是指训练完成的视频异常检测模型。收敛条件可以是损失达到预设损失范围，模型迭代次数达到预测迭代阈值等中的至少一种。

具体地，计算机设备可以基于对抗损失调整初始视频异常检测模型和时序判别模型的模型参数，时序判别模型中参数的调整方向是朝着使时序判别模型的损失值变小的方向进行调整，使得时序判别模型的判别能力变强，而初始视频异常检测模型中参数的调整方向是朝着使初始视频异常检测模型的损失值变小、时序判别模型的损失值变大的方向进行调整，使得时序判别模型不容易将初始视频异常检测模型的预测数据从真实数据中尽可能分辨出来。在进行对抗学***衡，从而得到已训练的视频异常检测模型和时序判别模型。已训练的视频异常检测模型（即目标视频异常检测模型）最终可以预测得到高质量的、以假乱真的特征信息。

上述视频异常检测模型训练方法中，获取训练视频帧序列和训练视频帧序列对应的序列特征信息，获取训练视频帧序列对应的训练筛选视频帧的目标特征信息，训练视频帧序列是从初始视频帧序列中过滤训练筛选视频帧得到的，将训练视频帧序列输入初始视频异常检测模型，得到训练筛选视频帧对应的预测特征信息。这样，训练视频帧序列中缺失了训练筛选视频帧，即训练视频帧序列为不完整视频序列，将训练视频帧序列输入视频异常检测模型可以预测训练筛选视频帧的特征信息。基于目标特征信息和序列特征信息生成初始视频异常检测模型对应的时序判别模型的时序正训练样本，基于序列特征信息和预测特征信息生成时序判别模型对应的时序负训练样本，基于目标特征信息、预测特征信息、时序正训练样本和时序负训练样本，对初始视频异常检测模型和时序判别模型进行对抗学习，得到对抗损失，基于对抗损失调整初始视频异常检测模型和时序判别模型的模型参数，直至满足收敛条件，得到目标视频异常检测模型。这样，目标特征信息和序列特征信息为准确的特征信息，预测特征信息为通过模型预测得到的特征信息，基于准确的特征信息生成正样本，基于准确的特征信息和预测得到的特征信息生成负样本，通过目标特征信息、预测特征信息、正样本和负样本对视频异常检测模型和时序判别模型进行对抗学习来进行模型训练，可以借助时序判别模型来提高视频异常检测模型的预测能力，从而训练得到检测准确性较高的视频异常检测模型。

在一个实施例中，参考图3，获取训练视频帧序列和训练视频帧序列对应的序列特征信息，包括：

步骤S302，获取训练视频，从训练视频中获取多个候选视频帧，训练视频对应的视频异常检测结果为视频无异常。

其中，训练视频包括多个连续的视频帧，用于生成视频异常检测模型对应的训练样本。训练视频对应的视频异常检测结果为视频无异常，即训练视频为无异常视频，训练视频为正常视频。训练视频对应的视频异常检测结果可以是人工判定的。

具体地，计算机设备可以获取训练视频，从训练视频中抽取若干视频帧作为候选视频帧，从而得到多个候选视频帧。各个候选视频帧可以是连续的视频帧，也可以是非连续的视频帧。例如，训练视频包括视频帧1-20，计算机设备可以从训练视频中抽取视频帧5-10作为候选视频帧，计算机设备也可以从训练视频中抽取奇数帧或偶数帧作为候选视频帧。

进一步的，训练视频具体可以是无异常的视频，即正常视频。可以理解，正常视频比异常视频更易获取到，正常视频的数量远远大于异常视频的数量。并且，相比于正常视频，异常视频可能包括各种各样复杂的异常情况，模型难以很好学习到所有复杂情况的知识。因此，相比较而言，正常视频中的视频帧是容易预测或可预测的，异常视频中的视频帧是难预测或不可预测的。因此，基于正常视频来生成视频异常检测模型对应的训练样本，可以保障视频异常检测模型准确学习到正常视频的相关知识，从而提高视频异常检测模型的准确性。

步骤S304，对各个候选视频帧进行目标对象检测，得到各个候选视频帧对应的目标对象区域。

步骤S306，基于各个目标对象区域得到各个候选视频帧对应的目标对象视频帧，基于各个目标对象视频帧得到初始视频帧序列。

其中，目标对象检测是指从视频帧中检测出目标对象所在图像区域。目标对象具体可以是独立的生命体或者物体，比如行人、车辆、动物等。目标对象区域是指在候选视频帧中目标对象所在图像区域。目标对象视频帧是指只包含目标对象区域的图像。

具体地，计算机设备可以对各个候选视频帧进行目标对象检测，得到各个候选视频帧对应的目标对象区域。计算机设备可以将候选视频帧输入目标对象检测模型，目标对象检测模型在候选视频帧中用定位框将目标对象所在图像区域标注出来，例如，在候选视频帧中用一个矩形框来框出目标对象所处的位置区域。计算机设备也可以基于目标对象检测算法对候选视频帧进行数据分析，从而得到目标对象所在图像区域。计算机设备可以将各个目标对象区域作为各个候选视频帧分别对应的目标对象视频帧，将各个目标对象视频帧按照时间顺序进行排序得到初始视频帧序列。

在一个实施例中，计算机设备可以通过模型或算法对各个候选视频帧分别进行目标对象检测，从而得到各个候选视频帧对应的目标对象区域。为了提高检测效率，计算机设备也可以先通过模型或算法对其中一个候选视频帧进行目标对象检测，得到该候选视频帧对应的目标对象区域，计算机设备基于该候选视频帧对应的目标对象区域确定其他候选视频帧对应的目标对象区域。例如，候选视频帧包括视频帧1-5，计算机设备对视频帧1进行目标对象检测，得到视频帧1中目标对象对应的定位框，该定位框所在区域即为视频帧1对应的目标对象区域。计算机设备固定该定位框对应的定位框坐标，基于该定位框坐标抠出后面4帧同样坐标位置的区域作为视频帧2-5对应的目标对象区域。可以理解，临近的多个视频帧之间目标对象的运动通常比较缓慢、细微，因此，基于一个视频帧对应的目标对象区域来确定临近视频帧的目标对象区域也可以得到比较准确的结果。

在一个实施例中，为了提高数据处理效率，可以将各个目标对象区域转换为统一尺寸的图像区域，例如，转换为32*32大小的图像区域。

步骤S308，对初始视频帧序列进行视频帧筛选，得到训练视频帧序列。

其中，视频帧筛选是指从初始视频帧序列中筛选过滤掉至少一个视频帧。

具体地，得到初始视频帧序列后，计算机设备可以对初始视频帧序列进行视频帧筛选，将筛选后的视频帧序列作为训练视频帧序列，将筛选出的视频帧作为训练视频帧序列对应的训练筛选视频帧。可以理解，基于同一初始视频帧序列可以得到至少一个训练视频帧序列。例如，初始视频帧序列包括视频帧1-5，若从初始视频帧序列中筛选出一个视频帧，那么训练视频帧序列可以包括{视频帧2、视频帧3、视频帧4和视频帧5}、{视频帧1、视频帧3、视频帧4和视频帧5}、{视频帧1、视频帧2、视频帧4和视频帧5}、{视频帧1、视频帧2、视频帧3和视频帧5}和{视频帧1、视频帧2、视频帧3和视频帧4}中的至少一种。

步骤S310，对训练视频帧序列进行特征信息提取，得到序列特征信息。

具体地，在得到训练视频帧序列后，计算机设备可以对训练视频帧序列中各个视频帧进行特征信息提取，从而得到序列特征信息。例如，计算机设备可以计算训练视频帧序列中相邻视频帧之间的位移信息，得到训练视频帧序列中各个视频帧对应的位移信息，基于各个位移信息得到序列特征信息中运动特征维度的图像特征。计算机设备可以基于训练视频帧序列中各个视频帧对应的像素信息得到序列特征信息中内容特征维度的图像特征。计算机设备也可以基于训练视频帧序列中各个视频帧对应的文本信息作为序列特征信息中语义特征维度的图像特征。计算机设备可以基于自定义算法对训练视频帧序列进行特征信息提取，得到序列特征信息。

本实施例中，通过从正常视频中抽取视频帧，对抽取出的视频帧进行目标对象检测定位目标对象区域，基于目标对象区域生成初始视频帧序列，对初始视频帧序列进行视频帧筛选得到训练视频帧序列，对训练视频帧序列进行特征信息提取得到序列特征信息。训练视频帧序列中的视频帧主要包含目标对象的相关信息，这样有利于让视频检测模型有针对性地学习目标对象的相关知识，进而准确预测视频中的目标对象是否发生异常。

在一个实施例中，对初始视频帧序列进行视频帧筛选，得到训练视频帧序列，包括：

基于初始视频帧序列对应的视频帧排序信息，依次从初始视频帧序列中筛选出一个目标对象视频帧，将筛选后的初始视频帧序列作为中间视频帧序列，得到多个中间视频帧序列；其中，被筛选出的目标对象视频帧为对应的中间视频帧序列的训练筛选视频帧；基于各个中间视频帧序列得到训练视频帧序列。

其中，视频帧排序信息是指初始视频帧序列中各个目标对象视频帧的排列顺序。

具体地，计算机设备基于初始视频帧序列对应的视频帧排序信息，可以从初始视频帧序列中依次筛选出一个目标对象视频帧，每次筛选可以得到一个中间视频帧序列和对应的训练筛选视频帧。计算机设备可以将筛选后的初始视频帧序列作为中间视频帧序列，也就是，将筛选过滤掉一个目标对象视频帧后剩余的目标对象视频帧组成中间视频帧序列，从而得到多个中间视频帧序列。在每轮筛选中，计算机设备被筛选出的目标对象视频帧作为对应的中间视频帧序列的训练筛选视频帧。计算机设备可以将各个中间视频帧序列分别作为一个训练视频帧序列。

举例说明，初始视频帧序列包括视频帧1-视频帧2-视频帧3-视频4。计算机设备基于视频帧排序信息对该初始视频帧序列进行视频帧筛选可以得到4个中间视频帧序列，分别为{视频帧2-视频帧3-视频4}（对应的训练筛选视频帧为视频帧1）、{视频帧1-视频帧3-视频4}（对应的训练筛选视频帧为视频帧2）、{视频帧1-视频帧2-视频4}（对应的训练筛选视频帧为视频帧3）、{视频帧1-视频帧2-视频帧3}（对应的训练筛选视频帧为视频帧4）。

本实施例中，基于同一初始视频帧序列可以得到多个不同的训练视频帧序列和各个训练视频帧序列对应的训练筛选视频帧。这样，基于少量的原始数据得到大量的训练样本，能够充分利用现有的原始数据来扩充视频异常检测模型的训练样本。

参考图4，从训练视频中获取5个连续视频帧作为候选视频帧。从各个候选视频帧中选取最后一个视频帧作为目标视频帧，对目标视频帧进行目标对象检测，得到目标视频帧对应的目标对象区域，该目标对象区域是通过定位框在目标视频帧中标注出来的图像区域。固定目标视频帧的定位框坐标，抠出目标视频帧的4个前向视频帧中同样坐标位置的图像区域作为前向视频帧对应的目标对象区域。这5个目标对象区域分别作为新的视频帧，组成初始视频帧序列。针对初始视频帧序列，通过依次删除其中一个视频帧来获得 5种不同位置上的不完整视频帧序列。不完整视频帧序列即为训练视频帧序列，被删除的视频帧即为训练筛选视频帧。

在一个实施例中，初始视频异常检测模型包括至少一个特征维度对应的图像特征预测网络。将训练视频帧序列输入初始视频异常检测模型，得到训练筛选视频帧对应的预测特征信息，包括：

将训练视频帧序列分别输入各个图像特征预测网络，得到训练筛选视频帧对应的各个特征维度的预测图像特征；基于各个预测图像特征得到预测特征信息。

其中，初始视频异常检测模型包括至少一个特征维度的图像特征预测网络。一个图像特征预测网络用于预测筛选视频帧某一特征维度的图像特征。

具体地，计算机设备可以将训练视频帧序列分别输入各个图像特征预测网络，通过各个图像特征预测网络分别对训练视频帧序列进行数据处理，基于各个图像特征预测网络的预测结果可以得到训练筛选视频帧在各个特征维度对应的预测图像特征，最后将各个预测图像特征组成训练筛选视频帧对应的预测特征信息。以初始视频异常检测模型包括内容特征维度的内容特征预测网络和光流特征维度的光流特征预测网络为例，计算机设备将训练视频帧序列输入内容特征预测网络，可以预测得到训练筛选视频帧在内容特征维度对应的预测内容特征，将训练视频帧序列输入光流特征预测网络，可以预测得到训练筛选视频帧在光流特征维度对应的预测光流特征。当然，初始视频异常检测模型还可以包括其他特征维度的图像特征预测网络。

本实施例中，初始视频异常检测模型包括至少一个特征维度的图像特征预测网络，通过不同的图像特征预测网络来预测不同特征维度的图像特征，这样可以提高特征信息的预测准确性。

在一个实施例中，图像特征预测网络包括正向特征预测网络和反向特征预测网络中的至少一种，预测图像特征包括正向预测图像特征和反向预测图像特征中的至少一种。将训练视频帧序列分别输入各个图像特征预测网络，得到训练筛选视频帧对应的各个特征维度的预测图像特征，包括：

将训练视频帧序列分别输入各个正向特征预测网络，得到各个特征维度对应的正向预测图像特征；将训练视频帧序列分别输入各个反向特征预测网络，得到各个特征维度对应的反向预测图像特征。

其中，正向特征预测网络是基于正序输入的训练视频帧序列预测对应的训练筛选视频帧在某一特征维度的正向图像特征。反向特征预测网络是基于反序输入的训练视频帧序列预测对应的训练筛选视频帧在某一特征维度的反向图像特征。

具体地，图像特征预测网络可以包括正向特征预测网络和反向特征预测网络中的至少一种。计算机设备可以将训练视频帧序列正序输入各个特征维度对应的正向特征预测网络，从而得到各个特征维度对应的正向预测图像特征。例如，训练视频帧序列包括视频帧1、视频帧2和视频帧4，该训练视频帧序列对应的训练筛选视频帧为视频帧3。计算机设备可以将该训练视频帧序列以1-2-4的排序输入正向内容特征预测网络，得到正向预测内容特征。计算机设备可以将训练视频帧序列逆序输入各个特征维度对应的反向特征预测网络，从而得到各个特征维度对应的反向预测图像特征。例如，计算机设备将训练视频帧序列以4-2-1的排序输入反向内容特征预测网络，得到反向预测内容特征。最后，计算机设备基于各个特征维度对应的正向预测图像特征和反向预测图像特征可以得到各个特征维度对应的预测图像特征。

本实施例中，在通过图像特征预测网络预测筛选视频帧的图像特征时，基于正向特征预测网络进行特征预测可以考虑到前向传播的视频信息，基于反向特征预测网络进行特征预测可以考虑到反向传播的视频信息。这样，通过双向网络对初始视频帧序列中任意一帧进行预测，可以充分运用视频帧序列中包含的前向视频信息和后向视频信息，从而有助于提高特征信息的预测准确性。

在一个实施例中，序列特征信息包括训练视频帧序列中各个训练视频帧对应的训练特征信息，训练特征信息、目标特征信息和预测特征信息均包括至少一个特征维度的图像特征，训练筛选视频帧和训练视频帧均携带视频帧时间戳。

基于目标特征信息和序列特征信息生成初始视频异常检测模型对应的时序判别模型的时序正训练样本，基于序列特征信息和预测特征信息生成时序判别模型对应的时序负训练样本，包括：

基于训练筛选视频帧和各个训练视频帧对应的视频帧时间戳确定特征时序信息；基于特征时序信息，将目标特征信息和训练特征信息中同一特征维度的图像特征进行组合，得到各个特征维度对应的时序正训练样本；基于特征时序信息，将预测特征信息和训练特征信息中同一特征维度的图像特征进行组合，得到各个特征维度对应的时序负训练样本。

其中，训练特征信息是指训练视频帧对应的真实特征信息。训练视频帧序列中各个视频帧即为训练视频帧。可以理解，训练视频帧序列对应的序列特征信息是由各个训练视频帧对应的训练特征信息组成的。训练特征信息、目标特征信息和预测特征信息均包括至少一个特征维度的图像特征。

训练筛选视频帧和训练视频帧均携带视频帧时间戳，视频帧时间戳可以用于标识视频帧之间的先后顺序。特征时序信息用于确定训练筛选视频帧和训练视频帧之间特征信息的排序，具体可以是按照时间前后顺序进行排序。

具体地，计算机设备基于训练筛选视频帧和各个训练视频帧对应的视频帧时间戳可以确定特征时序信息。进而，基于特征时序信息，计算机设备可以将目标特征信息和训练特征信息中同一特征维度的图像特征进行组合，从而得到各个特征维度对应的时序正训练样本。基于特征时序信息，计算机设备可以将预测特征信息和训练特征信息中同一特征维度的图像特征进行组合，得到各个特征维度对应的时序负训练样本。

以语义特征维度的图像特征为例，假设训练视频帧序列包括视频帧1、视频2和视频帧4，对应的训练筛选视频帧为视频帧3。计算机设备可以将视频帧1、视频2、视频帧3和视频帧4分别对应的真实语义特征按照1-2-3-4的顺序进行排列得到语义特征维度对应的时序正训练样本。计算机设备可以将视频帧1、视频2、视频帧4分别对应的真实语义特征和视频帧3对应的预测语义特征按照1-2-3-4的顺序进行排列得到语义特征维度对应的时序负训练样本。

可以理解，时序正训练样本和时序负训练样本可以进一步包括正向和反向的时序训练样本。正向的时序训练样本是按照时间从早到晚对特征信息进行排序得到的，反向的时序训练样本是按照时间从晚到早对特征信息进行排序得到的。

本实施例中，时序判别模型对应的训练样本是基于同一特征维度的图像特征生成的，正训练样本是基于准确的特征信息生成的，负训练样本是混合准确和预测的特征信息生成的。基于这样的训练样本，时序判别模型可以学习到同一特征维度的图像特征之间的时序一致性，来进一步辅助图像特征预测网络更好地预测图像特征。

在一个实施例中，基于目标特征信息、预测特征信息、时序正训练样本和时序负训练样本，对初始视频异常检测模型和时序判别模型进行对抗学习，得到对抗损失，包括：

基于目标特征信息和预测特征信息生成特征损失；将时序正训练样本和时序负训练样本输入时序判别模型，得到时序正训练样本对应的正预测标签和时序负训练样本对应的负预测标签；基于时序正训练样本对应的正预测标签和正样本标签、时序负训练样本对应的负预测标签和负样本标签生成时序损失；基于特征损失和时序损失生成对抗损失。

具体地，特征损失是基于初始视频异常检测模型的输出数据和预期数据计算得到的。初始视频异常检测模型的目标是让预测特征信息接近于目标特征信息，即目标特征信息为预期数据。因此，计算机设备可以基于目标特征信息和预测特征信息计算特征损失，具体可以是计算目标特征信息和预测特征信息之间的差异作为特征损失。例如，计算目标特征信息和预测特征信息的欧式距离作为特征损失。可以理解，针对不同特征维度的特征信息，可以采用相同或不同方式来计算对应的特征子损失，然后综合各个特征维度的特征子损失得到特征损失。针对一个特征维度的特征信息也可以采用多种方式来计算得到特征子损失。

时序损失是指时序判别模型对应的损失值。时序损失是基于时序判别模型的输出数据和预期数据计算得到的。时序判别模型的目标是让预测标签接近于训练标签（样本标签），即训练标签（样本标签）为预期数据。计算机设备可以将时序正训练样本和时序负训练样本分别输入时序判别模型，将时序判别模型的输出作为时序正训练样本对应的正预测标签和时序负训练样本对应的负预测标签。进而，计算机设备可以基于时序正训练样本对应的正预测标签和正样本标签、时序负训练样本对应的负预测标签和负样本标签计算时序损失，具体可以是计算正预测标签和正样本标签之间的差异，负预测标签和负样本标签之间的差异，综合两种差异得到时序损失。

最后，计算机设备可以基于特征损失和时序损失得到对抗损失。

本实施例中，对抗损失包括特征损失和时序损失，特征损失是基于视频异常检测模型的输出数据和预期数据生成的，时序损失是基于时序判别模型的输出数据和预期数据生成的，通过特征损失和时序损失来进行模型训练可以综合提高视频异常检测模型和时序判别模型的能力。

在一个实施例中，目标特征信息包括至少两个特征维度对应的目标图像特征，预测特征信息包括至少两个特征维度对应的预测图像特征。

基于目标特征信息和预测特征信息生成特征损失，包括：

从目标特征信息和预测特征信息中，基于参考特征维度对应的目标图像特征和预测图像特征之间的差异得到第一损失；对参考特征维度对应的目标图像特征进行特征变换处理，得到对应的第一更新特征，对参考特征维度对应的预测图像特征进行特征变换处理，得到对应的第二更新特征；基于第一更新特征和第二更新特征之间的差异得到第二损失；从目标特征信息和预测特征信息中，基于其他特征维度的目标图像特征和预测图像特征之间的差异得到第三损失；基于第一损失、第二损失和第三损失得到特征损失。

其中，目标图像特征是指训练筛选视频帧在某一特征维度对应的准确图像特征，预测图像特征是指训练筛选视频帧在某一特征维度对应的预测图像特征。

特征变换处理是对图像特征进行进一步的特征提取，例如，特征变换处理可以包括对图像特征进行特征压缩、特征扩展、将特征变换处理前后的图像特征进行特征融合等处理中的至少一种。特征融合可以是特征相加、特征相减等处理。第一更新特征是指对参考特征维度对应的目标图像特征进行特征变换处理得到的数据。第二更新特征是指对参考特征维度对应的预测图像特征进行特征变换处理得到的数据。

参考特征维度可以根据需要进行设置，例如，将内容特征维度作为参考特征维度。在一个实施例中，参考特征维度对应的图像特征可以是由多个数据组成的信息，从而后续进行特征变换处理可以提炼出更有价值的信息。也就是，参考特征维度对应的图像特征可以是由复杂数据组成的，针对复杂数据，可以通过进一步进行特征提取来得到高价值信息。可以理解，对由单一数据组成的图像特征进行特征变换处理的意义、价值不高。在一个实施例中，目标特征维度和参考特征维度可以是相同的特征维度。

具体地，为了提高特征损失的准确性，特征损失可以包括通过不同方式计算得到的特征子损失。可以将各个特征维度划分为参考特征维度和其他特征维度，相应的，特征损失可以包括参考特征维度对应的特征子损失和其他特征维度对应的特征子损失。参考特征维度对应的特征子损失包括第一损失和第二损失，第一损失和第二损失是通过不同方法计算得到的。其他特征维度对应的特征子损失包括第三损失。

从目标特征信息和预测特征信息中，计算机设备基于参考特征维度对应的目标图像特征和预测图像特征之间的差异可以计算得到第一损失，例如，计算参考特征维度对应的目标图像特征和预测图像特征之间的欧式距离或差值或均方根得到第一损失。进一步的，计算机设备可以对参考特征维度对应的目标图像特征进行特征变换处理，得到对应的第一更新特征，对参考特征维度对应的预测图像特征进行特征变换处理，得到对应的第二更新特征。然后，计算机设备可以基于第一更新特征和第二更新特征之间的差异得到第二损失，例如，计算第一更新特征和第二更新特征之间的欧式距离得到第二损失。

从目标特征信息和预测特征信息中，计算机设备基于其他特征维度的目标图像特征和预测图像特征之间的差异可以计算得到第三损失，例如，计算同一特征维度对应的目标图像特征和预测图像特征之间的欧式距离得到第二损失。

最终，计算机设备基于第一损失、第二损失和第三损失得到特征损失。

在一个实施例中，若预测图像特征包括正向预测图像特征和反向预测图像特征，计算同一特征维度的目标图像特征和预测图像特征之间的差异具体可以包括计算该目标图像特征和正向预测图像特征之间的差异，计算该目标图像特征和反向预测图像特征之间的差异，综合两种差异得到一个特征维度对应的特征子损失。

本实施例中，特征损失包括第一损失、第二损失和第三损失，第一损失、第二损失和第三损失是基于不同的数据计算得到的，表征不同角度的特征信息损失，因此，融合了第一损失、第二损失和第三损失的特征损失可以全面综合地提高模型训练的准确性。

在一个实施例中，当前图像特征为参考特征维度对应的目标图像特征或预测图像特征，对当前图像特征进行特征变换处理，得到对应的当前更新特征，包括：

对当前图像特征进行特征压缩，得到第一图像特征；对第一图像特征进行特征扩展，得到第二图像特征；第二图像特征和当前图像特征具备相同的特征尺寸；基于当前图像特征和第二图像特征之间的差异得到目标特征差异；将第一图像特征作为更新的当前图像特征，返回对当前图像特征进行特征压缩的步骤，直至满足预设条件，得到多个有序排列的目标特征差异；基于各个目标特征差异得到当前更新特征。

其中，特征压缩是指将大特征尺寸对应的图像特征压缩为小特征尺寸对应的图像特征，即减小图像特征的特征尺寸。例如，特征压缩可以是从多个数据中选取最大的数据或较大的至少一个数据来表征该多个数据，也可以是计算多个数据的算术均值或加权均值来表征该多个数据。特征拓展是将小特征尺寸的图像特征拓展为大特征尺寸的图像特征，即增大图像特征的特征尺寸。例如，特征拓展可以是将一个数据复制为多个。对图像特征进行特征压缩或特征扩展可以是分区进行的，例如，一个图像特征为4*4的矩阵，那么可以将该图像特征等分为4个2*2的矩阵，分别对各个矩阵进行特征压缩。

特征尺寸是指图像特征的数据量，图像特征的尺度。例如，一个图像特征为4*4的矩阵，那么该图像特征的特征尺寸可以是4*4。

预设条件可以是特征压缩或特征拓展的处理次数达到预设次数、第一图像特征或第二图像特征对应的特征尺寸小于或等于预设特征尺寸等中的至少一种。

具体地，若初始的当前图像特征为参考特征维度对应的目标图像特征，则最终得到的当前更新特征为第一更新特征，若初始的当前图像特征为参考特征维度对应的预测图像特征，则最终得到的当前更新特征为第二更新特征。当前更新特征可以是由多个有序排列的目标特征差异组成，各个目标特征差异的计算过程类似。在计算第一个目标特征差异时，计算机设备可以先对当前图像特征进行特征压缩得到第一图像特征，再对第一图像特征进行特征扩展，将第一图像特征对应的特征尺度还原为当前图像特征对应的特征尺度，从而得到第二图像特征，第二图像特征和当前图像特征具备相同的特征尺度。然后，计算机设备基于当前图像特征和第二图像特征之间的差异可以计算得到目标特征差异，例如，将当前图像特征和第二图像特征之间的欧式距离或差值作为目标特征差异。这样，第一轮数据处理结束后，得到第一个目标特征差异。在进行下一轮数据处理时，计算机设备可以将第一轮数据处理得到的第一图像特征作为第二轮数据处理中的当前图像特征，返回对当前图像特征进行特征压缩的步骤执行，直至满足预设条件，得到多个有序排列的目标特征差异。最后，各个目标特征差异按照获取顺序进行组合得到当前更新特征。

在一个实施例中，对当前图像特征进行特征压缩，得到第一图像特征，包括：对当前图像特征进行平滑处理，得到初始图像特征，对初始图像特征进行特征压缩，得到第一图像特征。对第一图像特征进行特征扩展，得到第二图像特征，包括：对第一图像特征进行特征扩展，得到中间图像特征，对中间图像特征进行平滑处理，得到第二图像特征。其中，平滑处理是指过滤图像特征中的噪声，具体可以是高斯平滑处理，线性平滑处理等方式。

以参考特征维度对应的目标图像特征为内容特征维度对应的目标内容特征为例，若将训练筛选视频帧直接作为目标内容特征，即目标内容特征包括训练筛选视频帧上各个像素点对应的像素信息，那么进行特征压缩具体可以是进行下采样处理，进行特征拓展具体可以是进行上采样处理。在第一轮数据处理中，计算机设备可以对初始图像（即训练筛选视频帧）进行高斯平滑处理和下采样处理得到下采样图像，该下采样图像的图像尺寸小于初始图像的图像尺寸，再对下采样图像进行上采样处理和高斯平滑处理得到上采样图像，该上采样图像的图像尺寸与初始图像的图像尺寸一致，然后基于初始图像和上采样图像中对应像素点的像素差值得到第一轮数据处理对应的目标特征差异。在第二轮数据处理中，计算机设备将第一轮数据处理中得到的下采样图像作为新的初始图像，依次进行高斯平滑处理、下采样处理、上采样处理、高斯平滑处理和特征差异计算，得到第二轮数据处理对应的目标特征差异。以此类推，最终得到多个目标特征差异，各个目标特征差异组成第一更新特征。

本实施例中，对当前图像特征进行多轮数据处理，每轮数据处理包括特征压缩、特征扩展和特征差异计算，当前轮数据处理的特征压缩结果作为下一轮数据处理的当前图像特征，从而最终可以得到由多个不同尺度的目标特征差异组成的当前更新特征。不同尺度的目标特征差异表示图像特征中不同粒度的细节信息，因此，基于第一更新特征和第二更新特征计算得到的第二损失包括更丰富的信息，从而有助于提高模型训练的准确性。

在一个实施例中，基于第一更新特征和第二更新特征之间的差异得到第二损失，包括：

根据目标特征差异的排序信息，从第一更新特征和第二更新特征中获取匹配的目标特征差异，基于匹配的目标特征差异计算损失信息，得到多个有序排列的损失子信息；基于各个损失子信息得到第二损失。

其中，目标特征差异的排序信息用于确定第一更新特征中各个目标特征差异的排列顺序，用于确定第二更新特征中各个目标特征差异的排列顺序。匹配的目标特征差异为第一更新特征和第二更新特征中排序一致的目标特征差异。

具体地，通过多轮的特征压缩、特征扩展和特征差异计算得到的第一更新特征和第二更新特征均包括多个有序排列的目标特征差异，但是第一更新特征和第二更新特征包括的目标特征差异是不同的。在计算第二损失时，计算机设备可以从第一更新特征和第二更新特征中，基于排序相同的两个目标特征差异计算损失信息，从而得到多个有序排列的损失子信息。也就是，计算机设备可以根据目标特征差异的排序信息，从第一更新特征和第二更新特征中获取匹配的目标特征差异，基于匹配的目标特征差异计算损失信息，得到多个有序排列的损失子信息。例如，第一更新特征包括目标特征差异1-目标特征差异2-目标特征差异3，第二更新特征包括目标特征差异a-目标特征差异b-目标特征差异c，基于目标特征差异1和目标特征差异a之间的差异得到损失子信息1，基于目标特征差异2和目标特征差异b之间的差异得到损失子信息2，基于目标特征差异3和目标特征差异c之间的差异得到损失子信息3。基于两个目标特征差异计算损失信息具体可以是计算二者之间的欧式距离，计算二者之间的差值等方式。

然后，计算机设备基于各个损失子信息得到第二损失，例如，将各个损失子信息相加得到第二损失，计算各个损失子信息的均值得到第二损失。

本实施例中，在计算第二损失时，从第一更新特征和第二更新特征中基于同一排序、同一尺度的信息进行损失计算，可以提高第二损失的准确性。

在一个实施例中，时序判别模型包括至少一个特征维度对应的时序判别子模型，时序正训练样本包括各个特征维度对应的时序正训练样本，时序负训练样本包括各个特征维度对应的时序负训练样本。

将时序正训练样本和时序负训练样本输入时序判别模型，得到时序正训练样本对应的正预测标签和时序负训练样本对应的负预测标签，包括：

将同一特征维度的时序正训练样本和时序负训练样本分别输入对应的时序判别子模型，得到各个特征维度对应的正预测标签和负预测标签。

具体地，为了提高模型准确性，时序判别模型可以包括至少一个特征维度对应的时序判别子模型，不同的时序判别子模型用于处理对应特征维度的图像特征。计算机设备可以将同一特征维度的时序正训练样本和时序负训练样本分别输入对应的时序判别子模型，从而得到各个特征维度对应的正预测标签和负预测标签。后续，在计算样本损失时，先计算各个特征维度分别对应的样本子损失，再综合各个特征维度的样本子损失得到样本损失。

可以理解，时序正训练样本和时序负训练样本可以进一步包括正向和反向的时序训练样本。同一个特征维度的正向和反向的时序训练样本可以采用同一时序判别子模型进行标签预测，也可以采用不同的时序判别子模型进行标签预测。

本实施例中，时序判别模型包括至少一个特征维度对应的时序判别子模型，不同的时序判别子模型用于处理不同特征维度对应的图像特征组成的训练样本，具备针对性的时序判别子模型有助于提高模型训练的准确性。

在一个实施例中，如图5A所示，方法还包括：

步骤S502，基于目标特征信息生成初始视频异常检测模型对应的模态判别模型的模态正训练样本，基于目标特征信息和预测特征信息生成模态判别模型对应的模态负训练样本。

步骤S504，基于目标特征信息、预测特征信息、模态正训练样本和模态负训练样本，对初始视频异常检测模型和模态判别模型进行对抗学习，得到更新损失。

步骤S506，基于更新损失调整初始视频异常检测模型和模态判别模型的模型参数，直至满足收敛条件，得到目标视频异常检测模型。

其中，模态判别模型是从单个视频帧的不同特征维度的图像特征之间的关联性角度出发去约束视频异常检测模型的特征信息预测。模态判别模型对应的训练样本是基于单个视频帧（训练筛选视频帧）的相关信息生成的。模态正训练样本是指模态判别模型对应的正训练样本，模态负训练样本是指模态判别模型对应的负训练样本。模态判别模型的输入数据为筛选视频帧对应的至少两个特征维度的图像特征，即模态判别模型可以认为是多模态判别器。一个特征维度可以认为是一种模态。模态判别模型的输出数据为输入数据对应的预测标签。

具体地，除了通过对初始视频异常检测模型和时序判别模型进行对抗训练得到目标视频异常检测模型，也可以通过对初始视频异常检测模型和模态判别模型进行对抗训练得到目标视频异常检测模型。

针对模态判别模型，计算机设备可以基于训练筛选视频帧对应的目标特征信息生成模态判别模型对应的模态正训练样本，将训练筛选视频帧对应的目标特征信息和预测特征信息进行特征混合生成模态判别模型对应的模态负训练样本。模态负训练样本包括训练筛选视频帧对应的部分真实特征信息和部分预测特征信息。以目标特征信息包括目标内容特征和目标光流特征，预测特征信息包括预测内容特征和预测光流特征，即特征信息包括内容特征维度和光流特征维度的图像特征为例，计算机设备可以将目标内容特征和目标光流特征的组合作为模态正训练样本，将目标内容特征和预测光流特征的组合作为模态负训练样本，也可以将预测内容特征和目标光流特征的组合作为模态负训练样本。可以理解，特征信息可以包括其他特征维度的图像特征，模态判别模型对应的训练样本可以包括至少两个特征维度的图像特征。

计算机设备可以基于目标特征信息、预测特征信息、模态正训练样本和模态负训练样本，对初始视频异常检测模型和模态判别模型进行对抗学习，基于初始视频异常检测模型对应的输出数据和预期数据、模态判别模型对应的输出数据和预期数据计算更新损失，然后基于更新损失调整初始视频异常检测模型和模态判别模型的模型参数，直至满足收敛条件，得到已训练的视频异常检测模型和模态判别模型，将已训练的视频异常检测模型作为目标视频异常检测模型。

可以理解，与对抗损失类似，更新损失是基于特征损失和模态损失得到的，特征损失的计算过程可以参照前述各个相关实施例所述的方法，模态损失计算过程可以参考时序损失的计算过程。模态损失是指模态判别模型对应的损失值。

本实施例中，通过对初始视频异常检测模型和模态判别模型进行对抗训练，可以从单个视频帧对应的不同特征维度的图像特征之间的关联性角度来约束视频异常检测模型，从而训练得到准确性高的视频异常检测模型。

在一个实施例中，如图5B所示，方法还包括：

步骤S508，基于目标特征信息、预测特征信息、模态正训练样本、模态负训练样本、时序正训练样本和时序负训练样本，对初始视频异常检测模型、模态判别模型和时序判别模型进行对抗学习，得到目标损失；

步骤S510，基于目标损失调整初始视频异常检测模型、模态判别模型和时序判别模型的模型参数，直至满足收敛条件，得到目标视频异常检测模型。

具体地，还可以进一步通过初始视频异常检测模型、模态判别模型和时序判别模型三者之间的对抗训练得到目标视频异常检测模型。计算机设备基于目标特征信息、预测特征信息、模态正训练样本、模态负训练样本、时序正训练样本和时序负训练样本，对初始视频异常检测模型、模态判别模型和时序判别模型进行对抗学习，得到目标损失。可以理解，目标损失是基于特征损失、模态损失和时序损失得到的，特征损失、模态损失和时序损失的计算过程可以参照前述各个相关实施例所述的方法。计算机设备基于目标损失调整初始视频异常检测模型、模态判别模型和时序判别模型的模型参数，直至满足收敛条件，得到已训练的视频异常检测模型、模态判别模型和时序判别模型，将已训练的视频异常检测模型作为目标视频异常检测模型。

本实施例中，通过对初始视频异常检测模型、模态判别模型和时序判别模型进行对抗训练，可以从单个视频帧对应的各种图像特征之间的关联性角度和多个视频帧对应的图像特征之间的连贯性角度来约束视频异常检测模型，从而训练得到准确性高的视频异常检测模型。

在一个实施例中，目标特征信息包括至少两个特征维度的目标图像特征，预测特征信息包括至少两个特征维度的预测图像特征。

基于目标特征信息和预测特征信息生成模态判别模型对应的模态负训练样本，包括：

基于目标特征信息中目标特征维度的目标图像特征和预测特征信息中其他特征维度的预测图像特征，生成模态负训练样本。

具体地，目标特征信息包括至少两个特征维度的目标图像特征，预测特征信息包括至少两个特征维度的预测图像特征。正训练样本包含的特征信息为准确特征信息，因此，计算机设备可以将目标特征信息作为正训练样本。负训练样本包含的特征信息为准确特征信息和预测特征信息的混合信息，因此，计算机设备可以将目标特征信息中目标特征维度的目标图像特征和预测特征信息中其他特征维度的预测图像特征进行组合得到负训练样本。其中，目标特征维度可以根据实际需要进行设置，例如，可以将内容特征维度作为目标特征维度，也可以将语义特征维度作为目标特征维度。

在一个实施例中，若特征信息包括双向的特征信息，那么可以针对正向的特征信息设置对应的正向模态判别器，针对反向的特征信息设置对应的反向模态判别器。因此，正向模态判别器对应的模态正训练样本可以是基于正向目标特征信息生成的，正向模态判别器对应的模态负训练样本可以是基于正向目标特征信息和正向预测特征信息生成的。反向模态判别器对应的模态正训练样本可以是基于反向目标特征信息生成的，反向模态判别器对应的模态负训练样本可以是基于反向目标特征信息和反向预测特征信息生成的。

本实施例中，模态判别模型对应的训练样本是基于至少两个特征维度的图像特征生成的，正训练样本是基于准确的特征信息生成的，负训练样本是混合准确和预测的特征信息生成的。基于这样的训练样本，模态判别模型可以学习到不同模态、不同特征维度之间的相关性，来进一步辅助图像特征预测网络更好地预测图像特征。

在一个实施例中，预测图像特征包括正向预测图像特征和反向预测图像特征。基于目标特征信息中目标特征维度的目标图像特征和预测特征信息中其他特征维度的预测图像特征，生成模态负训练样本，包括：

基于目标特征维度的目标图像特征和其他特征维度的正向预测图像特征生成第一模态负训练样本；对其他特征维度的反向预测图像特征进行反向映射，基于目标特征维度的目标图像特征和反向映射后的反向预测图像特征生成第二模态负训练样本；基于第一模态负训练样本和第二模态负训练样本生成模态负训练样本。

其中，反向映射是指取反操作。例如，将向右的运动方向进行取反可以得到向左的运动方向。可以理解，对于取值范围为大于0的数据，反向映射前后的数据是一致的。

具体地，初始视频异常检测模型可以包括双向图像特征预测网络，因此，训练筛选视频帧对应的预测图像特征可以包括正向预测图像特征和反向预测图像特征。在生成模态负训练样本时，针对不同方向对应的预测图像特征需要进行差异化处理。针对正向预测图像特征，计算机设备可以将目标特征维度的目标图像特征和其他特征维度的正向预测图像特征进行组合来生成第一模态负训练样本。针对反向预测图像特征，计算机设备可以先对其他特征维度的反向预测图像特征进行反向映射，将目标特征维度的目标图像特征和反向映射后的反向预测图像特征进行组合来生成第二模态负训练样本。最终，第一模态负训练样本和第二模态负训练样本组成模态负训练样本。

以特征信息包括内容特征维度和光流特征维度的图像特征为例，计算机设备可以将真实内容特征和正向预测光流特征的组合作为第一模态负训练样本。计算机设备可以对反向预测光流特征进行反向映射，将真实内容特征和反向映射后的反向预测光流特征的组合作为第二模态负训练样本。预测光流特征通常包括运动的位移信息和运动的方向信息。对预测光流特征进行反向映射是指将运动的方向信息在坐标轴上反向，例如运动方向右上角改为左下角，而位移长度不变。可以理解，视频帧对应的真实特征信息通常包括正向的特征信息。

本实施例中，为了控制模态判别模型的数量，可以保障模态判别模型的输入数据格式保持一致。真实特征信息通常只包括正向的特征信息，因此，在生成模态负训练样本时，针对反向预测图像特征需要额外进行反向映射。

在一个实施例中，当前特征信息包括内容特征维度和光流特征维度对应的图像特征，当前特征信息为目标特征信息、序列特征信息和预测特征信息中的任意一个。

其中，内容特征维度对应的图像特征用于描述图像的内容信息，例如，内容特征维度对应的图像特征包括图像中各个像素点对应的像素值。光流特征维度对应的图像特征用于描述图像的运动信息，例如，光流特征维度对应的图像特征包括图像中各个像素点对应的运动位移和运动方向。

在一个实施例中，若目标特征信息包括目标内容特征和目标光流特征，预测特征信息包括正向预测内容特征、反向预测内容特征、正向预测光流特征和反向预测光流特征，那么特征损失可以包括内容损失和光流损失，内容损失是基于目标内容特征和正向预测内容特征、反向预测内容特征计算得到的，光流损失是基于目标光流特征和正向预测光流特征、反向预测光流特征计算得到的。

内容损失的计算公式可以为：

其中，L_a表示内容损失。n表示训练筛选视频帧的数量。x_i表示第i个训练筛选视频帧对应的目标内容特征，即第i个训练筛选视频帧对应的真实内容特征。

表示第i个训练筛选视频帧对应的正向预测内容特征，

表示第i个训练筛选视频帧对应的反向预测内容特征，

表示计算x_i和

之间欧式距离的平方。

表示计算x_i和

之间欧式距离的平方。

表示在第i个训练筛选视频帧对应的第一更新特征中，第j个目标特征差异，

表示在第i个训练筛选视频帧对应的正向第二更新特征中，第j个目标特征差异，

表示在第i个训练筛选视频帧对应的反向第二更新特征中，第j个目标特征差异。

表示计算

和

之间的欧式距离。

表示计算

和

之间的欧式距离。

可以理解，

表示内容损失中的第一损失，可以认为是像素级损失。

表示内容损失中的第二损失，可以认为是金字塔损失。

光流损失的计算公式可以为：

其中，L_m表示光流损失。n表示训练筛选视频帧的数量。y_i表示第i个训练筛选视频帧对应的目标光流特征，即第i个训练筛选视频帧对应的真实光流特征。

表示第i个训练筛选视频帧对应的正向预测光流特征，

表示第i个训练筛选视频帧对应的反向预测光流特征。

表示计算y_i和

之间的欧式距离。

，

表示计算y_i和

之间的欧式距离，

是指对

进行反向映射。

在一个实施例中，如图6所示，提供了一种视频异常检测方法，以该方法应用于图1中的计算机为例进行说明，可以理解的是，计算机设备可以是终端102，也可以是服务器104。本实施例中，视频异常检测方法包括以下步骤：

步骤S602，获取待检测视频对应的待检测视频帧序列，获取待检测视频帧序列对应的目标筛选视频帧的标准特征信息，待检测视频帧序列是从待检测视频对应的目标视频帧序列中过滤目标筛选视频帧得到的。

其中，待检测视频是指待检测是否有异常的视频。目标视频帧序列是指待检测视频对应的视频帧序列，目标视频帧序列中包括的视频帧是从待检测视频中获取到的。目标视频帧序列可以包括连续的视频帧，也可以包括非连续的视频帧。

待检测视频帧序列是指待输入目标视频异常检测模型的不完整视频帧序列，用于确定待检测视频是否有异常。待检测视频帧序列是从待检测视频对应的目标视频帧序列中过滤目标筛选视频帧得到的。目标筛选视频帧是指待检测视频帧序列对应的筛选视频帧。

标准特征信息是指目标筛选视频帧对应的准确特征信息、真实特征信息。标准特征信息可以包括至少一个特征维度的图像特征。

可以理解，目标视频帧序列的生成过程可以参照前述各个相关实施例中初始视频帧序列对应的生成方法。待检测视频帧序列的相关信息的获取方法可以参照前述各个相关实施例中训练视频帧序列对应的有关方法。目标筛选视频帧的相关信息的获取方法可以参照前述各个相关实施例中训练筛选视频帧对应的有关方法。

具体地，计算机设备可以在本地或从其他终端、服务器上获取待检测视频对应的待检测视频帧序列，获取待检测视频帧序列对应的目标筛选视频帧的标准特征信息。例如，终端获取监控视频作为待检测视频，从待检测视频中提取目标视频帧序列，对目标视频帧序列进行视频帧筛选，将筛选后的目标视频帧序列作为待检测视频帧序列，将筛选出的视频帧作为待检测视频帧序列对应的目标筛选视频帧。进一步的，终端对目标筛选视频帧进行特征提取得到目标筛选视频帧对应的标准特征信息。

在一个实施例中，为了提高检测准确性，在基于待检测视频生成目标视频帧序列时，可以穷尽待检测视频中的视频帧，并且目标视频帧序列中的视频帧为连续视频帧。例如，待检测视频包括视频帧1-10，5个连续视频帧组成1个目标视频帧序列，那么目标视频帧序列可以有6个，分别为视频帧1-5，视频帧2-6，视频帧3-7，视频帧4-8，视频帧5-9，视频帧6-10。若一个待检测视频帧序列对应一个目标筛选视频帧，也可以穷尽所有可能的情况。例如，目标视频帧序列包括视频帧1-5，那么基于该目标视频帧序列可以得到5个待检测视频帧序列，分别为视频帧2-5、视频帧1-3-4-5，视频帧1-2-4-5、视频帧1-2-3-5，视频帧1-4。可以理解，一旦基于任意一个目标视频帧序列得到的视频异常检测结果为视频异常，则确定待检测视频为异常视频。

步骤S604，将待检测视频帧序列输入目标视频异常检测模型，得到目标筛选视频帧对应的估计特征信息。

其中，目标视频异常检测模型为已训练的视频异常检测模型。估计特征信息是指目标筛选视频帧对应的推测出来的特征信息，是基于目标筛选视频帧之外的各个视频帧推测得到的特征信息。

具体地，计算机设备可以将待检测视频帧序列输入目标视频异常检测模型，目标视频异常检测模型对目标视频帧序列进行图像分析，从而输出目标筛选视频帧对应的估计特征信息。

步骤S606，基于标准特征信息和估计特征信息之间的特征信息差异确定待检测视频对应的视频异常检测结果。

其中，特征信息差异是指标准特征信息和估计特征信息之间的信息距离，例如，计算二者之间的欧式距离作为特征信息差异。

具体地，计算机设备可以基于标准特征信息和估计特征信息之间的特征信息差异来确定待检测视频对应的视频异常检测结果。视频异常检测结果包括视频异常和视频无异常。若特征信息差异较大，则视频异常检测结果为视频异常，若特征信息差异较小，则视频异常检测结果为视频无异常。

其中，目标视频异常检测模型的训练过程包括：获取训练视频帧序列和对应的序列特征信息，获取训练视频帧序列对应的训练筛选视频帧的目标特征信息；将训练视频帧序列输入初始视频异常检测模型，得到训练筛选视频帧对应的预测特征信息；基于目标特征信息和序列特征信息生成初始视频异常检测模型对应的时序判别模型的时序正训练样本，基于序列特征信息和预测特征信息生成时序判别模型对应的时序负训练样本；基于目标特征信息、预测特征信息、时序正训练样本和时序负训练样本，对初始视频异常检测模型和时序判别模型进行对抗训练，直至满足收敛条件，得到目标视频异常检测模型。

可以理解，目标视频异常检测模型的具体训练过程可以参考前述视频异常检测模型训练方法的各个实施例，此处不再赘述。

上述视频异常检测方法，在训练视频异常检测模型时，目标特征信息和序列特征信息为准确的特征信息，预测特征信息为通过模型预测得到的特征信息，基于准确的特征信息生成正样本，基于准确的特征信息和预测得到的特征信息生成负样本，通过目标特征信息、预测特征信息、正样本和负样本对视频异常检测模型和时序判别模型进行对抗学习来进行模型训练，可以借助时序判别模型来提高视频异常检测模型的预测能力，从而训练得到检测准确性较高的视频异常检测模型。这样，将训练完成的视频异常检测模型应用于待检测视频的视频异常检测，可以提高视频异常的检测准确性。

在一个实施例中，基于标准特征信息和估计特征信息之间的特征信息差异确定待检测视频对应的视频异常检测结果，包括：

当特征信息差异大于或等于预设阈值时，确定视频异常检测结果为视频异常；当特征信息差异小于预设阈值时，确定视频异常检测结果为视频无异常。

具体地，当特征信息差异大于或等于预设阈值时，表明标准特征信息和估计特征信息之间差异较大，也就是，模型根据从正常视频中学习到的相关知识预测出来的特征信息与真实的特征信息差异较大，那么计算机设备可以判断待检测视频帧序列出现异常，从而可以确定视频异常检测结果为视频异常。当特征信息差异小于预设阈值时，表明标准特征信息和估计特征信息之间差异较小，那么，计算机设备可以确定视频异常检测结果为视频无异常。其中，预设阈值可以根据实际需要进行设置。

在一个实施例中，针对不同的训练数据源可以设置不同的预设阈值。在不同的应用场景下可以设置不同的预设阈值。

在一个实施例中，目标视频异常检测模型可以接收待检测视频帧序列，输出估计特征信息。目标视频异常检测模型也可以接收待检测视频帧序列和标准特征信息，输出视频异常检测结果。

在一个具体的实施例中，本申请还提供一种应用场景来应用上述的视频异常检测方法。具体地，该视频异常检测方法在该应用场景的应用如下：

在安防监控场景中，智能视频监控***凭借其无疲劳，智能化，低运行成本，高实时性及高检测率等优势取代了传统人工视频监控方式，并且能够满足生产和生活的更高需求,从而获得了广泛的应用。例如，地铁站的异常检测、步行街的异常检测等。针对地铁站，记录有行人正常行为的监控视频即为正常视频，记录有行人异常行为的视频即为异常视频。行人在地铁站中正常行走可以认为是正常行为，行人在地铁站中的抛物行为（例如，抛书包）、打闹行为可以认为是异常行为。针对步行街，记录有异常情况的监控视频即为异常视频。例如，在步行街的人群中出现汽车可以认为是发生了异常情况。智能视频监控***通过对正常行人的模态进行建模来检测异常事件的发生。

本申请提供的视频异常检测方法是一种基于双向时序完形填空的视频异常检测方法。

1、数据预处理

1-1、建立不完整视频帧序列，即建立完形填空任务

针对一个视频帧序列，若视频帧序列中没有记录异常情况，那么从该视频帧序列中抹去、筛选出的视频帧可以认为是可预测的；若视频帧序列中记录有异常情况，那么从该视频帧序列中抹去、筛选出的视频帧可以认为是不可预测的。

从正常视频中获取5个连续视频帧作为候选视频帧，对各个候选视频帧进行目标对象检测，基于目标对象检测结果得到各个候选视频帧对应的目标对象区域，将各个目标对象区域分别作为新的视频帧，组成初始视频帧序列（也可以称为视频事件）。对于每一个初始视频帧序列，通过依次抹去、筛选掉其中一个视频帧来获得 5种不同位置上的不完整视频帧序列。后续，可以通过双向预测模型来推测筛选视频帧的内容特征（也可以称为表观信息、外观信息）和光流特征（也可以称为光流信息）。

1-2、获取真实特征信息

获取不完整视频帧序列对应的序列特征信息和筛选视频帧对应的目标特征信息。

2、模型训练

设计了三个视频原始属性约束项来约束双向预测模型的预测任务，具体包括：（1）光流和表观信息在双向时序上预测的一致性。（2）单个视频帧的光流信息与外观信息之间的关联性。（3）视频帧序列中前后视频帧必须保持连贯性。

2-1、双向预测模型

双向预测模型包括双向的内容特征预测网络和光流特征预测网络，用于预测筛选视频帧对应的内容特征和光流特征。参考图7A，将每个不完整视频帧序列正序和逆序分别输入到双向预测模型中，来预测筛选视频帧的双向内容特征和双向光流特征。不完整视频帧序列正序输入到正向内容特征预测网络Fa中，Fa输出正向预测内容特征

。不完整视频帧序列正序输入到正向光流特征预测网络Fm中，Fm输出正向预测光流特征

。不完整视频帧序列逆序输入到反向内容特征预测网络Ba中，Ba输出反向预测内容特征

。不完整视频帧序列逆序输入到反向光流特征预测网络Bm中，Bm输出反向预测光流特征

。可以理解，内容特征预测网络也可以称为表观预测网络、外观预测网络。图7A中的x_i表示筛选视频帧的真实内容特征，即目标特征信息中的目标内容特征，y_i表示筛选视频帧的真实光流特征，即目标特征信息中的目标光流特征。

2-2、多模态判别器

多模态判别器从模态之间的相关一致性角度出发去约束特征信息的预测。多模态判别器的目标是尽力区分正负样本对。参考图7B，针对正向预测网络的预测结果（图7B中的上半部分），筛选视频帧的目标内容特征和目标光流特征的组合作为多模态判别器MD对应的正训练样本，筛选视频帧的目标内容特征和正向预测光流特征的组合作为MD对应的负训练样本。针对反向预测网络的预测结果（图7B中的下半部分），为了使多模态判别器的输入保持一致，可以将反向预测光流特征进行反向映射，将筛选视频帧的目标内容特征和反向映射后的反向预测光流特征的组合作为MD对应的负训练样本。多模态判别器通过在正训练样本和正训练样本之间进行分类来辅助双向预测网络更好的预测筛选视频帧的表观信息和光流信息。

2-3、时序判别器

时序判别器从视频序列的时序一致性角度出发去约束特征信息的预测。多时序判别器的目标是尽力区分正负样本对。针对内容特征和光流特征，设计不同的时序判别器。参考图7C，ASD为内容时序判别器（也可以称为表观时序判别器），MSD为光流时序判别器。针对内容时序判别器，由真实的内容特征组成的时间序列片段为正训练样本，含有正向或反向预测的内容特征的时间序列片段为负训练样本。内容时序判别器在正训练样本和负训练样本之间进行分类来辅助双向预测网络更好地根据上下文表观信息去预测筛选视频帧的表观信息。针对光流时序判别器，由真实的光流特征组成的时间序列片段为正训练样本，含有正向或反向预测的光流特征的时间序列片段为负训练样本。光流时序判别器在正训练样本和负训练样本之间进行分类来辅助双向预测网络更好地根据上下文表观信息去预测筛选视频帧的光流信息。

双向预测模型、多模态判别器和时序判别器可以是卷积神经模型。

2-4、对抗学习

双向预测模型、多模态判别器和时序判别器通过对抗学习来进行模型训练，从而得到已训练的双向预测模型。双向预测模型、多模态判别器和时序判别器是基于特征损失和样本损失来进行模型优化。特征损失包括内容损失和光流损失，内容损失是基于内容特征损失函数（也可以称为表观信息损失函数）计算得到的，光流损失是基于光流特征损失函数（也可以称为光流信息损失函数）计算得到的。内容特征损失函数和光流特征损失函数用于保障正向和反向预测之间的一致性。样本损失是基于多模态判别器和时序判别器的预测数据和预期数据计算得到的。正训练样本对应的预期数据为正训练标签（真），负训练样本对应的预期数据为正训练标签（假）。

在一个实施例中，内容特征损失函数为：

光流特征损失函数为：

3、模型使用

和训练数据的数据预处理方式相同，从待检测视频中提取至少一个视频事件，对于每个视频事件，通过依次移除每个位置上的视频帧来产生5个不完整视频帧序列。将不完整视频帧序列输入到已训练的双向预测网络，双向预测网络输出双向预测外观信息和双向预测光流信息。基于预测的外观信息和光流信息与真实的外观信息和光流信息之间的总预测误差，根据总预测误差来待检测视频对应的视频异常检测结果。判断异常事件。当总预测误差大于或等于预设阈值，则认为视频异常检测结果为视频异常，当总预测误差小于预设阈值，则认为视频异常检测结果为视频无异常。

本申请的视频异常检测方法，在正向和反向两个方向充分利用了时序信息，此外，通过表观信息和光流信息双向之间的对称属性，引入了三个简单有效的一致性正则化器来解决传统方法模型准确性低的问题。

图7D为是本申请方案在不同训练数据集上与其他技术方案（Memory-guided、Clustering Driven）的比较。根据图7D可知，本申请方案在三个训练数据集上（UCSD Ped2，CUHK Avenue 和ShanghaiTech）都达到了最优的检测准确率。

其中，Clustering Driven是指现有技术中用于视频异常检测的聚类驱动深度自动编码器。Memory-guided是指现有技术中记忆引导的移动视频目标检测器。UCSD Ped2数据集包括行人行走路径平行于相机场景的视频剪辑片段。CUHK Avenue数据集包括学校校园的视频剪辑片段。ShanghaiTech数据集包括上海科技大学收集的视频剪辑片段。可以理解，每一个数据集，因为场景存在差异，所以在进行视频检测时具有各自的阈值。

应该理解的是，虽然图2、图3、图5A、图5B、图6的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2、图3、图5A、图5B、图6中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图8所示，提供了一种视频异常检测模型训练装置，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括：信息获取模块802、特征信息预测模块804、训练样本生成模块806、损失确定模块808和模型参数调整模块810，其中：

信息获取模块802，用于获取训练视频帧序列和训练视频帧序列对应的序列特征信息，获取训练视频帧序列对应的训练筛选视频帧的目标特征信息，训练视频帧序列是从初始视频帧序列中过滤训练筛选视频帧得到的。

特征信息预测模块804，用于将训练视频帧序列输入初始视频异常检测模型，得到训练筛选视频帧对应的预测特征信息。

训练样本生成模块806，用于基于目标特征信息和序列特征信息生成初始视频异常检测模型对应的时序判别模型的时序正训练样本，基于序列特征信息和预测特征信息生成时序判别模型对应的时序负训练样本。

损失确定模块808，用于基于目标特征信息、预测特征信息、时序正训练样本和时序负训练样本，对初始视频异常检测模型和时序判别模型进行对抗学习，得到对抗损失。

模型参数调整模块810，用于基于对抗损失调整初始视频异常检测模型和时序判别模型的模型参数，直至满足收敛条件，得到目标视频异常检测模型。

在一个实施例中，信息获取模块包括：

训练视频获取单元，用于获取训练视频，从训练视频中获取多个候选视频帧，训练视频对应的视频异常检测结果为视频无异常。

目标对象检测单元，对各个候选视频帧进行目标对象检测，得到各个候选视频帧对应的目标对象区域。

视频帧序列确定单元，用于基于各个目标对象区域得到各个候选视频帧对应的目标对象视频帧，基于各个目标对象视频帧得到初始视频帧序列。

视频帧筛选单元，用于对初始视频帧序列进行视频帧筛选，得到训练视频帧序列。

特征信息提取单元，用于对训练视频帧序列进行特征信息提取，得到序列特征信息。

在一个实施例中，视频帧筛选单元还用于基于初始视频帧序列对应的视频帧排序信息，依次从初始视频帧序列中筛选出一个目标对象视频帧，将筛选后的初始视频帧序列作为中间视频帧序列，得到多个中间视频帧序列；其中，被筛选出的目标对象视频帧为对应的中间视频帧序列的训练筛选视频帧；基于各个中间视频帧序列得到训练视频帧序列。

在一个实施例中，初始视频异常检测模型包括至少一个特征维度对应的图像特征预测网络。特征信息预测模块还用于将训练视频帧序列分别输入各个图像特征预测网络，得到训练筛选视频帧对应的各个特征维度的预测图像特征；基于各个预测图像特征得到预测特征信息。

在一个实施例中，图像特征预测网络包括正向特征预测网络和反向特征预测网络中的至少一种，预测图像特征包括正向预测图像特征和反向预测图像特征中的至少一种。特征信息预测模块还用于将训练视频帧序列分别输入各个正向特征预测网络，得到各个特征维度对应的正向预测图像特征；将训练视频帧序列分别输入各个反向特征预测网络，得到各个特征维度对应的反向预测图像特征。

在一个实施例中，序列特征信息包括训练视频帧序列中各个训练视频帧对应的训练特征信息，训练特征信息、目标特征信息和预测特征信息均包括至少一个特征维度的图像特征，训练筛选视频帧和训练视频帧均携带视频帧时间戳。训练样本生成模块包括：

时序样本生成单元，用于基于训练筛选视频帧和各个训练视频帧对应的视频帧时间戳确定特征时序信息；基于特征时序信息，将目标特征信息和训练特征信息中同一特征维度的图像特征进行组合，得到各个特征维度对应的时序正训练样本；基于特征时序信息，将预测特征信息和训练特征信息中同一特征维度的图像特征进行组合，得到各个特征维度对应的时序负训练样本。

在一个实施例中，损失确定模块包括：

特征损失确定单元，用于基于目标特征信息和预测特征信息生成特征损失。

时序预测单元，用于将时序正训练样本和时序负训练样本输入时序判别模型，得到时序正训练样本对应的正预测标签和时序负训练样本对应的负预测标签。

时序损失确定单元，用于基于时序正训练样本对应的正预测标签和正样本标签、时序负训练样本对应的负预测标签和负样本标签生成时序损失。

对抗损失确定单元，用于基于特征损失和时序损失生成对抗损失。

在一个实施例中，目标特征信息包括至少两个特征维度对应的目标图像特征，预测特征信息包括至少两个特征维度对应的预测图像特征。特征损失确定单元还用于从目标特征信息和预测特征信息中，基于参考特征维度对应的目标图像特征和预测图像特征之间的差异得到第一损失；对参考特征维度对应的目标图像特征进行特征变换处理，得到对应的第一更新特征，对参考特征维度对应的预测图像特征进行特征变换处理，得到对应的第二更新特征；基于第一更新特征和第二更新特征之间的差异得到第二损失；从目标特征信息和预测特征信息中，基于其他特征维度的目标图像特征和预测图像特征之间的差异得到第三损失；基于第一损失、第二损失和第三损失得到特征损失。

在一个实施例中，当前图像特征为参考特征维度对应的目标图像特征或预测图像特征。特征损失确定单元还用于对当前图像特征进行特征压缩，得到第一图像特征；对第一图像特征进行特征扩展，得到第二图像特征；第二图像特征和当前图像特征具备相同的特征尺寸；基于当前图像特征和第二图像特征之间的差异得到目标特征差异；将第一图像特征作为更新的当前图像特征，返回对当前图像特征进行特征压缩的步骤，直至满足预设条件，得到多个有序排列的目标特征差异；基于各个目标特征差异得到当前更新特征。

在一个实施例中，特征损失确定单元还用于根据目标特征差异的排序信息，从第一更新特征和第二更新特征中获取匹配的目标特征差异，基于匹配的目标特征差异计算损失信息，得到多个有序排列的损失子信息；基于各个损失子信息得到第二损失。

在一个实施例中，时序判别模型包括至少一个特征维度对应的时序判别子模型，时序正训练样本包括各个特征维度对应的时序正训练样本，时序负训练样本包括各个特征维度对应的时序负训练样本。时序预测单元还用于将同一特征维度的时序正训练样本和时序负训练样本分别输入对应的时序判别子模型，得到各个特征维度对应的正预测标签和负预测标签。

在一个实施例中，训练样本生成模块包括：

模态样本生成单元，用于基于目标特征信息生成初始视频异常检测模型对应的模态判别模型的模态正训练样本，基于目标特征信息和预测特征信息生成模态判别模型对应的模态负训练样本。

损失确定模块还用于基于目标特征信息、预测特征信息、模态正训练样本和模态负训练样本，对初始视频异常检测模型和模态判别模型进行对抗学习，得到更新损失。

模型参数调整模块还用于基于更新损失调整初始视频异常检测模型和模态判别模型的模型参数，直至满足收敛条件，得到目标视频异常检测模型。

在一个实施例中，损失确定模块还用于基于目标特征信息、预测特征信息、模态正训练样本、模态负训练样本、时序正训练样本和时序负训练样本，对初始视频异常检测模型、模态判别模型和时序判别模型进行对抗学习，得到目标损失。

模型参数调整模块还用于基于目标损失调整初始视频异常检测模型、模态判别模型和时序判别模型的模型参数，直至满足收敛条件，得到目标视频异常检测模型。

在一个实施例中，目标特征信息包括至少两个特征维度的目标图像特征，预测特征信息包括至少两个特征维度的预测图像特征。模态样本生成单元还用于基于目标特征信息中目标特征维度的目标图像特征和预测特征信息中其他特征维度的预测图像特征，生成模态负训练样本。

在一个实施例中，预测图像特征包括正向预测图像特征和反向预测图像特征。模态样本生成单元还用于基于目标特征维度的目标图像特征和其他特征维度的正向预测图像特征生成第一模态负训练样本；对其他特征维度的反向预测图像特征进行反向映射，基于目标特征维度的目标图像特征和反向映射后的反向预测图像特征生成第二模态负训练样本；基于第一模态负训练样本和第二模态负训练样本生成模态负训练样本。

在一个实施例中，如图9所示，提供了一种视频异常检测装置，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括：数据获取模块902、模型使用模块904和检测结果确定模块906，其中：

数据获取模块902，用于获取待检测视频对应的待检测视频帧序列，获取待检测视频帧序列对应的目标筛选视频帧的标准特征信息，待检测视频帧序列是从待检测视频对应的目标视频帧序列中过滤目标筛选视频帧得到的；

模型使用模块904，用于将待检测视频帧序列输入目标视频异常检测模型，得到目标筛选视频帧对应的估计特征信息；

检测结果确定模块906，用于基于标准特征信息和估计特征信息之间的特征信息差异确定待检测视频对应的视频异常检测结果；

在一个实施例中，检测结果确定模块还用于当特征信息差异大于或等于预设阈值时，确定视频异常检测结果为视频异常；当特征信息差异小于预设阈值时，确定视频异常检测结果为视频无异常。

关于视频异常检测模型训练装置、视频异常检测装置的具体限定可以参见上文中对于视频异常检测模型训练方法、视频异常检测方法的限定，在此不再赘述。上述视频异常检测模型训练装置、视频异常检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图10所示。该计算机设备包括通过***总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储目标视频异常检测模型、视频帧序列和对应的特征信息等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种视频异常检测模型训练方法、视频异常检测方法。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图11所示。该计算机设备包括通过***总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、NFC（近场通信）或其他技术实现。该计算机程序被处理器执行时以实现一种视频异常检测模型训练方法、视频异常检测方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图10、11中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-Only Memory，ROM）、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器（Random Access Memory，RAM）或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器（Static Random Access Memory，SRAM）或动态随机存取存储器（Dynamic Random Access Memory，DRAM）等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种视频异常检测模型训练方法，其特征在于，所述方法包括：

获取训练视频帧序列，获取所述训练视频帧序列对应的训练筛选视频帧的目标特征信息，所述训练视频帧序列是从初始视频帧序列中过滤所述训练筛选视频帧得到的；

基于所述目标特征信息生成所述初始视频异常检测模型对应的模态判别模型的模态正训练样本，基于所述目标特征信息和所述预测特征信息生成所述模态判别模型对应的模态负训练样本；所述模态判别模型的输入数据为所述筛选视频帧对应的至少两个特征维度的图像特征，所述模态判别模型的输出数据为输入数据对应的预测标签；

基于所述目标特征信息、所述预测特征信息、所述模态正训练样本和所述模态负训练样本，对所述初始视频异常检测模型和所述模态判别模型进行对抗学习，得到更新损失；

基于所述更新损失调整所述初始视频异常检测模型和所述模态判别模型的模型参数，直至满足收敛条件，得到目标视频异常检测模型。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取所述训练视频帧序列对应的序列特征信息；

基于所述目标特征信息、所述预测特征信息、所述模态正训练样本、所述模态负训练样本、所述时序正训练样本和所述时序负训练样本，对所述初始视频异常检测模型、所述模态判别模型和所述时序判别模型进行对抗学习，得到目标损失；

基于所述目标损失调整所述初始视频异常检测模型、所述模态判别模型和所述时序判别模型的模型参数，直至满足收敛条件，得到目标视频异常检测模型。

3.根据权利要求2所述的方法，其特征在于，所述获取所述训练视频帧序列对应的序列特征信息，包括：

获取训练视频，从所述训练视频中获取多个候选视频帧，所述训练视频对应的视频异常检测结果为视频无异常；

对各个候选视频帧进行目标对象检测，得到各个候选视频帧对应的目标对象区域；

基于各个目标对象区域得到各个候选视频帧对应的目标对象视频帧，基于各个目标对象视频帧得到初始视频帧序列；

对所述初始视频帧序列进行视频帧筛选，得到所述训练视频帧序列；

对所述训练视频帧序列进行特征信息提取，得到所述序列特征信息。

4.根据权利要求3所述的方法，其特征在于，所述对所述初始视频帧序列进行视频帧筛选，得到所述训练视频帧序列，包括：

基于所述初始视频帧序列对应的视频帧排序信息，依次从所述初始视频帧序列中筛选出一个目标对象视频帧，将筛选后的初始视频帧序列作为中间视频帧序列，得到多个中间视频帧序列；其中，被筛选出的目标对象视频帧为对应的中间视频帧序列的训练筛选视频帧；

基于各个中间视频帧序列得到所述训练视频帧序列。

5.根据权利要求2所述的方法，其特征在于，所述序列特征信息包括所述训练视频帧序列中各个训练视频帧对应的训练特征信息，所述训练特征信息、所述目标特征信息和所述预测特征信息均包括至少两个特征维度的图像特征，所述训练筛选视频帧和所述训练视频帧均携带视频帧时间戳；

所述基于所述目标特征信息和所述序列特征信息生成所述初始视频异常检测模型对应的时序判别模型的时序正训练样本，基于所述序列特征信息和所述预测特征信息生成所述时序判别模型对应的时序负训练样本，包括：

基于所述训练筛选视频帧和所述各个训练视频帧对应的视频帧时间戳确定特征时序信息；

基于所述特征时序信息，将所述目标特征信息和所述训练特征信息中同一特征维度的图像特征进行组合，得到各个特征维度对应的时序正训练样本；

基于所述特征时序信息，将所述预测特征信息和所述训练特征信息中同一特征维度的图像特征进行组合，得到各个特征维度对应的时序负训练样本。

6.根据权利要求2所述的方法，其特征在于，所述目标损失包括对抗损失，所述对抗损失是基于所述目标特征信息、所述预测特征信息、所述时序正训练样本和所述时序负训练样本，对所述初始视频异常检测模型和所述时序判别模型进行对抗学习得到的，所述对抗损失的生成包括以下步骤：

基于所述目标特征信息和所述预测特征信息生成特征损失；

将所述时序正训练样本和所述时序负训练样本输入所述时序判别模型，得到所述时序正训练样本对应的正预测标签和所述时序负训练样本对应的负预测标签；

基于所述时序正训练样本对应的正预测标签和正样本标签、所述时序负训练样本对应的负预测标签和负样本标签生成时序损失；

基于所述特征损失和所述时序损失生成所述对抗损失。

7.根据权利要求6所述的方法，其特征在于，所述目标特征信息包括至少两个特征维度对应的目标图像特征，所述预测特征信息包括所述至少两个特征维度对应的预测图像特征；

所述基于所述目标特征信息和所述预测特征信息生成特征损失，包括：

从所述目标特征信息和所述预测特征信息中，基于参考特征维度对应的目标图像特征和预测图像特征之间的差异得到第一损失；

对所述参考特征维度对应的目标图像特征进行特征变换处理，得到对应的第一更新特征，对所述参考特征维度对应的预测图像特征进行特征变换处理，得到对应的第二更新特征；

基于所述第一更新特征和所述第二更新特征之间的差异得到第二损失；

从所述目标特征信息和所述预测特征信息中，基于其他特征维度的目标图像特征和预测图像特征之间的差异得到第三损失；

基于所述第一损失、所述第二损失和所述第三损失得到所述特征损失。

8.根据权利要求7所述的方法，其特征在于，当前图像特征为所述参考特征维度对应的目标图像特征或预测图像特征，对所述当前图像特征进行特征变换处理，得到对应的当前更新特征，包括：

对当前图像特征进行特征压缩，得到第一图像特征；

对所述第一图像特征进行特征扩展，得到第二图像特征；所述第二图像特征和当前图像特征具备相同的特征尺寸；

基于当前图像特征和所述第二图像特征之间的差异得到目标特征差异；

将所述第一图像特征作为更新的当前图像特征，返回所述对当前图像特征进行特征压缩的步骤，直至满足预设条件，得到多个有序排列的目标特征差异；

基于各个目标特征差异得到所述当前更新特征。

9.根据权利要求8所述的方法，其特征在于，所述基于所述第一更新特征和所述第二更新特征之间的差异得到第二损失，包括：

根据目标特征差异的排序信息，从所述第一更新特征和所述第二更新特征中获取匹配的目标特征差异，基于匹配的目标特征差异计算损失信息，得到多个有序排列的损失子信息；

基于各个损失子信息得到所述第二损失。

10.根据权利要求6所述的方法，其特征在于，所述时序判别模型包括至少一个特征维度对应的时序判别子模型，所述时序正训练样本包括各个特征维度对应的时序正训练样本，所述时序负训练样本包括各个特征维度对应的时序负训练样本；

所述将所述时序正训练样本和所述时序负训练样本输入所述时序判别模型，得到所述时序正训练样本对应的正预测标签和所述时序负训练样本对应的负预测标签，包括：

11.根据权利要求1所述的方法，其特征在于，所述初始视频异常检测模型包括至少两个特征维度对应的图像特征预测网络；

所述将所述训练视频帧序列输入初始视频异常检测模型，得到所述训练筛选视频帧对应的预测特征信息，包括：

将所述训练视频帧序列分别输入各个图像特征预测网络，得到所述训练筛选视频帧对应的各个特征维度的预测图像特征；

基于各个预测图像特征得到所述预测特征信息。

12.根据权利要求11所述的方法，其特征在于，所述图像特征预测网络包括正向特征预测网络和反向特征预测网络中的至少一种，所述预测图像特征包括正向预测图像特征和反向预测图像特征中的至少一种；

所述将所述训练视频帧序列分别输入各个图像特征预测网络，得到所述训练筛选视频帧对应的各个特征维度的预测图像特征，包括：

将所述训练视频帧序列分别输入各个正向特征预测网络，得到各个特征维度对应的正向预测图像特征；

将所述训练视频帧序列分别输入各个反向特征预测网络，得到各个特征维度对应的反向预测图像特征。

13.根据权利要求1所述的方法，其特征在于，所述目标特征信息包括至少两个特征维度的目标图像特征，所述预测特征信息包括至少两个特征维度的预测图像特征；

所述基于所述目标特征信息和所述预测特征信息生成所述模态判别模型对应的模态负训练样本，包括：

14.根据权利要求13所述的方法，其特征在于，所述预测图像特征包括正向预测图像特征和反向预测图像特征，所述基于所述目标特征信息中目标特征维度的目标图像特征和所述预测特征信息中其他特征维度的预测图像特征，生成所述模态负训练样本，包括：

基于所述目标特征维度的目标图像特征和所述其他特征维度的正向预测图像特征生成第一模态负训练样本；

对所述其他特征维度的反向预测图像特征进行反向映射，基于所述目标特征维度的目标图像特征和反向映射后的反向预测图像特征生成第二模态负训练样本；

基于所述第一模态负训练样本和所述第二模态负训练样本生成所述模态负训练样本。

15.根据权利要求2至10任意一项所述的方法，其特征在于，当前特征信息包括内容特征维度和光流特征维度对应的图像特征，所述当前特征信息为所述目标特征信息、所述序列特征信息和所述预测特征信息中的任意一个。

16.一种视频异常检测方法，其特征在于，所述方法包括：

其中，所述目标视频异常检测模型的训练过程包括：获取训练视频帧序列，获取所述训练视频帧序列对应的训练筛选视频帧的目标特征信息；将所述训练视频帧序列输入初始视频异常检测模型，得到所述训练筛选视频帧对应的预测特征信息；基于所述目标特征信息生成所述初始视频异常检测模型对应的模态判别模型的模态正训练样本，基于所述目标特征信息和所述预测特征信息生成所述模态判别模型对应的模态负训练样本，所述模态判别模型的输入数据为所述筛选视频帧对应的至少两个特征维度的图像特征，所述模态判别模型的输出数据为输入数据对应的预测标签；基于所述目标特征信息、所述预测特征信息、所述模态正训练样本和所述模态负训练样本，对所述初始视频异常检测模型和所述模态判别模型进行对抗学习，得到更新损失；基于所述更新损失调整所述初始视频异常检测模型和所述模态判别模型的模型参数，直至满足收敛条件，得到目标视频异常检测模型。

17.根据权利要求16所述的方法，其特征在于，所述基于所述标准特征信息和所述估计特征信息之间的特征信息差异确定所述待检测视频对应的视频异常检测结果，包括：

当所述特征信息差异大于或等于预设阈值时，确定所述视频异常检测结果为视频异常；

当所述特征信息差异小于预设阈值时，确定所述视频异常检测结果为视频无异常。

18.一种视频异常检测模型训练装置，其特征在于，所述装置包括：

信息获取模块，用于获取训练视频帧序列，获取所述训练视频帧序列对应的训练筛选视频帧的目标特征信息，所述训练视频帧序列是从初始视频帧序列中过滤所述训练筛选视频帧得到的；

训练样本生成模块，用于基于所述目标特征信息生成所述初始视频异常检测模型对应的模态判别模型的模态正训练样本，基于所述目标特征信息和所述预测特征信息生成所述模态判别模型对应的模态负训练样本；所述模态判别模型的输入数据为所述筛选视频帧对应的至少两个特征维度的图像特征，所述模态判别模型的输出数据为输入数据对应的预测标签；

损失确定模块，用于基于所述目标特征信息、所述预测特征信息、所述模态正训练样本和所述模态负训练样本，对所述初始视频异常检测模型和所述模态判别模型进行对抗学习，得到更新损失；

模型参数调整模块，用于基于所述更新损失调整所述初始视频异常检测模型和所述模态判别模型的模型参数，直至满足收敛条件，得到目标视频异常检测模型。

19.根据权利要求18所述的装置，其特征在于，所述信息获取模块还用于获取所述训练视频帧序列对应的序列特征信息；

所述训练样本生成模块还用于基于所述目标特征信息和所述序列特征信息生成所述初始视频异常检测模型对应的时序判别模型的时序正训练样本，基于所述序列特征信息和所述预测特征信息生成所述时序判别模型对应的时序负训练样本；

所述损失确定模块还用于基于所述目标特征信息、所述预测特征信息、所述模态正训练样本、所述模态负训练样本、所述时序正训练样本和所述时序负训练样本，对所述初始视频异常检测模型、所述模态判别模型和所述时序判别模型进行对抗学习，得到目标损失；

所述模型参数调整模块还用于基于所述目标损失调整所述初始视频异常检测模型、所述模态判别模型和所述时序判别模型的模型参数，直至满足收敛条件，得到目标视频异常检测模型。

20.根据权利要求19所述的装置，其特征在于，所述信息获取模块包括；

训练视频获取单元，用于获取训练视频，从所述训练视频中获取多个候选视频帧，所述训练视频对应的视频异常检测结果为视频无异常；

目标对象检测单元，用于对各个候选视频帧进行目标对象检测，得到各个候选视频帧对应的目标对象区域；

视频帧序列确定单元，用于基于各个目标对象区域得到各个候选视频帧对应的目标对象视频帧，基于各个目标对象视频帧得到初始视频帧序列；

视频帧筛选单元，用于对所述初始视频帧序列进行视频帧筛选，得到所述训练视频帧序列；

特征信息提取单元，用于对所述训练视频帧序列进行特征信息提取，得到所述序列特征信息。

21.根据权利要求20所述的装置，其特征在于，所述视频帧筛选单元还用于基于所述初始视频帧序列对应的视频帧排序信息，依次从所述初始视频帧序列中筛选出一个目标对象视频帧，将筛选后的初始视频帧序列作为中间视频帧序列，得到多个中间视频帧序列，其中，被筛选出的目标对象视频帧为对应的中间视频帧序列的训练筛选视频帧，基于各个中间视频帧序列得到所述训练视频帧序列。

22.根据权利要求19所述的装置，其特征在于，所述序列特征信息包括所述训练视频帧序列中各个训练视频帧对应的训练特征信息，所述训练特征信息、所述目标特征信息和所述预测特征信息均包括至少两个特征维度的图像特征，所述训练筛选视频帧和所述训练视频帧均携带视频帧时间戳；

所述训练样本生成模块还用于基于所述训练筛选视频帧和所述各个训练视频帧对应的视频帧时间戳确定特征时序信息，基于所述特征时序信息，将所述目标特征信息和所述训练特征信息中同一特征维度的图像特征进行组合，得到各个特征维度对应的时序正训练样本，基于所述特征时序信息，将所述预测特征信息和所述训练特征信息中同一特征维度的图像特征进行组合，得到各个特征维度对应的时序负训练样本。

23.根据权利要求19所述的装置，其特征在于，所述目标损失包括对抗损失，所述对抗损失是基于所述目标特征信息、所述预测特征信息、所述时序正训练样本和所述时序负训练样本，对所述初始视频异常检测模型和所述时序判别模型进行对抗学习得到的，所述损失确定模块包括：

特征损失确定单元，用于基于所述目标特征信息和所述预测特征信息生成特征损失；

时序预测单元，用于将所述时序正训练样本和所述时序负训练样本输入所述时序判别模型，得到所述时序正训练样本对应的正预测标签和所述时序负训练样本对应的负预测标签；

时序损失确定单元，用于基于所述时序正训练样本对应的正预测标签和正样本标签、所述时序负训练样本对应的负预测标签和负样本标签生成时序损失；

对抗损失确定单元，用于基于所述特征损失和所述时序损失生成所述对抗损失。

24.根据权利要求23所述的装置，其特征在于，所述目标特征信息包括至少两个特征维度对应的目标图像特征，所述预测特征信息包括所述至少两个特征维度对应的预测图像特征；

所述特征损失确定单元还用于从所述目标特征信息和所述预测特征信息中，基于参考特征维度对应的目标图像特征和预测图像特征之间的差异得到第一损失，对所述参考特征维度对应的目标图像特征进行特征变换处理，得到对应的第一更新特征，对所述参考特征维度对应的预测图像特征进行特征变换处理，得到对应的第二更新特征，基于所述第一更新特征和所述第二更新特征之间的差异得到第二损失，从所述目标特征信息和所述预测特征信息中，基于其他特征维度的目标图像特征和预测图像特征之间的差异得到第三损失，基于所述第一损失、所述第二损失和所述第三损失得到所述特征损失。

25.根据权利要求24所述的装置，其特征在于，当前图像特征为所述参考特征维度对应的目标图像特征或预测图像特征，所述特征损失确定单元还用于对当前图像特征进行特征压缩，得到第一图像特征，对所述第一图像特征进行特征扩展，得到第二图像特征，所述第二图像特征和当前图像特征具备相同的特征尺寸，基于当前图像特征和所述第二图像特征之间的差异得到目标特征差异，将所述第一图像特征作为更新的当前图像特征，返回所述对当前图像特征进行特征压缩的步骤，直至满足预设条件，得到多个有序排列的目标特征差异，基于各个目标特征差异得到当前更新特征。

26.根据权利要求25所述的装置，其特征在于，所述特征损失确定单元还用于根据目标特征差异的排序信息，从所述第一更新特征和所述第二更新特征中获取匹配的目标特征差异，基于匹配的目标特征差异计算损失信息，得到多个有序排列的损失子信息，基于各个损失子信息得到所述第二损失。

27.根据权利要求23所述的装置，其特征在于，所述时序判别模型包括至少一个特征维度对应的时序判别子模型，所述时序正训练样本包括各个特征维度对应的时序正训练样本，所述时序负训练样本包括各个特征维度对应的时序负训练样本；

所述时序预测单元还用于将同一特征维度的时序正训练样本和时序负训练样本分别输入对应的时序判别子模型，得到各个特征维度对应的正预测标签和负预测标签。

28.根据权利要求18所述的装置，其特征在于，所述初始视频异常检测模型包括至少两个特征维度对应的图像特征预测网络；

所述特征信息预测模块还用于将所述训练视频帧序列分别输入各个图像特征预测网络，得到所述训练筛选视频帧对应的各个特征维度的预测图像特征，基于各个预测图像特征得到所述预测特征信息。

29.根据权利要求28所述的装置，其特征在于，所述图像特征预测网络包括正向特征预测网络和反向特征预测网络中的至少一种，所述预测图像特征包括正向预测图像特征和反向预测图像特征中的至少一种；

所述特征信息预测模块还用于将所述训练视频帧序列分别输入各个正向特征预测网络，得到各个特征维度对应的正向预测图像特征，将所述训练视频帧序列分别输入各个反向特征预测网络，得到各个特征维度对应的反向预测图像特征。

30.根据权利要求18所述的装置，其特征在于，所述目标特征信息包括至少两个特征维度的目标图像特征，所述预测特征信息包括至少两个特征维度的预测图像特征；

所述训练样本生成模块还用于基于所述目标特征信息中目标特征维度的目标图像特征和所述预测特征信息中其他特征维度的预测图像特征，生成所述模态负训练样本。

31.根据权利要求30所述的装置，其特征在于，所述预测图像特征包括正向预测图像特征和反向预测图像特征，所述训练样本生成模块还用于基于所述目标特征维度的目标图像特征和所述其他特征维度的正向预测图像特征生成第一模态负训练样本，对所述其他特征维度的反向预测图像特征进行反向映射，基于所述目标特征维度的目标图像特征和反向映射后的反向预测图像特征生成第二模态负训练样本，基于所述第一模态负训练样本和所述第二模态负训练样本生成所述模态负训练样本。

32.根据权利要求19至27任意一项所述的装置，其特征在于，当前特征信息包括内容特征维度和光流特征维度对应的图像特征，所述当前特征信息为所述目标特征信息、所述序列特征信息和所述预测特征信息中的任意一个。

33.一种视频异常检测装置，其特征在于，所述装置包括：

34.根据权利要求33所述的装置，其特征在于，所述检测结果确定模块还用于当所述特征信息差异大于或等于预设阈值时，确定所述视频异常检测结果为视频异常，当所述特征信息差异小于预设阈值时，确定所述视频异常检测结果为视频无异常。

35.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至15或16至17中任一项所述的方法的步骤。

36.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至15或16至17中任一项所述的方法的步骤。