CN117315565A

CN117315565A - 基于增量时空学习的异常行为识别监测方法

Info

Publication number: CN117315565A
Application number: CN202311107835.2A
Authority: CN
Inventors: 秦君; 杨天国; 庞丁黎; 李晓敏; 吴庆升; 李宏梅; 商经锐; 夺实祥伟; 高正刚; 杨舒舒
Original assignee: Yunnan Power Grid Co ltd Dehong Power Supply Bureau
Current assignee: Yunnan Power Grid Co ltd Dehong Power Supply Bureau
Priority date: 2023-08-31
Filing date: 2023-08-31
Publication date: 2023-12-29
Also published as: JP7474399B1

Abstract

本申请提供一种基于增量时空学习的异常行为识别监测方法，包括：建立时空模型；采集监控器的第一预设时间段的第一视频监控画面，并输入到时空模型中，对时空模型进行训练；通过完成训练的时空模型在监控器的第二预设时间段中定位具有异常行为的第二视频监控画面；并发送给人工验证。若异常行为通过人工验证，则将异常行为标记为正常，并通过模糊聚合法将第二视频监控画面中的异常行为构建成为第二正常行为；将第二正常行为输入到时空模型中，对时空模型再次训练，并重复上述步骤。本申请通过时间顺序检测并将正常行为输入到时空模型中，使得时空模型可以进行持续的学习训练，再投入到对异常行为的检测中，提高了异常行为检测的准确性。

Description

基于增量时空学习的异常行为识别监测方法

技术领域

本申请涉及异常行为监测技术领域，尤其涉及一种基于增量时空学习的异常行为识别监测方法。

背景技术

人体行为识别算法已经广泛应用于诸多领域，如体育中评估运动员的运动技术，游戏中控制虚拟角色的动作，医疗中评估患者的运动能力，安防中识别人体行为等。

人体行为识别算法利用传感器数据和机器学习技术，能够自动分析和识别人体动作和行为。相比传统的监控视频，人体行为识别算法可以实现实时、准确和无人为干预的监测。通过实时监测和分析，可以及时发现和应对潜在的安全风险，提高变电站的安全性和稳定性。

目前人工智能在视频监控中用于异常检测的最新发展只解决了部分挑战，但是忽略了异常行为随时间变化的本质，在实时视频监控的异常检测和定位的发展上具有局限性。

发明内容

本申请为解决人工智能在视频监控中用于异常检测忽略了异常行为随时间变化的本质，在实时视频监控的异常检测和定位的发展上具有局限性的问题，提供一种基于增量时空学习的异常行为识别监测方法，包括：

建立时空模型；

采集监控器的第一预设时间段的第一视频监控画面；

将所述第一视频监控画面内的行为作为第一正常行为，并将所述第一正常行为输入到所述时空模型中，对所述时空模型进行训练；

通过完成训练的所述时空模型在所述监控器的第二预设时间段中定位具有异常行为的第二视频监控画面；

将所述第二视频监控画面发送给人工验证；

若所述第二视频监控画面中的所述异常行为通过人工验证，则将所述异常行为标记为正常，并通过模糊聚合法将所述第二视频监控画面中的所述异常行为构建成为第二正常行为；

将所述第二正常行为输入到所述时空模型中，对所述时空模型再次训练，并重复进行定位具有异常行为的第二视频监控画面的步骤；

若所述异常行为未通过人工验证，则将所述异常行为标记为非正常并记录。

在一种可行的实现方式中，所述第一预设时间和所述第二预设时间连续；

所述第一预设时间在第一时间点开始，在第二时间点结束；所述第二预设时间在第二时间点开始，在第三时间点结束。

在一种可行的实现方式中，所述时空模型包括：输入数据层、卷积层；

所述输入数据层用于对所述第一视频监控画面和/或所述第二视频监控画面进行预处理，并增强所述时空模型的学习能力；

所述卷积层用于对所述第一视频监控画面和/或所述第二视频监控画面进行分析并学习。

在一种可行的实现方式中，所述输入数据层用于对所述第一视频监控画面和/或所述第二视频监控画面进行预处理的步骤包括：

使用长度为T的滑动窗口提取所述第一视频监控画面和/或所述第二视频监控画面；

将提取后得所述第一视频监控画面和/或所述第二视频监控画面作为连续帧，将所述连续帧转换为灰度降维，调整为224×224得像素值，并通过0到1的缩放对所述像素值进行归一化处理；

将长度为T的所述连续帧叠加在一起构成输入时间长方体。

在一种可行的实现方式中，所述时空模型还包括ConvLSTM层；

所述ConvLSTM层用于从所述连续帧中捕获时空特征；

所述ConvLSTM层的模型表示为：

式中，“*”表示卷积运算；表示Hadamard积运算；X_t表示输入；C_t-1，…，C_t表示细胞状态；H_t-1，…，H_t表示隐藏状态；i_t，f_t和o_t为三维张量；“σ”表示sigmoid函数；W_x～和W_h～是ConvLSTM中的二维卷积核。

在一种可行的实现方式中，所述时空模型通过异常阈值区分所述正常行为和所述异常行为，所述异常阈值通过人工进行选择；

当所述异常阈值降低时，所述时空模型对监视器中的所述异常行为的检测灵敏度升高，检测出具有异常行为的第二视频监控画面的次数增多；

当所述异常阈值升高时，所述时空模型对监视器中的所述异常行为的检测灵敏度降低，检测出具有异常行为的第二视频监控画面的次数减少。

在一种可行的实现方式中，所述人工验证通过重构误差判断所述第二视频监控画面中的所述异常行为是否通过；

所述重构误差表示为异常定位的每个所述输入时间长方体的分数，所述异常定位是对视频帧中发生异常的特定区域进行定位，所述重构误差的计算公式如式(6)和式(7)所示：

其中X为输入时间长方体，为重构时间长方体，T为时间窗口，w为宽度，h为视频帧的高度。

在一种可行的实现方式中，所述通过完成训练的所述时空模型在所述监控器的第二预设时间段中定位具有异常行为的第二视频监控画面的步骤包括：

如果所述时空模型检测到所述输入时间长方体的所述重构误差大于所述异常阈值，则将该所述输入时间长方体分类为异常，并在监控画面中进行定位得到所述第二视频监控画面。

由上述内容可知，本申请提供一种基于增量时空学习的异常行为识别监测方法，包括：建立时空模型；采集监控器的第一预设时间段的第一视频监控画面；将第一视频监控画面内的行为作为第一正常行为，并将第一正常行为输入到所述时空模型中，对时空模型进行训练；通过完成训练的时空模型在监控器的第二预设时间段中定位具有异常行为的第二视频监控画面；将第二视频监控画面发送给人工验证；若第二视频监控画面中的异常行为通过人工验证，则将异常行为标记为正常，并通过模糊聚合法将第二视频监控画面中的异常行为构建成为第二正常行为；将第二正常行为输入到时空模型中，对时空模型再次训练，并重复进行定位具有异常行为的第二视频监控画面的步骤；若异常行为未通过人工验证，则将异常行为标记为非正常并记录。本申请通过按时间顺序检测并将第二正常行为输入到时空模型中，使得时空模型可以进行持续的学习训练，再投入到对异常行为的检测中，提高了异常行为检测的准确性。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明实施的实施例，并与说明书一起用于解释本发明实施例的原理。显而易见地，下面描述中的附图仅仅是本发明实施的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种基于增量时空学习的异常行为识别监测方法的流程示意图；

图2是本申请实施例提供的一种输入数据层用于对所述第一视频监控画面和/或所述第二视频监控画面进行预处理的流程示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本发明实施例将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本发明实施例的实施方式的充分理解。

人体行为识别算法利用传感器数据和机器学习技术，能够自动分析和识别人体动作和行为。相比传统的监控视频，人体行为识别算法可以实现实时、准确和无人为干预的监测。它可以对变电站运维人员的操作行为进行监测，检测潜在的操作失误或不规范行为，及时预警并采取相应的措施。此外，人体行为识别算法还能够识别变电站中的异常行为，如未经授权的人员进入变电站区域、设备被破坏或恶意操作等。通过实时监测和分析，可以及时发现和应对潜在的安全风险，提高变电站的安全性和稳定性。目前人工智能在视频监控中用于异常检测的最新发展只解决了部分挑战，在很大程度上忽略了异常行为随时间变化的本质。

在实际视频监控环境中，主动学习的目的是实现对动态变化环境的异常检测。训练学习时空模型来识别一开始提供的可接受的第一正常行为。然而，在动态环境中，包括未预料到的新正常行为和/或被认为是异常的现有行为转变为正常的行为，因此，检测***的发展与检测这些新场景的能力是很重要的。本申请中采用主动学习方法来解决上述问题，即使用模糊聚合法来持续训练具有特定于相应监视上下文的未知/新正常行为的时空模型。

如图1所示，本申请提出了一种基于增量时空学习的异常识别监测方法方法，包括如下步骤：

S100：建立时空模型。

时空模型可选用ISTL模型，由时空自编码器组成，从视频输入中学习外观和运动表示。时空自编码器是一种无监督学习算法，它采用反向传播的方法，通过最小化重构误差，使目标值与输入值相等。

S200：采集监控器的第一预设时间段的第一视频监控画面。

第一视频监控画面包含在给定摄像机视角下表现出正常行为的视频帧所组成的训练视频流X_train,训练视频流为高度为h，宽度为w的帧序列组成，并且R表示现实世界中摄像机视图的所有视频帧。

S300：将第一视频监控画面内的行为作为第一正常行为，并将第一正常行为输入到时空模型中，对时空模型进行训练。

将第一正常行为输入到时空模型中后，时空模型可以进行学习训练，在一些实施例中，对时空模型进行训练后可以再进行测试，测试时则采用测试视频流X_test，其中X_test中包含正常行为和异常行为的视频帧。目的是时空模型从X_train中学习正常行为的表征，随后用X_test进行验证，以区分异常行为，确定时空模型完成训练。

S400：通过完成训练的时空模型在监控器的第二预设时间段中定位具有异常行为的第二视频监控画面。

时空模型根据训练结果，会在第二预设时间段中区分出与第一正常行为不同的行为，并判定未异常行为。

S500：将第二视频监控画面发送给人工验证。

由于时空模型仅根据第一视频监控画面进行训练，因此，所识别出的异常行为存在错误的情况，此时需要人工再次进行验证，已识别的异常行为准确。

S600：若第二视频监控画面中的异常行为通过人工验证，则将异常行为标记为正常，并通过模糊聚合法将第二视频监控画面中的异常行为构建成为第二正常行为。

具体的，本申请中的ISTL模型最初在监视环境中使用预先识别的正常行为进行训练，并用于异常检测。使用人工进行验证反馈的目的是主动地为时空模型提供动态进化的正常行为。因此，如果检测到的异常行为是错误检测(假阳性)，由此可以人工将具有异常行为的第二视频监控画面中的视频帧标记为“正常”，得到第二正常行为，并将用于持续学习阶段。

在人工反馈之后，标记为正常的视频帧将用于持续训练ISTL模型，更新其正常概念的知识。

视频帧的模糊聚合丰富了ISTL模型的连续学习，从而保持了学习迭代的稳定性。在检测阶段，所有被评估的视频帧根据其重构误差用模糊测度g_λ进行标记，并基于g_λ分组为有限个数(n)个集合。随后，在持续学习阶段，模糊聚合算法将从每组模糊度量(S)中选择包含最高g_λ的k个视频帧长方体来训练ISTL模型。参数k和n在初始化时根据持续学习所用视频监控流的时长定义。连续训练的场景选择定义如式(8)；其中，其中，和d是所选择的时间长方体的索引，它们将被包含在连续训练数据集中

连续训练迭代的数据集由人工验证的假阳性检测和使用模糊聚合从正常行为中选择的时间长方体组成。这将确保持续的训练将更新检测模型捕捉新正常行为的能力，同时保持对先前已知正常行为的稳定。这种模糊聚合方法已被成功证明在物联网流挖掘、文本挖掘和视频流挖掘的持续学习中保持了稳定性和可塑性。

S700：将第二正常行为输入到时空模型中，对时空模型再次训练，并重复进行定位具有异常行为的第二视频监控画面的步骤。

在场景选择之后，ISTL模型将根据从输入视频数据中选择的表示进行持续训练，这是来自监控领域的更新的预期和可接受行为。此后，更新后的ISTL模型将被重新用于异常检测。

S800：若异常行为未通过人工验证，则将异常行为标记为非正常并记录。

可以理解的是，若经过人工验证可以确定为异常行为，则不需要再投入到时空模型的学习训练中。

在本申请一些实施例中，第一预设时间段可设为从第一时间点t₀到第二时间点t_u，第二预设时间段设为从时间点t_u到时间点t_v，与第一预设时间内连续。使得时空模型的输入监控画面均连续，避免重复或遗漏。

在本申请一些实施例中，时空模型包括：输入数据层、卷积层。

输入数据层用于对第一视频监控画面和/或第二视频监控画面进行预处理，并增强时空模型的学习能力。

如图2所示，具体的预处理的步骤包括：

S001：使用长度为T的滑动窗口提取第一视频监控画面和/或第二视频监控画面。

S002：将提取后得第一视频监控画面和/或第二视频监控画面作为连续帧，将连续帧转换为灰度降维，调整为224×224得像素值，并通过0到1的缩放对像素值进行归一化处理。

S003：将长度为T的连续帧叠加在一起构成输入时间长方体。可以理解的是，增加这个时间窗口T的长度将能够包含更长的运动。

卷积层用于对第一视频监控画面和/或第二视频监控画面进行分析并学习。

卷积层(CNN)是受到类似于动物视觉皮层组织的生物过程的启发。卷积层中神经元的连通性被设计成类似于动物视觉***的方式，使得单个皮质神经元仅在输入框架的受限区域(即接受野)对刺激做出反应。在视频分析中，卷积层可以通过使用过滤器学习特征表示来保留输入帧内的空间关系，这些过滤器的值在训练过程中学习。

在本申请一些实施例中，时空模型还包括ConvLSTM层；ConvLSTM层用于从连续帧中捕获时空特征。

RNN是通过使用内部存储器处理输入序列来捕获时间序列输入数据的动态时间行为。LSTM单元是RNN通用构件的改进。LSTM单元由一个输入门、一个输出门、一个遗忘门和一个单元组成。输入门定义输入值进入单元的程度。遗忘门控制前一个时间步骤的值在单元中保留的程度，输出门控制当前输入值用于单元激活计算的程度。单元格在任意时间间隔内记住值。由于LSTM主要用于建模长期时间相关性，它在处理空间数据方面有一个缺点，因为空间信息没有在其状态转换中编码。然而，在保持监控视频流的空间结构的同时，学习监控视频流的时间规律是至关重要的，特别是对于异常检测。因此，本申请使用LSTM的扩展，即ConvLSTM，其中输入到状态和状态到状态的转换都具有卷积结构。ConvLSTM层通过将其输入、隐藏状态、门和单元输出设计为三维张量来克服这个缺点，三维张量的最后一个维度是空间维度。此外，将其输入和门的矩阵运算替换为卷积算子。通过这些改进，ConvLSTM层能够从输入帧序列中捕获时空特征。

ConvLSTM层的模型表示为：

根据上述实施例，本申请采用的时空自编码器组成如表1所示。

表1时空自编码器组成

在本申请一些实施例中，时空模型通过异常阈值区分正常行为和异常行为，异常阈值通过人工进行选择；当异常阈值降低时，时空模型对监视器中的异常行为的检测灵敏度升高，检测出具有异常行为的第二视频监控画面的次数增多；当异常阈值升高时，时空模型对监视器中的异常行为的检测灵敏度降低，检测出具有异常行为的第二视频监控画面的次数减少。

本申请中定义了一个重构误差阈值来区分正常行为和异常行为，命名为异常阈值μ。在实际的视频监控应用中，可以人工根据监控应用所需的灵敏度选择μ的值。μ值低时将导致对监视领域的更高灵敏度，从而导致更高数量的警报。μ值高时会导致较低的灵敏度，这可能导致在监视领域中错过敏感异常。

此外，本发明引入了时间阈值λ，将其定义为应该高于μ的视频帧数，以便将事件识别为异常。λ被用来减少由于监视视频流的突然变化而引起的假阳性异常警报，其中，监视视频流的突然变化可能为遮挡，运动模糊，以及高强度的光照条件所引起。

在本申请一些实施例中，人工验证通过重构误差判断第二视频监控画面中的异常行为是否通过；重构误差表示为异常定位的每个输入时间长方体的分数，异常定位是对视频帧中发生异常的特定区域进行定位，重构误差的计算公式如式(6)和式(7)所示：

异常定位是对视频帧中发生异常的特定区域进行定位。在检测到视频片段的异常之后，通过计算非重叠时空局部长方体窗口上的重构误差来定位异常，用式(7)计算局部长方体的重构误差。

在本申请一些实施例中，通过完成训练的时空模型在监控器的第二预设时间段中定位具有异常行为的第二视频监控画面的步骤包括：如果时空模型检测到输入时间长方体的重构误差大于异常阈值，则将该输入时间长方体分类为异常，并在监控画面中进行定位得到第二视频监控画面。

ISTL模型最初在监视环境中使用预先识别的正常行为进行训练，并用于异常检测。如果检测到视频帧异常，即输入时间长方体的重构误差大于异常阈值，则将该输入时间长方体分类为异常。然后将视频帧发送由人工进行验证。

由上述内容可知，本申请提供一种基于增量时空学习的异常行为识别监测方法，包括：建立时空模型；采集监控器的第一预设时间段的第一视频监控画面；将第一视频监控画面内的行为作为第一正常行为，并将第一正常行为输入到时空模型中，对时空模型进行训练；通过完成训练的时空模型在监控器的第二预设时间段中定位具有异常行为的第二视频监控画面；将第二视频监控画面发送给人工验证；若第二视频监控画面中的异常行为通过人工验证，则将异常行为标记为正常，并通过模糊聚合法将第二视频监控画面中的异常行为构建成为第二正常行为；将第二正常行为输入到时空模型中，对时空模型再次训练，并重复进行定位具有异常行为的第二视频监控画面的步骤；若异常行为未通过人工验证，则将异常行为标记为非正常并记录。本申请通过按时间顺序检测并将第二正常行为输入到时空模型中，使得时空模型可以进行持续的学习训练，再投入到对异常行为的检测中，提高了异常行为检测的准确性。

本申请实施例需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的结构、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种结构、物品或者设备所固有的要素。在没有更多限制的情况下，有语句“包括……”限定的要素，并不排除在包括要素的结构、物品或者设备中还存在另外的相同要素。

本领域技术人员在考虑说明书及实践这里公开的公开后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

Claims

1.一种基于增量时空学习的异常行为识别监测方法，其特征在于，包括：

建立时空模型；

采集监控器的第一预设时间段的第一视频监控画面；

将所述第二视频监控画面发送给人工验证；

2.根据权利要求1所述的基于增量时空学习的异常行为识别监测方法，其特征在于，所述第一预设时间和所述第二预设时间连续；

3.根据权利要求1所述的基于增量时空学习的异常行为识别监测方法，其特征在于，所述时空模型包括：输入数据层、卷积层；

4.根据权利要求3所述的基于增量时空学习的异常行为识别监测方法，其特征在于，所述输入数据层用于对所述第一视频监控画面和/或所述第二视频监控画面进行预处理的步骤包括：

将长度为T的所述连续帧叠加在一起构成输入时间长方体。

5.根据权利要求4所述的基于增量时空学习的异常行为识别监测方法，其特征在于，所述时空模型还包括ConvLSTM层；

所述ConvLSTM层用于从所述连续帧中捕获时空特征；

所述ConvLSTM层的模型表示为：

6.根据权利要求1-5所述的任意一种基于增量时空学习的异常行为识别监测方法，其特征在于，所述时空模型通过异常阈值区分所述正常行为和所述异常行为，所述异常阈值通过人工进行选择；

7.根据权利要求6所述的基于增量时空学习的异常行为识别监测方法，其特征在于，所述人工验证通过重构误差判断所述第二视频监控画面中的所述异常行为是否通过；

8.根据权利要求7所述的基于增量时空学习的异常行为识别监测方法，其特征在于，所述通过完成训练的所述时空模型在所述监控器的第二预设时间段中定位具有异常行为的第二视频监控画面的步骤包括：