CN111225178A

CN111225178A - 基于对象检测的视频监控方法及其***

Info

Publication number: CN111225178A
Application number: CN201811402695.0A
Authority: CN
Inventors: 袁坡; 潘生俊; 赵俊能; 丹尼尔马里尼克
Original assignee: Hangzhou Eyecloud Technology Co ltd
Current assignee: Hangzhou Eyecloud Technology Co ltd
Priority date: 2018-11-23
Filing date: 2018-11-23
Publication date: 2020-06-02

Abstract

本申请涉及基于对象检测的视频监控方法及其***。该视频监控方法包括：在监控设备处于待机状态下，以运动探测器检测所述监控设备的视场内是否存有移动对象；响应于检测到所述监控设备的视场内存在移动对象，将所述监控设备从待机状态转化为工作状态，以藉由所述监控设备生成该移动对象的至少一图像；以对象检测模块处理所述至少一图像以检测所述至少一图像所包含的对象是否属于给定类别的对象；以及，响应于检测到所述至少一图像所包含的对象属于给定类别的对象，对所述监控设备的视场内的该移动对象进行视频录制。这样，有效地过滤掉错误检测，并降低所述监控设备的能耗。

Description

基于对象检测的视频监控方法及其***

技术领域

本发明总体地涉及安防监控领域，特别是涉及基于对象检测的视频监控方法及其***。

背景技术

安防监控***在人类生产和生活中起着越来越重要的作用，成为人们生活中不可或缺的一道安全屏障。目前，大多数视频监控***为移动触发式视频监控***，其基本工作原理是：检测是否存在移动对象，并在检测到存在移动对象之后开启视频监控功能。然而，在实际应用中，基于该原理工作的视频监控***具有诸多缺陷。

首先，对于移动触发式的视频监控***而言，任何具有移动能力的对象都能够触发运动探测器以开启视频监控功能并向注册用户发出检测到潜在入侵者的警报。然而，对于移动触发式的视频监控***而言，其无法辨别该具有移动能力的对象是否为期望的对象，从而造成大量的错误检测和警报。例如，当猫和狗进入该视频监控***的监控区域内时，其同样能够触发视频监控功能并产生相应的警示信号。这无疑给使用者造成巨大的困扰。

进一步地，当产生太多错误检测和警报时，用户对警报的敏感度会随之降低。很可能地，当该视频监控***检测到真实的入侵者时，用户却对警报信号失去兴趣，导致人身和财产安全受到威胁。与此同时，对于视频监控系统而言，每一次错误的检测和视频录制和传输都需要耗费一定的能量，因此，现有的视频监控***都具有能耗过大的困扰。

为了解决传统基于移动触发的视频监控***不具有对象分辨能力而导致错误检测和警报过多的缺陷，近年来人工智能识别技术被引入视频监控*** 中。通常的做法为：将对象识别技术集成于服务器。这样，当视频监控*** 检测到移动的对象时，录制的视频被传输至本地或云端服务器，以藉由部署于服务器的对象识别技术检测视频中是否包含特定类别的对象(例如，人类)，并设定仅在检测到视频中所包含的移动对象属于特定类别的对象时，产生警报信号通知注册用户，以降低错误检测和警报的几率。

通过引入对象识别的人工智能技术，视频监控***具备对象分辨能力。但是，视频监控***的耗能高的问题不仅没有解决，反而被加剧，其原因在于：视频录制并传输至云端产生额外的能耗。另一方面，这样的视频监控系统在通知注册用户方面存在一定的延时，其原因在于，视频录制并传输至服务器耗费一定的时间，以及，利用对象识别技术检测视频中所包含的对象所属类别仍需耗费一定的时间。

因此，对于一种能够满足低能耗且能降低错误检测率的视频监控***的需求是迫切的。

发明内容

为了解决上述技术问题，提出了本申请。本申请的实施例提供了一种基于对象检测的视频监控方法及其***，其通过集成于监控设备的对象检测模块检测所述监控设备采集的图像中所包含的对象的类别是否属于给定类别的对象，以智能地开始/关闭视频监控功能，通过这样的方式，有效地过滤掉错误检测和警报，并降低所述监控设备的能耗。

根据本申请的一方面，提供了一种基于对象检测的视频监控方法，包括在监控设备处于待机状态下，以运动探测器检测所述监控设备的视场内是否存有移动对象；响应于检测到所述监控设备的视场内存在移动对象，将所述监控设备从待机状态转化为工作状态，以藉由所述监控设备生成该移动对象的至少一图像；以对象检测模块处理所述至少一图像以检测所述至少一图像所包含的对象是否属于给定类别的对象，其中，所述对象检测模块以深度神经网络模型处理所述至少一图像，其中，所述深度神经网络模型包括N层深度可分离卷积层，用于获得所述至少一图像的特征图，其中，N为正整数且属于4～12，其中，每一深度可分离卷积层包括深度卷积层和逐点卷积层，所述深度卷积层，用于对每个输入通道应用单个滤波器，所述逐点卷积层，用于对所述深度卷积的输出进行线性组合以获得更新的特征图；以及，响应于检测到所述至少一图像所包含的对象属于给定类别的对象，对所述监控设备的视场内的该移动对象进行视频录制。

在上述基于对象检测的视频监控方法中，所述视频监控方法还包括：响应于检测到所述至少一图像所包含的对象属于给定类别的对象，生成所述至少一图像所包含的对象属于给定类别的对象的警示信息。

在上述基于对象检测的视频监控方法中，所述对象检测模块集成于所述监控设备。

在上述基于对象检测的视频监控方法中，以对象检测模块处理所述至少一图像以检测所述至少一图像所包含的对象是否属于给定类别的对象，包括：识别出所述至少一图像所包含的第一图像和第二图像之间的不同的图像区域；聚集所述第一图像和第二图像之间的不同的图像区域，以获得至少一感兴趣区域；对所述至少一感兴趣区域进行灰度处理；以所述深度神经网络模型处理所述灰度处理之后的所述至少一感兴趣区域，以对所述至少一感兴趣区域所包含的对象进行分类；以及，判定所述至少一感兴趣区域所包含的对象是否属于给定类别的对象。

在上述基于对象检测的视频监控方法中，在识别出所述第一图像和所述第二图像之间的不同的图像区域之前，包括：基于用于采集所述第一图像和所述第二图像的所述监控设备的物理移动，对所述第二图像进行转化以补偿该物理移动。

在上述基于对象检测的视频监控方法中，所述视频监控方法，还包括：输出所述监控设备所录制的视频数据。

在上述基于对象检测的视频监控方法中，所述视频监控方法，还包括：接收一控制信号以可选择地控制所述监控设备在待机状态和工作状态之间切换。

在上述基于对象检测的视频监控方法中，以对象检测模块处理所述至少一图像以检测所述至少一图像所包含的对象是否属于给定类别的对象，进一步包括：训练所述对象检测模块的所述深度神经网络模型，以使得所述深度神经网络模型能够识别所述给定类别的对象中的特定对象；以及，检测所述至少一图像所包含的对象是否属于给定类别的对象中的特定对象。

在上述基于对象检测的视频监控方法中，所述给定类别的对象设定为人类。

根据本申请的另一方面，提供了一种基于对象检测的视频监控***，包括：运动探测模块，用于检测监控设备的视场内是否存有移动对象；状态切换模块，用于响应于检测到所述监控设备的视场内存在移动对象，将所述监控设备从待机状态转化为工作状态，以藉由所述监控设备生成该移动对象的至少一图像；对象检测模块，用于处理所述至少一图像以检测所述至少一图像所包含的对象是否属于给定类别的对象，其中，所述对象检测模块以深度神经网络模型处理所述至少一图像，其中，所述深度神经网络模型包括N层深度可分离卷积层，用于获得所述至少一图像的特征图，其中，N为正整数且属于4～12，其中，每一深度可分离卷积层包括深度卷积层和逐点卷积层，所述深度卷积层，用于对每个输入通道应用单个滤波器，所述逐点卷积层，用于对所述深度卷积的输出进行线性组合以获得更新的特征图；以及，视频录制模块，用于响应于检测到所述至少一图像所包含的对象属于给定类别的对象，以对所述监控设备的视场内的该移动对象进行视频录制。

在上述视频监控***中，所述视频录制模块，还用于：响应于检测到所述至少一图像所包含的对象属于给定类别的对象，生成所述至少一图像所包含的对象属于给定类别的对象的警示信息。

在上述视频监控***中，所述对象检测模块，用于：识别出所述至少一图像所包含的第一图像和第二图像之间的不同的图像区域；聚集所述第一图像和第二图像之间的不同的图像区域，以获得至少一感兴趣区域；对所述至少一感兴趣区域进行灰度处理；以所述深度神经网络模型处理所述灰度处理之后的所述至少一感兴趣区域，以对所述至少一感兴趣区域所包含的对象进行分类；以及，判定所述至少一感兴趣区域所包含的对象是否属于给定类别的对象。

在上述视频监控***中，所述对象检测模块，还用于：在识别出所述第一图像和所述第二图像之间的不同的图像区域之前，基于用于采集所述第一图像和所述第二图像的所述监控设备的物理移动，对所述第二图像进行转化以补偿该物理移动。

在上述视频监控***中，所述视频录制模块，还用于：输出录制的视频数据。

在上述视频监控***中，所述状态切换模块还用于：接收一控制信号以可选择地控制所述监控设备在待机状态和工作状态之间切换。

在上述视频监控***中，所述对象检测模块，还用于：训练所述对象检测模块的所述深度神经网络，以使得所述深度神经网络识别所述给定类别的对象中的特定对象；以及，检测所述至少一图像所包含的对象是否属于给定类别的对象中的特定对象。

在上述视频监控***中，所述给定类别的对象被设定为人类。

在上述视频监控***中，还包括一客户端***，用于：接收所述视频监控模块所录制的视频数据。

在上述视频监控***中，所述客户端***，还用于：产生控制信号以可选择地控制所述监控设备在待机状态和工作状态之间切换。

根据本申请的又一方面，提供一种计算机可读存储介质，其上存储有计算机程序指令，当所述计算机程序指令被计算装置执行时，可操作来执行如上所述的基于对象检测的视频监控方法。

本申请提供的基于对象检测的视频监控方法及其***可以行之有效通过集成于监控设备的对象检测模块检测所述监控设备采集的图像中所包含的对象是否属于给定类别的对象，以智能地开始/关闭视频监控功能和产生警示信息通知注册用户，通过这样的方式，有效地过滤掉错误检测和警报，并降低所述监控设备的能耗。

附图说明

从下面结合附图对本发明实施例的详细描述中，本发明的这些和/或其它方面和优点将变得更加清楚并更容易理解，其中：

图1图示了根据本申请实施例的基于对象检测的视频监控方法的流程图。

图2图示了根据本申请实施例中以基于运动的对象检测方法处理所述至少一图像的流程示意图。

图3图示了根据本申请实施例的基于对象检测的视频监控***的框图示意图。

图4图示了根据本申请实施例的所述视频监控***的具体实施的框图示意图。

图5图示了根据本申请实施例的所述视频监控***的所述具体实施的逻辑流程示意图。

具体实施方式

下面，将参考附图详细描述根据本申请的示例实施例。显然，所描述的实施例仅是本申请的一部分实施例，而不是本申请的全部实施例，应理解本申请不受这里描述的示例实施例的限制。

申请概述

如上所述，安防监控***是人类生产和生活中不可或缺的一道安全屏障。目前，视频监控***经历了从移动触发式监控***至集成人工智能式的复杂视频监控***的演变。然而，虽然集成人工智能技术的视频监控***具有对象识别能力，但是，在实际应用中仍具有诸多缺陷。

首先，视频监控***的耗能高的问题不仅没有解决，反而被加剧。其原因在于，具有对象识别功能的人工智能算法架构于额外设置的服务器上。因此，为了进行对象检测，需先将录制的视频传输至该服务器(例如，云端服务器)，这一过程将耗费额外的能量。

其次，利用人工智能算法进行对象识别是一项计算密集型任务，因此，在利用对象识别技术检测视频中所包含的对象所属类别需耗费一定的时间。换言之，现有的视频监控***的实时性不佳。

此外，现有的用于对象检测或识别的人工智能算法大多数重点在于通过更深和更复杂的网络结构来获得更高的识别精度。图像处理是一项计算密集型任务，提升识别精度而引发的巨大计算代价将导致高延迟，这不利于人工神经网络模型在嵌入式终端(例如，监控设备)的应用推广。对于监控设备而言，低能耗，实时性和检测精度的平衡是核心技术追求。

针对上述技术问题，本申请的基本构思是首先架构满足于嵌入式平台应用的用于对象检测的神经网络模型，并将其集成地部署于监控设备的嵌入式芯片端。进而，在检测到所述监控设备的视场内存在移动对象时，利用该用于对象检测的神经网络模型对所述监控设备所采集的图像或视频数据中所包含的对象进行分类，并基于该对象属于给定类别的对象的判定结果，智能地开启/关闭所述监控设备的视频录制功能和发出相应警报信息。

基于此，本发明提供一种基于对象检测的视频监控方法及其***，其首先，在监控设备处于待机状态下，以运动探测器检测所述监控设备的视场内是否存有移动对象；然后，响应于检测到所述监控设备的视场内存在移动对象，将所述监控设备从待机状态转化为工作状态，以藉由所述监控设备生成该移动对象的至少一图像；继而，以对象检测模块处理所述至少一图像以检测所述至少一图像所包含的对象是否属于给定类别的对象，其中，所述对象检测模块以深度神经网络模型处理所述至少一图像，其中，所述深度神经网络模型包括N层深度可分离卷积层，用于获得所述至少一图像的特征图，其中， N为正整数且属于4～12，其中，每一深度可分离卷积层包括深度卷积层和逐点卷积层，所述深度卷积层，用于对每个输入通道应用单个滤波器，所述逐点卷积层，用于对所述深度卷积的输出进行线性组合以获得更新的特征图；进一步地，响应于检测到所述至少一图像所包含的对象属于给定类别的对象，对所述监控设备的视场内的该移动对象进行视频录制。这样，通过集成于监控设备的对象检测模块检测所述监控设备采集的图像中所包含的对象的类别是否属于给定类别的对象，以智能地开始/关闭视频监控功能，通过这样的方式，有效地过滤掉错误检测和警报，并降低所述监控设备的能耗。

在介绍了本申请的基本原理之后，下面将参考附图来具体介绍本申请的各种非限制性实施例。

示意性方法

图1图示了根据本申请实施例的基于对象检测的视频监控方法的流程图。如图1所示，根据本申请实施例的基于对象检测的视频监控方法，包括：S110，在监控设备处于待机状态下，以运动探测器检测所述监控设备的视场内是否存有移动对象；S120，响应于检测到所述监控设备的视场内存在移动对象，将所述监控设备从待机状态转化为工作状态，以藉由所述监控设备生成该移动对象的至少一图像；S130，以对象检测模块处理所述至少一图像以检测所述至少一图像所包含的对象是否属于给定类别的对象，其中，所述对象检测模块以深度神经网络模型处理所述至少一图像，其中，所述深度神经网络模型包括N层深度可分离卷积层，用于获得所述至少一图像的特征图，其中， N为正整数且属于4～12，其中，每一深度可分离卷积层包括深度卷积层和逐点卷积层，所述深度卷积层，用于对每个输入通道应用单个滤波器，所述逐点卷积层，用于对所述深度卷积的输出进行线性组合以获得更新的特征图；以及，S140,响应于检测到所述至少一图像所包含的对象属于给定类别的对象，对所述监控设备的视场内的该移动对象进行视频录制。

在步骤S110中，在监控设备处于待机状态下，以运动探测器检测所述监控设备的视场内是否存有移动对象。这里，所述监控设备的待机状态指的是所述监控设备的视频录制功能处于关闭的状态。在此状态下，所述监控设备对其视场内的场景不进行视频录制，以使得所述监控设备的能耗较低。

特别地，当所述监控设备处于待机状态时，对应于所述监控设备的视场区域的所述运动探测器处于工作状态，以用于检测所述监控设备的视场内是否存有移动对象。应领会的是，在安防监控领域，感兴趣的对象(或者，潜在入侵对象)通常属于有移动能力的对象(例如，人，动物，车子等)而非固定不动的对象(例如，所述监控设备所处的场景背景)。因此，基于所述运动探测器的探测结果可初步检测在所述监控设备的视场内是否存有潜在入侵者。

为了便于理解和说明，在本申请中，将所述运动探测器的检测阶段定义为初步检测阶段。在初步检测阶段中，所述监控设备的视频录制功能处于关闭状态，所述运动探测器处于工作状态，用于检测所述监控设备的视场内是否存有移动对象，以初步探测所述监控设备的视场内是否存有潜在入侵者。应领会的是，在此阶段中，所述运动探测器仅能够检测所述监控设备的视场内是否存在移动对象，而对该移动对象的具体类别以及是否真正属于入侵者无法提供更明确的判定。然而，初步检测阶段的探测结果，为是否开启所述监控设备的视频录制功能提供良好的判定基础。

在具体实施中，所述运动探测器可集成于所述监控设备，或作为独立的装置安装于所述监控设备的周围，用于检测所述监控设备的视场内是否存有移动对象。对此，本发明不作任何限制。

在步骤S120中，响应于检测到所述监控设备的视场内存在移动对象，将所述监控设备从待机状态转化为工作状态，以藉由所述监控设备生成该移动对象的至少一图像。换言之，当初步检测阶段的检测结果为真时，即，检测到所述监控设备的视场内存在移动对象时，所述监控设备的工作状态自待机状态转化为工作状态。

值得一提的是，当所述监控设备处于工作状态时，所述监控设备的视频监控功能被暂时地开启。这意味着当所述监控设备被切换至工作状态时，所述监控设备不能对其视场内的移动对象进行视频录制。相反地，在本申请实施例中，在决定是否开启所述监控设备的视频监控功能之前，还需对所述至少一图像内所包含的对象所属类别进行判定，以确定所述至少一图像所包含的对象是否属于给定类别的对象，即，是否属于潜在入侵者。通过这样的方式，可进一步地降低所述监控设备的能耗，并降低错误检测的几率。

在步骤S130中，以对象检测模块处理所述至少一图像以检测所述至少一图像所包含的对象是否属于给定类别的对象，其中，所述对象检测模块以深度神经网络模型处理所述至少一图像，其中，所述深度神经网络模型包括N 层深度可分离卷积层，用于获得所述至少一图像的特征图，其中，N为正整数且属于4～12，其中，每一深度可分离卷积层包括深度卷积层和逐点卷积层，所述深度卷积层，用于对每个输入通道应用单个滤波器，所述逐点卷积层，用于对所述深度卷积的输出进行线性组合以获得更新的特征图。换言之，以对象检测模块对所述至少一图像内所包含的对象进行分类，并确定所述至少一图像所包含的对象是否属于给定类别的对象。

特别地，在本申请的该实施例中，所述对象检测模块集成于所述监控设备，更明确地，集成于所述监控设备的处理器(例如，可编程逻辑芯片， Programmable LogicalChips，PLC)。这里，由于所述对象检测模块集成于所述监控设备，从而藉由所述监控设备所采集的所述至少一图像可直接被传输至所述对象检测模块，以利用所述对象检测模块所部署的对象检测算法对所述至少一图像所包括的对象进行检测。相较于现有的集成人工智能技术的视频监控***，藉由所述监控设备所采集的所述至少一图像无需被传输至云端以进行对象检测(当所述至少一图像包括两张或两张以上图像时，所述至少一图像亦可称为视频数据)，从而可直接消除视频传输所耗费的时间，以提高对象检测的时间有效性。

更具体地，在本申请该实施例中，所述对象检测模块以如申请号为US 16/078,253所揭露的基于运动的对象检测方法处理所述至少一图像，以检测所述至少一图像所包含的对象是否属于给定类别的对象，其主要包括如下步骤。

首先，对所述至少一图像所包含的第一图像和第二图像进行处理，以获得至少一感兴趣区域。在图像处理领域，感兴趣区域指的是包含潜在属于给定类别的候选对象的图像区域，其为整体图像的一部分。

在具体实施中，可基于所述对象检测模块的具体应用场景的特征来选择适宜的感兴趣区域提取方法。换言之，基于所述监控设备的应用场景选择适宜的感兴趣区域提取方法。在安防监控领域中，感兴趣的对象通常属于有移动能力的对象(例如，人，动物，车子)而非固定不动的对象(例如，被监控的场景背景)。也就是说，在安防监控领域中，可通过识别所述监控设备所采集的图像中的运动部分以获得所述至少一感兴趣区域。为了便于理解和说明，在本申请中，将这种感兴趣区域提取方法定义为感兴趣区域提取方法。

在图像表现上，图像中的运动部分为图像之间具有不同图像内容的图像区域。因此，为了获取所述感兴趣区域，首先，需提供至少两张图像(所述第一图像和所述第二图像)以通过所述第一图像和所述第二图像之间的对比获得图像中的运动部分。应领会的是，所述第一图像和所述第二图像具有相同的背景，从而，当场景中出现具有移动能力的对象时，在不同时间点下所采集的所述第二图像和所述第一图像的图像内容便存在差异。相应地，所述第二图像和所述第一图像之间的不同的图像区域表征着部分该具有移动能力的对象。相应地，在通过对比所述第一图像和所述第二图像以识别出图像中的运动部分之后，进一步地将图像中的运动部分进行聚集，以获得所述至少一感兴趣区域。

值得一提的是，所述第一图像和所述第二图像可被设置为所述监控设备以特定时间间隔下所拍摄的两张图像，例如，所述第一图像和所述第二图像的拍摄时间间隔可设定为0.5s。当然，所述第一图像和所述第二图像之间的时间间隔可设定为其他值。例如，所述第一图像和所述第二图像可来自所述监控设备所采集的视频数据(具有特定的时间窗口，例如15s)，且所述第一图像和所述第二图像为所述视频数据中连续的两帧。换言之，所述第一图像和所述第二图像之间的拍摄时间间隔为视频帧速。

在本申请另外的实施例中，所述第一图像可设定为标准图像(纯场景图)，所述第二图像为实时采集的该特定场景的图像，以通过所述第二图像和第一图像之间的对比捕捉在该特定场景下移动对象。换言之，在此情况下，所述第一图像为参考图像，所述第二图像藉由所述监控设备实时拍摄所得。

此外，在利用所述监控设备获得所述第一图像和所述第二图像的过程中，所述监控设备自身可能会发生物理移动(例如，平移，旋转等)，以造成所述第一图像和所述第二图像中的背景发生偏移。相应地，为了避免物理偏移造成的不良影响，在识别出所述第一图像和所述第二图像之间的不同的图像区域之前，需对所述监控设备产生的物理移动进行补偿。例如，可通过所述监控设备集成的位置传感器(例如，陀螺仪)提供的位置数据，对所述第二图像进行转化以补偿该物理移动。这里，对所述第二图像进行转化以补偿该物理移动的目的在于：对齐所述第二图像中的背景与所述第一图像中的背景。

应领会的是，在利用基于运动的感兴趣区域提取方法获得所述至少一感兴趣区域之后，所述至少一感兴趣区域作为部分图像区域(而非整个图像区域)被设定为深度神经网络模型的输入。这样，从数据源头降低深度神经网络模型的计算代价。并且，由于所述感兴趣区域提取方法基于所述监控设备的应用场景的特征而设定，因此，所述至少一感兴趣区域包含潜在属于给定类别的候选对象的可能性较高。换言之，利用所述基于运动的感兴趣区域提取方法可在不损失图像特征表现能力的前提下，降低后续所述深度神经网络模型的数据处理量。

进一步地，在藉由基于运动的感兴趣区域提取方法获得所述至少一感兴趣之后，对所述至少一感兴趣区域进行灰度处理，以将所述至少一感兴趣区域转化为灰度图像。本领域的技术人员应知晓，为了丰富地表现物体的特征，常规的图像采集装置所采集的图像一般为彩色图像(例如RGB格式或YUM 格式)，其包括亮度信息和颜色信息。相较于灰度图像，彩色图像具有更多的数据通道(R，G，B三通道)。然而，被测对象的色彩特征对于检测被测对象所属类别帮助不大甚至在某些应用场合完全没有必要。例如，在安防监控领域中，假设给定类别对象为人。在此种应用场景下，所检测到的人为何种肤色或者穿什么颜色的衣服为干扰特征，不应考虑。

相应地，对所述至少一感兴趣区域进行灰度处理的目的正式如此：一方面，通过将所述至少一感兴趣区域转化为灰度图像，以将所述至少一感兴趣区域中的色彩信息过滤掉，从而降低深度神经网络模型的计算代价；另一方面，可有效地防止所述至少一感兴趣区域中的色彩信息对对象检测和识别造成不良影响。

为了进一步地降低深度神经网络的计算代价，还可将所述至少一感兴趣区域的尺寸缩减为特定尺寸，例如，128×128pixel。这里，所述至少一感兴趣区域的缩减尺寸取决于具体应用场景中对于对象检测的精度要求，以及，后续提及的用于处理所述灰度图像的深度神经网络模型架构。换言之，所述至少一感兴趣区域的缩减尺寸需要基于所述深度神经网络模型的架构特征和对象检测的精度要求进行调整。对此，本申请不作任何限制。

进一步地，以所述深度神经网络模型处理所述灰化之后的所述至少一感兴趣区域，以对所述至少一感兴趣区域所包含的对象进行分类，并判定所述至少一感兴趣区域所包含的对象是否属于给定类别的对象。

特别地，本申请所提供的所述深度神经网络模型基于深度可分离卷积层(Depthwise Sparable convolution layers)进行架构，其中，所述深度可分离卷积层以深度可分离卷积运算替换传统的卷积运算来解决所述深度神经网络模型的计算效率和参数量的问题。这里，深度可分离卷积运算指的是将传统的卷积运算分解为深度卷积(Depthwise convolution)和逐点卷积(Pointwise Convolution),其中，所述深度卷积用于对每个输入通道应用单个滤波器，所述逐点卷积用于对所述深度卷积的输出进行线性组合以获得更新的特征图。通过卷积运算分解有效地减少所述深度神经网络模型的计算代价和降低其模型尺寸。换言之，在本申请该实施例中，每一所述深度可分离卷积层包括深度卷积层，用于对每个输入通道应用单个滤波器，以及逐点卷积层，用于对所述深度卷积的输出进行线性组合以获得更新的特征图。换言之，在本申请该实施例中，采用调整卷积运算的方式对所述深度神经网络模型进行压缩优化，以使得其满足嵌入式平台的应用需求。

更具体地，在本申请的该实施例中，所述深度神经网络模型包括N层深度可分离卷积层，用于获得所述至少一图像的特征图，其中，N为正整数且属于4～12。这里，所述深度可分离卷积层的层数取决于具体应用场景中对于延迟度和精度的要求。特别地，以所述对象检测方法用于如上所述的安防监控领域为例，所述深度神经网络模型包括5层所述深度可分离卷积层，其中，第一所述深度可分离卷积层包括32个尺寸为3×3的滤波因子(所述深度卷积层)以及对应数量的1×1的滤波因子(所述驻点卷积层)；与所述第一所述深度可分离层相连的第二所述深度可分离层包括64个尺寸为3×3的滤波因子 (所述深度卷积层)以及对应数量的1×1的滤波因子(所述驻点卷积层)；与所述第二所述深度可分离层相连的第三所述深度可分离层包括128个尺寸为 3×3的滤波因子(所述深度卷积层)以及对应数量的1×1的滤波因子(所述驻点卷积层)；与所述第三所述深度可分离层相连的第四所述深度可分离层包括256个尺寸为3×3的滤波因子(所述深度卷积层)以及对应数量的1×1的滤波因子(所述驻点卷积层)；以及，与所述第四所述深度可分离层相连的第五所述深度可分离层包括1024个尺寸为3×3的滤波因子(所述深度卷积层) 以及对应数量的1×1的滤波因子(所述驻点卷积层)。

在藉由预设数量的所述深度可分离卷积层获得所述灰度图像的特征图之后，所述深度神经网络模型进一步地以对所述至少一感兴趣区域所包含的对象进行分类，并判定所述至少一感兴趣区域所包含的对象是否属于给定类别的对象。特别地，在本申请该实施例中，所述深度网络神经网络模型以 Softmax多分类模型对所述灰度图像中所包含的候选对象进行分类。

综上，以如申请号为US16/078,253所揭露的基于运动的对象检测方法处理所述至少一图像，以检测所述至少一图像所包含的对象是否属于给定类别的对象的过程被说明。

图2图示了根据本申请实施例中以基于运动的对象检测方法处理所述至少一图像的过程的流程示意图。如图2所示，以基于运动的对象检测方法处理所述至少一图像的过程，包括：S210，识别出所述至少一图像所包含的第一图像和第二图像之间的不同的图像区域，S220，聚集所述第一图像和第二图像之间的不同的图像区域，以获得至少一感兴趣区域，S230，对所述至少一感兴趣区域进行灰度处理，S240，以所述深度神经网络模型处理所述灰度处理之后的所述至少一感兴趣区域，以对所述至少一感兴趣区域所包含的对象进行分类，以及，S250，判定所述至少一感兴趣区域所包含的对象是否属于给定类别的对象。

为了便于理解和说明，在本申请中，将利用所述对象检测模块进行对象检测的阶段定义为精确检测阶段。在精确检测阶段中，所述监控设备处于工作状态以捕捉位于所述监控设备的视场内的该移动对象的至少一图像，并利用所述对象检测模块以基于运动的对象检测方法对所述至少一图像内所包含的对象进行分类以及判定所述至少一感兴趣区域所包含的对象是否属于给定类别的对象。换言之，在本申请的该实施例中，在决定是否开启所述监控设备的视频监控功能之前，需经过两个逐步深化的检测阶段：初步检测阶段和精确检测阶段，通过这样的方式，逐步有效地过滤掉错误检测和错误警报，并降低所述监控设备的能耗。

在步骤S140中,响应于检测到所述至少一图像所包含的对象属于给定类别的对象，以所述监控设备对所述监控设备的视场内的该移动对象进行视频录制。换言之，当检测所述至少一图像所包含的对象属于给定类别的对象时，所述监控设备的视频录制功能被开启，以对所述监控设备的视场内的该移动对象进行视频监控。

在安防监控领域中，所述给定类别的对象可被设置为人类。也就是说，所述对象检测模块的功能为处理所述至少一图像以检测所述至少一图像所包含的对象是否属于人类。当检测到所述至少一图像所包含的对象属于人类时，所述监控设备的视频录制功能被开启，以对位于所述监控设备的视场内的潜在入侵者进行视频录制和监控。当检测到所述至少一图像所包含的对象不属于人类时，所述监控设备回到待机模式，以有效地降低所述监控设备的能耗。

为了提高安全性，当检测到所述至少一图像所包含的对象属于给定类别的对象时，警示信息被生成以提醒相应的注册用户：在所述监控设备的视场内存在潜在入侵者。与此同时，藉由所述监控设备录制的视频可同步地传输至所述注册用户的客户端***，以供所述注册用户远程查看所述监控设备所设置的区域内实时所发生的情况。这里，注册的用户指的是预先设定于所述监控设备内，具有接收相应警示信息和接收视频数据等权限的用户。

在具体实施中，所述警示信息和/或所述录制的视频数据可通过与所述监控设备可通信地连接的Wi-Fi设备传输至所述注册用户的客户端***(例如，智能手机等)，从而，所述注册用户能够远程地查看所述监控设备所设置的区域内所发生的情况。或者，优选地，所述警示信息和/或录制的视频数据可预先传输至云端服务器，并进一步地通过所述云端服务器将录制的视频数据和/ 或所述警示信息传输至所述注册用户的客户端***。这里，通过设立所述云端服务器作为所述录制的视频数据的中转站，利于视频数据的储存、管理，防止数据丢失。

相应地，注册用户可藉由所述客户端***控制所述监控设备的工作状态。例如，在本申请的一实施例中，所述注册用户可通过所述客户端***发送一控制信号至所述监控设备，以使得藉由所述控制信号，可选择地控制所述监控设备在待机状态和工作状态之间切换。换言之，藉由所述客户端***，所述注册用户与所述监控设备之间的互动性得以增强，从而所述注册用户能根据自身需求对所述监控设备进行功能和参数设定或接受来自所述监控设备的视频数据和警示信息，以提升用户体验。

为了进一步地降低所述视频监控***的错误检测几率和过滤掉不必要的警报，在本申请的一实施例中，用于检测所述监控设备所采集的至少一图像中所包含的对象所属类别的所述对象检测模块被强化训练，以使得所述对象检测模块能够识别所述给定类别的对象中的特定对象。以所述给定类别的对象为人类为示例，强化训练之后的所述对象检测模块能够识别所述注册用户以及注册用户许可的用户(例如，注册用户的家庭成员和朋友等)。这样，所述监控设备的视频监控功能被强化为：当检测所述至少一图像所包含的对象是否属于给定类别的对象中的特定对象时，所述监控设备的视频监控功能被开启。通过这样的方式，所述视频监控***可进一步地滤除不必要的误报。应领会的是，强化之后的所述视频监控***与用户实际情况更具相关性，实用性。

综上，基于对象检测的视频监控方法被阐明，其通过集成于所述监控设备的对象检测模块检测所述监控设备所采集的至少一图像中所包含的对象是否属于给定类别的对象，并基于此判定，智能地开始/关闭所述监控设备的视频监控功能和发出警报信号，通过这样的方式，有效地过滤掉错误检测和警报，并降低所述监控设备的能耗。

示意性视频监控***

图3图示了根据本申请实施例的基于对象检测的视频监控***的框图。

如图3所示，根据本申请实施例的所述视频监控***300，包括：运动探测模块310，用于检测监控设备的视场内是否存有移动对象；状态切换模块320，用于响应于检测到所述监控设备的视场内存在移动对象，将所述监控设备从待机状态转化为工作状态，以藉由所述监控设备生成该移动对象的至少一图像；对象检测模块330，用于处理所述至少一图像以检测所述至少一图像所包含的对象是否属于给定类别的对象，其中，所述对象检测模块以深度神经网络模型处理所述至少一图像，其中，所述深度神经网络模型包括 N层深度可分离卷积层，用于获得所述至少一图像的特征图，其中，N为正整数且属于4～12，其中，每一深度可分离卷积层包括深度卷积层和逐点卷积层，所述深度卷积层，用于对每个输入通道应用单个滤波器，所述逐点卷积层，用于对所述深度卷积的输出进行线性组合以获得更新的特征图；以及，视频录制模块340，用于响应于检测到所述至少一图像所包含的对象属于给定类别的对象，以对所述监控设备的视场内的该移动对象进行视频录制。

在一个示例中，在上述视频监控***300中，所述视频录制模块340，还用于：响应于检测到所述至少一图像所包含的对象属于给定类别的对象，生成所述至少一图像所包含的对象属于给定类别的对象的警示信息

在一个示例中，在上述视频监控***300中，所述对象检测模块330，用于：识别出所述至少一图像所包含的第一图像和第二图像之间的不同的图像区域；聚集所述第一图像和第二图像之间的不同的图像区域，以获得至少一感兴趣区域；对所述至少一感兴趣区域进行灰度处理；以所述深度神经网络模型处理所述灰度处理之后的所述至少一感兴趣区域，以对所述至少一感兴趣区域所包含的对象进行分类；以及，判定所述至少一感兴趣区域所包含的对象是否属于给定类别的对象。

在一个示例中，在上述视频监控***300中，所述对象检测模块330，还用于：在识别出所述第一图像和所述第二图像之间的不同的图像区域之前，基于用于采集所述第一图像和所述第二图像的所述监控设备的物理移动，对所述第二图像进行转化以补偿该物理移动。

在一个示例中，在上述视频监控***300中，所述视频录制模块340，还用于：输出所述监控设备所录制的视频数据。

在一个示例中，在上述视频监控***300中，所述状态切换模块320，还用于：接收一控制信号以可选择地控制所述监控设备在待机状态和工作状态之间切换。

在一个示例中，在上述视频监控***300中，所述对象检测模块330，还用于：训练所述对象检测模块的所述深度神经网络，以使得所述深度神经网络识别所述给定类别的对象中的特定对象；以及，检测所述至少一图像所包含的对象是否属于给定类别的对象中的特定对象。

在一个示例中，在上述视频监控***300中，所述给定类别的对象为人类。

在一个示例中，在上述视频监控***300中，还包括一客户端***350，用于：接收所述视频监控模块所录制的视频数据。

在一个示例中，在上述视频监控***300中，所述客户端***350，还用于：产生控制信号以可选择地控制所述监控设备在待机状态和工作状态之间切换。

这里，本领域技术人员可以理解，上述视频监控***300中的各个单元和模块的具体功能和操作已经在上面参考图1和图2描述的基于对象检测的视频监控方法中详细介绍，并因此，将省略其重复描述。

值得一提的是，所述视频监控***300中的各个模块310,320,330,340可被单独实施为一个软件模块或硬件模块或者软件模块和硬件模块的结合，或者所述视频监控***的多个模块310,320,330,340可集成于同一软件模块或硬件模块或软件模块和硬件模块的结合。对此，并不为本申请所局限。

图4图示了根据本申请实施例的所述视频监控***的具体实施的框图示意图。如图4所示，在本申请实施例中，所述视频监控***300包括一监控设备301、一云端服务器302和一客户端***303，其中，所述监控设备301，所述云端服务器302和所述客户端***303相互可通信地连接(例如，通过 Wi-Fi等)。所述监控设备301包括一运动检测模块3010，一成像模块3011，一图像处理模块3012和一编码模块3013。其中，所述运动检测模块3010用于检测所述监控设备301的视场内是否存有移动对象，所述成像模块3011 用于生成所述监控设备301的视场内的该移动对象的至少一图像，所述图像处理模块3012，用于处理所述至少一图像以检测所述至少一图像所包含的对象是否属于给定类别的对象，以及，所述编码模块3013，用于对所述监控设备301的视场内的该移动对象进行视频录制并将视频数据传输至所述云端服务器302。进一步地，通过所述云端服务器302能够将录制的视频数据和/ 或所述警示信息传输至所述注册用户的客户端***303，以允许所述注册用户能够通过所述客户端***303对所述监控设备301所监控的区域进行远程监控。

相应地，注册用户可通过所述客户端***303对所述监控设备301进行控制。通过所述客户端***303，所述注册用户可传输一控制信号至所述监控设备301，例如，所述控制信号为实时视频监控请求。相应地，在接收到所述实时视频监控请求之后，所述监控设备301的所述编码模块3013和所述成像模块3011被开启，以对所述监控设备301的视场内的该移动对象进行视频录制并将录制视频传输至所述云端服务器302。进而，通过所述云端服务器302能够将录制的视频数据和/或所述警示信息传输至所述注册用户的客户端***303，以供所述注册用户远程监控。同样可行的是，所述控制信号可被设置为实时视频监控停止请求。相应地，在接收到所述实时视频监控停止请求之后，所述监控设备301的所述编码模块3013和所述成像模块 3011被关闭，以使得所述监控设备301被切换至低功耗待机模式

值得一提的是，所述监控设备301可以以“逐块”的方式进行能耗管理，并基于特定的需求打开/关闭所需的功能模块。例如，当所述监控设备301处于待机模式时，除了所述运动检测模块3010，所述监控设备301的其他功能模块可被设置处于待机状态，以降低所述监控设备301在待机模式下的功耗。当所述监控设备301处于工作状态，所述成像模块3011和所述图像处理模块3012被切换至工作状态，以通过所述成像模块3011采集该移动对象的至少一图像和通过所述图像处理模块3012检测所述至少一图像所包含的对象是否属于给定类别的对象。进一步地，当检测到所述至少一图像所包含的对象属于给定类别的对象时，可进一步地开启所述编码模块3013，以进行视频录制和传输。通过这样的方式，能有效地降低所述监控设备301的能耗。

图5图示了根据本申请实施例的所述视频监控***的所述监控设备的控制逻辑的流程示意图。如图5所示，在本申请实施例中，首先以客户端*** 303控制启动所述监控设备301，以使得所述监控设备301进入低功率待机模式。此时，所述监控设备301的大部分功能模块处于关闭状态，所述运动检测模块3010处于开启状态，用于检测所述监控设备301的视场内是否存有移动对象。当检测到所述监控设备301的视场内存有移动对象时，所述监控设备301进入对象检测状态，以检测该移动对象是否属于给定类别的对象。这里，在本申请实施例中，所述给定类别的对象为人类，换言之，当所述监控设备301进入对象检测状态时，所述监控设备301的所述成像模块3011 和所述图像处理模块3012被开启，以用于检测该移动对象是否属于人类。

进一步地，当所述监控设备301检测到该移动对象为人类时，所述监控设备301进入视频记录和传输状态。在此状态下，所述监控设备301的所述编码模块3013和所述成像模块3011被开启，以对所述监控设备301的视场内的该移动对象进行视频录制并进行视频传输。应容易理解，当所述监控设备301处于视频记录和传输状态时，所述监控设备301处于最高功耗状态，其中，被录制的视频被随后传输至所述云端服务器302。相应地，当所述监控设备301未检测到该移动对象为人类时，则，所述监控设备301将返回至待机模式。

如图5所示，当所述监控设备301处于低功率待机模式时，注册用户还可通过所述客户端***303对所述监控设备301进行控制。通过所述客户端 ***303，所述注册用户可传输一控制信号至所述监控设备301，例如，所述控制信号为实时视频监控请求。相应地，在接收到所述实时视频监控请求之后，所述监控设备301的所述编码模块3013和所述成像模块3011被开启，以对所述监控设备的视场内的该移动对象进行视频录制并将录制视频传输至所述云端服务器302。进而，通过所述云端服务器302能够将录制的视频数据和/或所述警示信息传输至所述注册用户的客户端***303，以供所述注册用户远程监控。同样可行的是，所述控制信号可被设置为实时视频监控停止请求。相应地，在接收到所述实时视频监控停止请求之后，所述监控设备301的所述编码模块3013和所述成像模块3011被关闭，以使得所述监控设备301被切换至低功耗待机模式。

示意性计算机程序产品

除了上述方法和设备以外，本申请的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的基于对象检测的视频监控方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程序程序设计语言，诸如“，还语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本申请的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的基于对象检测的视频监控方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本申请的基本原理，但是，需要指出的是，在本申请中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本申请为必须采用上述具体的细节来实现。

本申请中涉及的器件、装置、设备、***的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、***。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇 “和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

还需要指出的是，在本申请的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此，本申请不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种基于对象检测的视频监控方法，包括：

在监控设备处于待机状态下，以运动探测器检测所述监控设备的视场内是否存有移动对象；

响应于检测到所述监控设备的视场内存在移动对象，将所述监控设备从待机状态转化为工作状态，以藉由所述监控设备生成该移动对象的至少一图像；

以对象检测模块处理所述至少一图像以检测所述至少一图像所包含的对象是否属于给定类别的对象，其中，所述对象检测模块以深度神经网络模型处理所述至少一图像，其中，所述深度神经网络模型包括N层深度可分离卷积层，用于获得所述至少一图像的特征图，其中，N为正整数且属于4～12，其中，每一深度可分离卷积层包括深度卷积层和逐点卷积层，所述深度卷积层，用于对每个输入通道应用单个滤波器，所述逐点卷积层，用于对所述深度卷积的输出进行线性组合以获得更新的特征图；以及，响应于检测到所述至少一图像所包含的对象属于给定类别的对象，对所述监控设备的视场内的该移动对象进行视频录制。

2.如权利要求1所述的视频监控方法，还包括：

响应于检测到所述至少一图像所包含的对象属于给定类别的对象，生成所述至少一图像所包含的对象属于给定类别的对象的警示信息。

3.如权利要求2所述的视频监控方法，其中，所述对象检测模块集成于所述监控设备。

4.如权利要求3所述的视频监控方法，其中，以对象检测模块处理所述至少一图像以检测所述至少一图像所包含的对象是否属于给定类别的对象，包括：

识别出所述至少一图像所包含的第一图像和第二图像之间的不同的图像区域；

聚集所述第一图像和第二图像之间的不同的图像区域，以获得至少一感兴趣区域；

对所述至少一感兴趣区域进行灰度处理；以所述深度神经网络模型处理所述灰度处理之后的所述至少一感兴趣区域，以对所述至少一感兴趣区域所包含的对象进行分类；以及

判定所述至少一感兴趣区域所包含的对象是否属于给定类别的对象。

5.如权利要求4所述的视频监控方法，其中，在识别出所述第一图像和所述第二图像之间的不同的图像区域之前，包括：

基于用于采集所述第一图像和所述第二图像的所述监控设备的物理移动，对所述第二图像进行转化以补偿该物理移动。

6.如权利要求5所述的视频监控方法，还包括：输出所述监控设备所录制的视频数据。

7.如权利要求1所述的视频监控方法，还包括：接收一控制信号以可选择地控制所述监控设备在待机状态和工作状态之间切换。

8.如权利要求1所述的视频监控方法，以对象检测模块处理所述至少一图像以检测所述至少一图像所包含的对象是否属于给定类别的对象，进一步包括：

训练所述对象检测模块的所述深度神经网络模型，以使得所述深度神经网络模型能够识别所述给定类别的对象中的特定对象；以及

检测所述至少一图像所包含的对象是否属于给定类别的对象中的特定对象。

9.如权利要求1-8所述的基于对象检测的视频监控方法，其中，所述给定类别的对象为设定为人类。

10.一种基于对象检测的视频监控***，其特征在于，包括：

运动探测模块，用于检测监控设备的视场内是否存有移动对象；

状态切换模块，用于响应于检测到所述监控设备的视场内存在移动对象，将所述监控设备从待机状态转化为工作状态，以藉由所述监控设备生成该移动对象的至少一图像；

对象检测模块，用于处理所述至少一图像以检测所述至少一图像所包含的对象是否属于给定类别的对象，其中，所述对象检测模块以深度神经网络模型处理所述至少一图像，其中，所述深度神经网络模型包括N层深度可分离卷积层，用于获得所述至少一图像的特征图，其中，N为正整数且属于4～12，其中，每一深度可分离卷积层包括深度卷积层和逐点卷积层，所述深度卷积层，用于对每个输入通道应用单个滤波器，所述逐点卷积层，用于对所述深度卷积的输出进行线性组合以获得更新的特征图；以及

视频录制模块，用于响应于检测到所述至少一图像所包含的对象属于给定类别的对象，以对所述监控设备的视场内的该移动对象进行视频录制。

11.如权利要求10所述的基于对象的视频监控***，所述视频录制模块，还用于：响应于检测到所述至少一图像所包含的对象属于给定类别的对象，生成所述至少一图像所包含的对象属于给定类别的对象的警示信息。

12.如权利要求11所述的基于对象的视频监控***，其中，所述对象检测模块，用于：

对所述至少一感兴趣区域进行灰度处理；

以所述深度神经网络模型处理所述灰度处理之后的所述至少一感兴趣区域，以对所述至少一感兴趣区域所包含的对象进行分类；以及

13.如权利要求12所述的基于对象检测的视频监控***，其中，所述对象检测模块，还用于：在识别出所述第一图像和所述第二图像之间的不同的图像区域之前，基于用于采集所述第一图像和所述第二图像的所述监控设备的物理移动，对所述第二图像进行转化以补偿该物理移动。

14.如权利要求13所述的基于对象检测的视频监控***，其中，所述视频录制模块，还用于：输出录制的视频数据。

15.如权利要求14所述的基于对象检测的视频监控***，所述状态切换模块还用于：接收一控制信号以可选择地控制所述监控设备在待机状态和工作状态之间切换。

16.如权利要求15所述的基于对象检测的视频监控***，所述对象检测模块，还用于：

17.如权利要求16所述的基于对象检测的视频监控***，其中，所述给定类别的对象为人类。

18.如权利要求10-17任一所述的基于对象检测的视频监控***，还包括一客户端***，用于：接收所述视频录制模块所录制的视频数据。

19.如权利要求18所述的基于对象检测的视频监控***，其中，所述客户端***，还用于：产生控制信号以可选择地控制所述监控设备在待机状态和工作状态之间切换。

20.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序指令，当所述计算机程序指令被计算装置执行时，可操作来执行如权利要求1-9中任一项所述的基于对象检测的视频监控方法。