CN112055172A

CN112055172A - 一种监控视频的处理方法、装置以及存储介质

Info

Publication number: CN112055172A
Application number: CN202010838479.1A
Authority: CN
Inventors: 程德强; 郑春煌; 吴剑峰
Original assignee: Zhejiang Dahua Technology Co Ltd
Current assignee: Zhejiang Dahua Technology Co Ltd
Priority date: 2020-08-19
Filing date: 2020-08-19
Publication date: 2020-12-08
Anticipated expiration: 2040-08-19
Also published as: EP4176406A1; EP4176406A4; WO2022037587A1; CN112055172B; US20230177796A1

Abstract

本申请公开了一种监控视频的处理方法、装置以及存储介质，属于视频处理技术领域。本申请公开的监控视频的处理方法从监控视频中获取到符合第一预设条件的运动目标的目标框之后，将目标框所在的区域图像进行神经网络训练，从而将对应的运动目标进行分类，然后将符合第二预设条件的目标框加上输出标记，进而响应于目标框存在输出标记，保存监控视频。可见，本申请利用神经网络训练对运动目标进行准确地分类，从而区分真正的运动目标和灯光、树叶等假象运动目标，而且给真正的运动目标对应的目标框加上输出标记，进行存储带有输出标记的目标框所在的图像帧，保存监控视频，从而能够将含有真正运动目标的图像帧筛选出并保存，节约存储空间。

Description

一种监控视频的处理方法、装置以及存储介质

技术领域

本申请涉及视频处理技术领域，特别是涉及一种监控视频的处理方法、装置以及存储介质。

背景技术

当今社会，视频监控已经广泛应用于各类场合。通过对监控视频的分析和存储，在后续出现问题时，能够及时追溯和检索相关监控视频。但是由于监控视频的数据量非常庞大，这些视频数据无论是保存在本地还是上传到服务器，都需要极大的存储空间。而且这些监控视频中存在大量的无用帧，即不存在运动目标的图像帧，浪费了存储空间。现有技术中，通用做法是对视频进行运动目标检测，当检测不到运动物体时不进行视频保存，只有在检测到运动目标时才将此时间段的视频保存下来，但现有的运动目标检测方法不够精确，无法准确区分真正的运动目标与假象运动目标，导致保存下来的视频仍然浪费了大量存储空间。

发明内容

本申请主要解决的技术问题是提供一种监控视频的处理方法、装置以及存储介质，能够对监控视频中的运动目标进行精确分类，从而将含有真正运动目标的图像帧筛选出并保存，节约存储空间。

为解决上述技术问题，本申请采用的一个技术方案是：

提供一种监控视频的处理方法，包括：

获取监控视频中符合第一预设条件的运动目标的目标框；

对所述目标框所在的区域图像进行神经网络训练，以对所述目标框对应的所述运动目标进行分类并获取所述目标框的类别信息；

依据所述类别信息判断所述目标框是否符合第二预设条件；

如果符合，则将所述目标框加上输出标记；

响应于所述目标框存在所述输出标记，保存所述监控视频。

为解决上述技术问题，本申请采用的另一个技术方案是：

提供一种监控视频的处理装置，包括存储器和处理器，所述存储器上存储有程序指令，所述处理器用于执行所述程序指令以实现如上述技术方案所述的监控视频的处理方法。

为解决上述技术问题，本申请采用的另一个技术方案是：

提供一种计算机可读存储介质，所述存储介质上存储有程序指令，所述程序指令能够被处理器执行以实现如上述技术方案所述的监控视频的处理方法。

本申请的有益效果是：区别于现有技术的情况，本申请提供的监控视频的处理方法从监控视频中获取到符合第一预设条件的运动目标的目标框之后，将目标框所在的区域图像进行神经网络训练，从而将对应的运动目标进行分类并获取目标框的类别信息，然后依据该类别信息将符合第二预设条件的目标框加上输出标记，进而响应于目标框存在输出标记，保存监控视频。可见，本申请利用神经网络训练对运动目标进行准确地分类，从而区分真正的运动目标和灯光、树叶等假象运动目标，而且给真正的运动目标对应的目标框加上输出标记，进行存储带有输出标记的目标框所在的图像帧，保存监控视频，从而能够将含有真正运动目标的图像帧筛选出并保存，节约存储空间。

附图说明

为了更清楚地说明本申请实施方式中的技术方案，下面将对实施方式描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。其中：

图1为本申请监控视频的处理方法一实施方式的流程示意图；

图2为是图1中步骤S11一实施方式的流程示意图；

图3为图2中步骤S21一实施方式的流程示意图；

图4为图2中步骤S22一实施方式的流程示意图；

图5为图1中步骤S12之后的步骤一实施方式的流程示意图；

图6为图1中步骤S13一实施方式的流程示意图；

图7为图1中步骤S15一实施方式的流程示意图；

图8为本申请监控视频的处理方法另一实施方式的流程示意图；

图9为本申请监控视频的处理装置一实施方式的结构示意图；

图10为本申请计算机可读存储介质一实施方式的结构示意图。

具体实施方式

下面将结合本申请实施方式中的附图，对本申请实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式仅仅是本申请一部分实施方式，而不是全部实施方式。基于本申请中的实施方式，本领域普通技术人员在没有做出创造性的劳动前提下所获得的所有其他实施方式，都属于本申请保护的范围。

监控视频由多帧图像构成，有的图像帧中没有运动目标，有的图像帧中有一个或者多个运动目标，这些运动目标有一些是真正的运动目标，有一些是比如灯光、树叶等假象运动目标。如果仅仅利用现有技术将含有运动目标的图像帧直接存储为视频片段，则会造成浪费存储空间的问题。为解决这一问题，本申请提出了如下技术方案。

请参阅图1，图1为本申请监控视频的处理方法一实施方式的流程示意图，该处理方法包括如下步骤：

步骤S11，获取监控视频中符合第一预设条件的运动目标的目标框。

监控视频由多帧图像构成，本实施方式的操作对象是单帧图像，将从监控视频中获取的正在处理的图像帧定义为当前帧图像，通过现有技术中的方法判断出当前帧图像存在运动目标(可能是真正的运动目标，也可能是假象运动目标)之后，获取符合第一预设条件的运动目标的目标框。也就是说，本实施方式将更有可能是真正的运动目标的目标框筛选出，以进行进一步判断。

在一些实施方式中，请参阅图2，图2为是图1中步骤S11一实施方式的流程示意图，即可以通过如下步骤获取监控视频中符合第一预设条件的运动目标的目标框：

步骤S21，响应于监控视频的当前帧图像中存在运动目标，从当前帧图像中获取所有运动目标对应的目标框，并获取每个目标框的运动检测跟踪序列。

首先，通过现有技术中的方法判断出当前帧图像存在运动目标(一个或者多个)之后，从当前帧图像中获取所有运动目标对应的目标框。在一些实施方式中，请参阅图3，图3为图2中步骤S21一实施方式的流程示意图，即所述响应于监控视频的当前帧图像中存在运动目标，从当前帧图像中获取所有运动目标对应的目标框的步骤可以包括如下步骤：

步骤S31，通过背景建模算法获取监控视频的背景图像。

本申请中监控视频对应的监控摄像头是固定不动的，因此监控视频有一个固定的背景图像，本实施方式对监控视频进行实时的高斯背景建模(也适用于其它背景建模算法，如帧差算法、vibe算法)，获取稳定的背景图像。

步骤S32，对背景图像和当前帧图像做差分处理和二值化处理，以获取二值化图像。

获取到稳定的背景图像之后，对当前帧图像与背景图像做差分处理和二值化处理，即获取当前帧图像与背景图像的像素差值的绝对值，并进行二值化处理，得到二值化的差值图像。

步骤S33，对二值化图像做形态学操作以及连通域分析，并判断是否存在运动目标。

得到当前帧图像的二值化差值图像之后，对其做腐蚀膨胀等形态学操作，再进行连通域分析，以判断当前帧图像中是否存在运动目标。

步骤S34，如果存在，则从当前帧图像中获取运动目标的目标框。

如果当前帧图像中存在运动目标，则从当前帧图像中获取运动目标的目标框，可能有一个，也可能有多个，可能是真正的运动目标，也可能是假象运动目标。

步骤S35，如果不存在，则舍弃当前帧图像。

如果当前帧图像中不存在运动目标，也就是当前帧图像与背景图像的差值很小，在预设差值阈值以下，则舍弃当前帧图像，即不存储当前帧图像。

上述步骤S31-S35为现有技术中的公知，本申请不进行详细描述。

通过上述步骤S31-S35获取到当前帧图像中的所有运动目标的目标框之后，获取每个目标框的运动检测跟踪序列，即每个运动检测跟踪序列对应一个目标框和一个运动目标。其中，可采用关联匹配算法、卡尔曼滤波等算法对每个目标框做跟踪处理从而获取到对应的运动检测跟踪序列。

每个运动检测跟踪序列中包含对应目标框的生命周期、智能检测帧数和对应目标框所在区域的背景差值。目标框的生命周期包括目标框在监控视频中出现的次数，可以作为判断该目标框对应的运动目标是否为真正的运动目标的辅助判断标准。在第一次从当前帧图像中获取到该目标框之后，在其对应的运动检测跟踪序列中将其生命周期设置为第二初始值(例如设置为1)，后续在其他的图像帧中每获取到一次同一目标框之后，将对应目标框的运动检测跟踪序列中对应的生命周期加1。目标框的智能检测帧数用于指示后续对其进行神经网络训练的参数，在第一次从当前帧图像中获取到该目标框之后，在其对应的运动检测跟踪序列中将其智能检测帧数设置为第一初始值，例如设置为0。对于智能检测帧数的其他设置将在下面进行描述。目标框的背景差值是指当前帧图像中目标框所在区域与背景图像中对应区域的差值，也可以作为判断该目标框对应的运动目标是否为真正的运动目标的辅助判断标准。

获取当前帧图像中每个运动目标的运动检测跟踪序列是为了后续依据运动检测跟踪序列中的各种参数进行筛选以及判断出真正的运动目标。

步骤S22，筛选出符合第一预设条件的运动检测跟踪序列对应的目标框。

获取到当前帧图像中每个运动目标的运动检测跟踪序列之后，将运动检测跟踪序列中的部分参数作为判断依据，从中筛选出更有可能是真正的运动目标的目标框进行神经网络训练，具体的筛选过程将在下面描述。

步骤S12，对目标框所在的区域图像进行神经网络训练，以对目标框对应的运动目标进行分类并获取目标框的类别信息。

本实施方式预先训练有卷积神经网络，所述卷积神经网络可以对输入其中的图像进行语义分割，对每个像素点进行分类。在筛选出符合第一预设条件的目标框之后，根据该目标框的坐标裁剪出其所在的区域图像，再输入上述卷积神经网络，从而对目标框对应的运动目标进行分类。也就是说，需要从监控视频中存储何种类型的运动目标，则训练出能分类该种类型的运动目标的卷积神经网络，实现准确分类，从而减少存储视频片段占用的存储空间。而且，由于卷积神经网络采用的是裁剪的图像，输入大小可采用64*64～256*256之间，能够减少网络的层数，控制卷积神经网络部分使用的耗时，提高对运动目标进行分类的效率。

步骤S13，依据类别信息判断目标框是否符合第二预设条件。

利用卷积神经网络对目标框进行分类之后，可以依据类别信息判断目标框是否符合第二预设条件，具体依据与类别信息对应的生命周期进行判断，以对目标框进一步筛选，从而对需要存储的目标框和不需要存储的目标框采用不同的操作处理。关于第二预设条件的具体筛选过程将在下面进行描述。

步骤S14，如果符合，则将目标框加上输出标记。

如果目标框符合第二预设条件，则将目标框加上输出标记，并执行下述步骤S15，以依据输出标记存储需要的图像帧。

当然，如果不符合第二预设条件，则不加输出标记，直接执行下述步骤S15，以依据输出标记存储监控视频。

步骤S15，响应于目标框存在输出标记，保存监控视频。

对于符合第二预设条件的目标框加上输出标记之后，可以保存带有输出标记的目标框所在的视频帧，也就是说响应于目标框存在输出标记，保存监控视频，获得预定时长和预定帧数的视频片段。

本实施方式利用神经网络训练对运动目标进行准确地分类，从而区分真正的运动目标和灯光、树叶等假象运动目标，而且给真正的运动目标对应的目标框添加输出标记，进行存储带有输出标记的目标框所在的图像帧，保存监控视频，从而能够将含有真正运动目标的图像帧筛选出并保存，节约存储空间。而且，卷积神经网络可以采用裁剪的图像，能够减少网络的层数，控制卷积神经网络部分使用的耗时，提高对运动目标进行分类的效率。

在一些实施方式中，请参阅图4，图4为图2中步骤S22一实施方式的流程示意图，即可以通过如下步骤筛选出符合第一预设条件的运动检测跟踪序列对应的目标框：

步骤S41，获取所有目标框的智能检测帧数的最小值，并判断该最小值的数量是否大于一个。

从当前帧图像中获取到所有目标框的运动检测跟踪序列之后，如果运动目标有多个，则可以将这多个运动目标对应的运动检测跟踪序列中的智能检测帧数排序，自然获取到所有目标框的智能检测帧数的最小值(可能有一个最小值，也可能有多个最小值)。如果运动目标只有一个，则该运动目标对应的智能检测帧数即为最小值。也就是说，如果当前帧图像中有一个运动目标，则这一个运动目标对应的智能检测帧数的最小值肯定是一个；如果当前帧图像中有多个运动目标，则这多个运动目标对应的智能检测帧数的最小值可能是一个，也可以是多个，通过判断该最小值的数量是否大于一个，将所有的情况分为两种结果，分别执行不同的操作。

步骤S42，如果最小值的数量不大于一个，则将最小值对应的目标框筛选出。

如果所有目标框的智能检测帧数的最小值的数量不大于一个，说明最小值的数量只有一个，则将该一个最小值对应的目标框筛选出，以将该目标框对应的运动目标进行神经网络训练。

步骤S43，如果最小值的数量大于一个，则获取多个最小值对应的多个目标框所在区域的背景差值的最大值，并将最大值对应的目标框筛选出。

如果所有目标框的智能检测帧数的最小值的数量大于一个，说明最小值的数量有多个，则获取这多个最小值对应的多个目标框所在区域的背景差值的最大值，并将最大值对应的目标框筛选出。

通过上述步骤S41-S43可知，对于当前帧图像来说，被筛选出进行神经网络训练的目标框只有一个，先根据运动检测跟踪序列中的智能检测帧数进行筛选，再根据目标框所在区域的背景差值进行筛选，最终筛选出一个进行神经网络训练。未被筛选出的目标框对应的运动目标也有可能是真正的运动目标，本申请并不是将其舍弃，而是在后续的步骤中将其一一筛选出，分别进行神经网络训练，以对每个运动目标都进行准确分类。而且，本实施方式基于目标区域的方法，去除非目标区域的干扰，具有很强的环境抗干扰能力，提高了筛选运动目标的准确率。

在一些实施方式中，请参阅图5，图5为图1中步骤S12之后的步骤一实施方式的流程示意图，也就是说，在对目标框所在的区域图像进行神经网络训练，以对目标框对应的运动目标进行分类并获取所述目标框的类别信息的步骤之后，还可以包括如下步骤：

步骤S51，判断目标框的类别信息是否属于预设类别信息。

如前所述，对目标框所在的区域图像进行神经网络训练之后，可以将对应的运动目标进行分类，本实施方式在分类之后，依据运动目标的类别信息判断其是否属于预设类别信息。该预设类别信息可以根据实际需求进行设定，也就是根据实际需求训练不同的卷积神经网络模型。在大部分应用场景中，预设类别信息包括人、机动车和非机动车的类别信息。也就是说，包含人、机动车和非机动车的类别信息的运动目标可定义为真正的运动目标，是需要被保存的，其他类别的运动目标则可定义为假象运动目标，可以被舍弃。当然，在其他应用场景中，预设类别信息也可以为其他类别信息，例如需要特意搜寻某个人物，则只将对应该人物的目标框筛选出，其他的目标框则都舍弃。

步骤S52，如果属于，则在目标框对应的运动检测跟踪序列中添加目标框的类别信息，并将目标框的智能检测帧数加1。

如果判断出某个目标框对应的类别信息属于预设类别信息，则在其对应的运动检测跟踪序列中添加目标框的类别信息，并将目标框的智能检测帧数加1，也就是基于神经网络训练的结果更新目标框的运动检测跟踪序列。如前所述，当第一次获取到该目标框时，将其智能检测帧数设置为第一初始值(例如设置为0)，后续对该运动目标每进行一次神经网络训练(即智能检测)，将其智能检测帧数加1。那么，当该运动目标在下一帧图像中再次被获取到，且同时有其他运动目标被获取到时，该运动目标的智能检测帧数将不是最小值，也就是说将从其他运动目标中筛选符合第一预设条件的目标框进行神经网络训练。

步骤S53，如果不属于，则将运动检测跟踪序列中的目标框删除。

如果判断出某个目标框对应的类别信息不属于预设类别信息，则说明该运动目标是可以被舍弃的，不需要保存其所在的图像帧，可以将运动检测跟踪序列中的目标框相关的参数删除。

进一步地，在本实施方式中，请参阅图6，图6为图1中步骤S13一实施方式的流程示意图，即依据类别信息判断目标框是否符合第二预设条件的步骤包括如下步骤：

步骤S61，判断运动检测跟踪序列中对应目标框的生命周期是否超过指定数量，其中，指定数量与类别信息对应。

如前所述，在第一次从当前帧图像中获取到该目标框之后，在其对应的运动检测跟踪序列中将其生命周期设置为第二初始值(例如设置为1)，后续在其他的图像帧中每获取到一次同一目标框之后，将对应目标框的运动检测跟踪序列中对应的生命周期加1。可见，目标框的生命周期可以表示其出现的次数，因此本实施方式在依据神经网络的输出结果对运动检测跟踪序列进行更新之后，也就是更新目标框的智能检测帧数和生命周期并获取目标框的类别信息之后，先判断其中对应目标框的生命周期是否超过指定数量，其中，指定数量与目标框的类别信息对应。也就是说，对于拥有不同类别信息的目标框，可以设置不同的指定数量，当然也可以设置成相同的指定数量，可根据实际的应用场景需求进行设置，本申请对此不作限定。例如将机动车的指定数量设置为x，在某次将该机动车对应的目标框进行神经网络训练之后，确定其生命周期为y，则可以通过判断x与y的大小关系来判断是否需要将该目标框加上输出标记。

步骤S62，如果超过，则认为目标框符合第二预设条件，并执行步骤S14。

如果运动检测跟踪序列中对应目标框的生命周期超过指定数量，例如y>x，则认为该目标框符合第二预设条件，从而执行步骤S14，即将对应的目标框加上输出标记，并执行下述步骤S63。

当然，如果不超过，则直接执行下述步骤S63，继续累加该目标框的生命周期。

上述的将目标框加上输出标记的步骤完成之后，说明已经从当前帧图像中获取到所有运动目标的目标框，以及每个目标框的运动检测跟踪序列，且根据运动检测跟踪序列中的部分参数筛选出一个目标框进行神经网络训练，并根据神经网络训练的结果更新该目标框的运动检测跟踪序列，以及根据更新后的运动检测跟踪序列判断是否为该目标框加上输出标记。也就是说，请继续参阅图6，对当前帧图像的处理已经结束，不管该目标框是否已经被加上输出标记，后续还包括如下步骤：

S63，获取下一帧图像作为当前帧图像，并响应于当前帧图像中存在运动目标，返回从当前帧图像中获取所有运动目标对应的目标框，并获取每个目标框的运动检测跟踪序列的步骤。

对当前帧图像的处理结束之后，开始对下一帧图像的处理，即获取下一帧图像作为当前帧图像，重新开始上述对当前帧图像的各个步骤，即返回上述步骤S21，直至将筛选出的目标框加上或者不加输出标记。之后，又可以开始再下一个循环，进而完成对整个监控视频的处理。当然，如果监控视频是实时更新的，本申请提供的处理方法也可以是实时的。

本实施方式根据神经网络训练的结果更新目标框的运动检测跟踪序列，便于后续根据更新后的运动检测跟踪序列选择需要存储的图像帧。而且本实施方式的算法设计使得大部分运动目标对应的目标框不会连续两次被输入神经网络，而是依次将最有可能是真正的运动目标的目标框输入神经网络，使得每个目标框对应的运动目标都能够被准确分类，进而节省监控视频的存储空间。

在一些实施方式中，请参阅图7，图7为图1中步骤S15一实施方式的流程示意图，即响应于目标框存在输出标记，保存监控视频的步骤可以包括如下步骤：

步骤S71，将带有输出标记的所有目标框输出至输出结果。

当对一段监控视频或者是监控视频中预定数量的图像帧处理完成之后，可能有部分目标框被加上了输出标记，其所在的图像帧需要被存储，此时，可将带有输出标记的所有目标框输出至输出结果，以例依据该输出结果存储监控视频。

步骤S73，依据输出结果存储预定时长和预定帧数的视频片段，其中，视频片段至少包括部分输出结果中的所有目标框对应的当前帧图像。

获取到输出结果之后，根据设置的时长和帧数存储预定时长和预定帧数的视频片段。可能带有输出结果的目标框所在的图像帧超过预定帧数，需要舍弃一部分，此时优选根据预定时长截取部分图像帧，再在预定时长之间选择预定帧数的图像帧进行保存。当然，也可提前设置成获取到预定数量的图像帧之后先进行保存视频的操作，再继续处理下一帧图像。也就是说，保存下来的视频片段包括部分或全部输出结果中的所有目标框对应的当前帧图像。

进一步地，请继续参阅图7，因为通过步骤S71获取的输出结果可能不包含任何目标框，因此步骤S71，即在将带有输出标记的所有目标框输出至输出结果的步骤之后，还包括如下步骤：

步骤S72，判断输出结果是否为空集。

如果输出结果不是空集，则执行依据输出结果存储预定时长和预定帧数的视频片段的步骤，即执行步骤S73。

如果是空集，说明没有任何带有输出标记的目标框存在，即不需要存储监控视频，如图7中步骤S74所述。

本实施方式基于智能检测的方法，保证在一定帧数内覆盖整个场景的运动目标的智能识别和检测，从而保存预定时长和预定帧数的视频片段，不仅算法准确，而且节约了算法占用的时长和存储监控视频占用的存储空间。

请参阅图8，图8为本申请监控视频的处理方法另一实施方式的流程示意图，本实施方式对于一段监控视频进行处理，目的在于将包括指定类型的运动目标的图像帧存储为一段预定时长预定帧数的视频片段，具体包括如下步骤：

步骤S81，响应于监控视频的当前帧图像中存在运动目标，从当前帧图像中获取所有运动目标对应的目标框，并获取每个目标框的运动检测跟踪序列。

首先从监控视频中获取当前帧图像，并获取每个目标框的运动检测跟踪序列，其中包含每个目标框的生命周期、智能检测帧数和当前区域的背景差值。在第一次获取到某个目标框时，将其生命周期置为1，将其智能检测帧数置为0。假设在当前帧图像中获取到三个目标框A、B和C，其中目标框A和B均是首次获取到，其生命周期均为1，智能检测帧数均为0，目标框C是第2次获取到，其生命周期为2，其已经被输入过卷积神经网络1次，智能检测帧数为1。

步骤S82，获取所有目标框的智能检测帧数的最小值，并判断该最小值的数量是否大于一个。

三个目标框A、B和C中智能检测帧数的最小值为0，该最小值的数量为二个(A和B)。

步骤S83，如果大于一个，则获取多个最小值对应的多个目标框所在区域的背景差值的最大值，并将最大值对应的目标框筛选出。

最小值为二个，大于一个，获取目标框A和B所在区域的背景差值的最大值，并将最大值对应的目标框筛选出，假设是目标框A。

步骤S84，如果不大于一个，则将最小值对应的目标框筛选出。

步骤S85，对筛选出的目标框所在的区域图像进行神经网络训练，以对目标框对应的运动目标进行分类。

将目标框A所在的区域图像裁剪出，输入卷积神经网络，对目标框A对应的运动目标进行分类，假设分类之后目标框A是机动车类别。

步骤S86，判断目标框的类别信息是否属于预设类别信息。

分类之后目标框A是机动车类别，属于预设类别信息。

步骤S87，如果属于，则在目标框对应的运动检测跟踪序列中添加目标框的类别信息，并将目标框的智能检测帧数加1。

目标框A是机动车类别，属于预设类别信息，则在其运动检测跟踪序列中添加类别信息，并将其智能检测帧数加1，即目标框A的智能检测帧数由0变为1。

步骤S88，如果不属于，则将运动检测跟踪序列中的目标框删除。

步骤S89，判断运动检测跟踪序列中对应目标框的生命周期是否超过指定数量。

此时，目标框A和B的生命周期均为1，目标框C的生命周期为2，假设均未超过指定数量。

步骤S810，如果超过，则将目标框加上输出标记。

步骤S811，如果未超过，则判断是否已处理完预设的最后一帧。

不论目标框的生命周期超过还是未超过指定数量，对当前帧图像中的目标框加上或者不加输出标记，此时对当前帧图像的处理已经结束，需要判断是否还有下一帧图像，也就是判断是否已处理完预设的最后一帧。该预设的最后一帧可以是监控视频的最后一帧，也可以是其中的任意指定一帧。

步骤S812，如果还未处理预设的最后一帧，则获取下一帧图像作为当前帧图像，并返回步骤S81，重新获取目标框，假设此时再次获取到目标框A和C，则目标框A、B和C的生命周期分别为2、1和3，智能检测帧数分别为1、0和2，则将目标框B筛选出进行神经网络训练。依此类推，直到某个目标框的生命超期超过其对应的指定数量，则将其加上输出标记。之后，又可以开始再下一个循环，进而完成对预设的最后一帧的处理。假设最后目标框A和C均被加上输出标记，目标框B对应的运动目标不属于预设类别信息，被删除。

步骤S813，如果已处理完预设的最后一帧，则将带有输出标记的所有目标框输出至输出结果。

目标框A和C均被加上输出标记，则将目标框A和C输出至输出结果。

步骤S814，判断输出结果是否为空集。

判断包含目标框A和C的输出结果是否为空集。

步骤S815，如果不是空集，则依据输出结果存储预定时长和预定帧数的视频片段。

包含目标框A和C的输出结果不是空集，则将目标框A和C所在的所有图像帧导出，并按照预定时长和预定帧数存储视频片段。

步骤S816，如果是空集，则不存储监控视频。

如果输出结果是空集，则说明没有属于预设类别信息的运动目标，不需要存储监控视频。

此外，本实施方式还提供一种监控视频的处理装置，请参阅图9，图9为本申请监控视频的处理装置一实施方式的结构示意图，该处理装置包括存储器901和处理器902，存储器901上存储有程序指令，处理器902用于执行该程序指令以实现如上述任一实施方式所述的监控视频的处理方法。具体可参阅上述任一实施方式，此处不再赘述。

此外，本实施方式还提供一种计算机可读存储介质，请参阅图10，图10为本申请计算机可读存储介质一实施方式的结构示意图，该存储介质100上存储有程序指令111，该程序指令111能够被处理器执行以实现如上述任一实施方式所述的监控视频的处理方法。具体可参阅上述任一实施方式，此处不再赘述。

以上所述仅为本申请的实施方式，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种监控视频的处理方法，其特征在于，包括：

获取监控视频中符合第一预设条件的运动目标的目标框；

依据所述类别信息判断所述目标框是否符合第二预设条件；

如果符合，则将所述目标框加上输出标记；

响应于所述目标框存在所述输出标记，保存所述监控视频。

2.根据权利要求1所述的处理方法，其特征在于，所述获取监控视频中符合第一预设条件的运动目标的目标框的步骤包括：

响应于所述监控视频的当前帧图像中存在所述运动目标，从所述当前帧图像中获取所有所述运动目标对应的所述目标框，并获取每个所述目标框的运动检测跟踪序列；

筛选出符合所述第一预设条件的所述运动检测跟踪序列对应的所述目标框。

3.根据权利要求2所述的处理方法，其特征在于，所述运动检测跟踪序列中包含对应所述目标框的智能检测帧数和对应所述目标框所在区域的背景差值，所述筛选出符合所述第一预设条件的所述运动检测跟踪序列对应的所述目标框的步骤包括：

获取所有所述目标框的所述智能检测帧数的最小值，并判断所述最小值的数量是否大于一个；

如果所述最小值的数量不大于一个，则将所述最小值对应的所述目标框筛选出；

如果所述最小值的数量大于一个，则获取多个所述最小值对应的多个所述目标框所在区域的所述背景差值的最大值，并将所述最大值对应的所述目标框筛选出。

4.根据权利要求3所述的处理方法，其特征在于，所述对所述目标框所在的区域图像进行神经网络训练，以对所述目标框对应的所述运动目标进行分类并获取所述目标框的类别信息的步骤之后，还包括：

判断所述目标框的所述类别信息是否属于预设类别信息；

如果属于，则在所述目标框对应的所述运动检测跟踪序列中添加所述类别信息，并将所述目标框的所述智能检测帧数加1；

如果不属于，则将所述运动检测跟踪序列中的所述目标框删除。

5.根据权利要求4所述的处理方法，其特征在于，

第一次从所述当前帧图像中获取到所述目标框之后，在所述目标框的所述运动检测跟踪序列中将对应的智能检测帧数设置为第一初始值。

6.根据权利要求4所述的处理方法，其特征在于，

所述预设类别信息包括人、机动车和非机动车的类别信息。

7.根据权利要求4所述的处理方法，其特征在于，所述运动检测跟踪序列中还包含对应所述目标框的生命周期，所述依据所述类别信息判断所述目标框是否符合第二预设条件的步骤，包括：

判断所述运动检测跟踪序列中对应所述目标框的所述生命周期是否超过指定数量，其中，所述指定数量与所述类别信息对应；

如果超过，则认为所述目标框符合所述第二预设条件。

8.根据权利要求7所述的处理方法，其特征在于，所述将所述目标框加上输出标记的步骤之后，还包括：

获取下一帧图像作为所述当前帧图像，并响应于所述当前帧图像中存在所述运动目标，返回所述从所述当前帧图像中获取所有所述运动目标对应的所述目标框，并获取每个所述目标框的运动检测跟踪序列的步骤。

9.根据权利要求8所述的处理方法，其特征在于，

第一次从所述当前帧图像中获取到所述目标框之后，在所述目标框的所述运动检测跟踪序列中将对应的所述生命周期设置为第二初始值，每获取到一次同一所述目标框之后，将对应所述目标框的所述运动检测跟踪序列中对应的所述生命周期加1。

10.根据权利要求8所述的处理方法，其特征在于，所述响应于所述目标框存在所述输出标记，保存所述监控视频的步骤包括：

将带有所述输出标记的所有所述目标框输出至输出结果；

依据所述输出结果存储预定时长和预定帧数的视频片段，其中，所述视频片段至少包括部分所述输出结果中的所有所述目标框对应的所述当前帧图像。

11.根据权利要求10所述的处理方法，其特征在于，所述将带有所述输出标记的所有所述目标框输出至输出结果的步骤之后，还包括：

判断所述输出结果是否为空集；

如果不是空集，则执行所述依据所述输出结果存储预定时长和预定帧数的视频片段的步骤。

12.根据权利要求2所述的处理方法，其特征在于，所述响应于所述监控视频的当前帧图像中存在所述运动目标，从所述当前帧图像中获取所有所述运动目标对应的所述目标框的步骤包括：

通过背景建模算法获取所述监控视频的背景图像；

对所述背景图像和所述当前帧图像做差分处理和二值化处理，以获取二值化图像；

对所述二值化图像做形态学操作以及连通域分析，并判断是否存在所述运动目标；

如果存在，则从所述当前帧图像中获取所述运动目标的所述目标框；

如果不存在，则舍弃所述当前帧图像。

13.一种监控视频的处理装置，其特征在于，包括存储器和处理器，所述存储器上存储有程序指令，所述处理器用于执行所述程序指令以实现如权利要求1-12任一项所述的监控视频的处理方法。

14.一种计算机可读存储介质，其特征在于，所述存储介质上存储有程序指令，所述程序指令能够被处理器执行以实现如权利要求1-12任一项所述的监控视频的处理方法。