CN116612494A

CN116612494A - 一种基于深度学习的视频监控中行人目标检测方法及装置

Info

Publication number: CN116612494A
Application number: CN202310495847.0A
Authority: CN
Inventors: 崔迪; 朱建华; 占小跳; 孙国庆; 吴华玲; 周亚飞; 傅玲; 蔡靖; 赵文文; 程霄楠
Original assignee: China Waterborne Transport Research Institute
Current assignee: China Waterborne Transport Research Institute
Priority date: 2023-05-05
Filing date: 2023-05-05
Publication date: 2023-08-18

Abstract

本发明公开了一种基于深度学***台；通过检测平台对实时热成像视频进行预处理并从中抽取视频帧；在检测平台对比前后抽取的两个视频帧，并通过深度学***台展示，供工作人员确认热成像视频中检测到行人目标，从而完成行人目标检测。本发明通过抽取热成像视频帧并对连续的两个视频帧对比，再通过深度学习的目标检测模型进行识别，达到更精准识别行人目标，解决了现有技术中识别行人目标时出现误判的问题。

Description

一种基于深度学习的视频监控中行人目标检测方法及装置

技术领域

本发明涉及目标检测技术领域，尤其涉及一种基于深度学习的视频监控中行人目标检测方法及装置。

背景技术

由于客滚船的特殊工作环境和复杂的海上天气条件，客滚船通常承载大量乘客和货物，需要在船舱、甲板和货仓等多个区域进行人员检测和搜索。同时，海上天气条件可能会对检测和搜索工作带来不利影响，例如大浪、风暴、能见度差等，深度学习中自我学习的特征可以更好地描述检测目标的特性，避免了复杂的特征提取和数据建模过程，行人检测是使用计算机视觉等方法判断图像中是否存在行人并给出在图像中的精准位置。

目前，可以通过深度学习的图像处理技术对客滚船上的视频监控画面进行处理和分析，提取出人体特征，并识别人体姿态和行为，例如，可以通过背景建模、运动检测、轮廓检测等技术来检测客滚船上的人员。

例如公开号为：CN114967731A公开的一种基于无人机的野外人员自动搜寻方法，包括：无人机接收手持终端设备发送来的航线飞行指令，在搜寻区域进行航线飞行；无人机在航线飞行过程中通过摄像头获取搜寻区域的红外图像，对红外图像进行图像处理，通过热成像阈值分析和被困人员运动分析，识别所述图像中是否存在人员的结果；根据图像识别结果控制无人机飞行姿态对人员进行跟踪抓拍，并获取人员的位置信息、环境信息并发送到手持终端设和云服务器。

例如公开号为：CN111126102A公开的人员搜索方法、装置及图像处理设备，包括：对参考图像进行人物检测，确定待查找人员，获取所述待查找人员的属性信息；对至少一个视频监控图像进行人物检测，确定所有候选人员，获取所有候选人员的属性信息；根据所述待查找人员的属性信息和每个候选人员的属性信息计算每个候选人员的匹配分数，按照所述匹配分数从大到小的顺序选择预定数量的候选人员；计算所述待查找人员与每个选择的候选人员的相似度，将所述选择的候选人员中与所述待查找人员的相似度最高的候选人员作为所述待查找人员。

但本申请发明人在实现本申请实施例中发明技术方案的过程中，发现上述技术至少存在如下技术问题：

现有技术中，当客滚船遇见恶劣天气或危险时，行人都处在客滚船各处，难以查找或聚集，且船上部分装置可能会发生摇晃，存在识别行人目标时出现误判的问题。

发明内容

本申请实施例通过提供一种基于深度学习的视频监控中行人目标检测方法及装置，解决了现有技术中，存在识别行人目标时出现误判的问题，实现了更精准识别行人目标。

本申请实施例提供了一种基于深度学***台；S2，对视频监控进行预处理：通过检测平台对实时热成像视频进行预处理并从中抽取视频帧；S3，处理视频监控，检测行人目标：在检测平台对比前后抽取的两个视频帧，若前后两帧完全相同，则将前一帧丢弃，并将后一帧存储继续与下一个抽取的视频帧进行对比，若前后两帧中出现差异，则将两帧存储，通过深度学***台展示，供工作人员确认热成像视频中检测到行人目标，从而完成行人目标检测。

进一步的，所述S1中的将实时热成像视频上传到检测平台指将实时热成像视频及热成像视频对应的红外监控器位置、视频帧时间戳和热辐值一起打包发送至云平台。

进一步的，所述S2中的对实时热成像视频进行预处理指将视频格式统一、视频采样、视频裁剪和视频去噪，便于后续对视频进行处理。

进一步的，所述S2中抽取视频帧具体指每间隔一段时间间隔抽取一个视频帧，其中一段时间间隔包括一个数值和多个数值，避免抽取视频帧的频率与移动物体的移动频率相同导致前后帧内容相同而被丢弃。

进一步的，所述S2中的检测平台包括预处理模块、对比模块、识别模块和展示模块；所述预处理模块用于将热成像视频进行预处理，并每隔一段时间间隔从热成像视频中抽取视频帧；所述对比模块用于将抽取的后一个视频帧与前一个视频帧对比，若完全无变化则删除前一个视频帧保留后一个视频帧，在将保留的视频帧与之后再次抽取的视频帧进行对比，若有变化则保存对比的前后两个视频帧，并将两个视频帧组合输入到识别模块；所述识别模块用于将对比模块输入的两个视频帧通过深度学习识别算法进行识别检测，得出其中包括类人姿态的区域；所述展示模块用于将包含类人姿态区域的视频帧展示给工作人员，由工作人员确认包含类人姿态区域的视频帧中检测到的行人目标。

进一步的，所述对比模块中保留的视频帧最后需要重新按照时间戳顺序进行合并，保存为不包含丢弃帧且画面不连续的视频。

进一步的，所述S3中通过深度学习在热成像视频帧中找出类人姿态的区域的具体指：步骤1，将热成像视频帧输入识别模型中进行目标检测得到类人姿态区域的坐标和置信度，即：{(x₁,p₁),(x₂,p₂),...,(x_m,p_m)}＝f(x)，其中x表示新的热成像视频帧，m表示检测出的类人姿态区域的数量，(x_i,p_i)表示第i个检测框的位置和置信度，f(x)表示模型对输入视频帧x进行目标检测的输出；步骤2，对目标检测结果进行后处理，以提高检测精度和效率；步骤3，将检测出的类人姿态区域进行展示，并在图像上进行增强处理，便于工作人员进一步检查和确认。

进一步的，所述识别模型的获得方法具体为：步骤1，数据收集和标注：首先收集一定数量的热成像视频帧，并手动标注出其中的类人姿态区域，以作为训练数据集；步骤2，模型选择：选择合适的深度学习目标检测模型进行训练和推断；步骤3，数据预处理：对收集的热成像视频帧进行预处理，以符合目标检测模型的输入要求；步骤4，模型训练：使用标注的热成像视频帧进行模型训练，以使其学会自动识别类人姿态区域。

进一步的，所述步骤4中使其学会自动识别类人姿态区域指最小化目标函数，过程中使用的公式为：

其中，θ表示模型参数，L表示目标检测的损失函数，λ表示正则化系数，L(f(x_i；θ),y_i)表示模型预测的类人姿态区域和真实标注之间的差异，λ‖θ‖²表示对模型参数进行正则化。

本申请实施例提供了一种基于深度学***台；所述预处理模块用于对视频监控进行预处理：通过检测平台对实时热成像视频进行预处理并从中抽取视频帧；所述处理识别模块用于处理视频监控，检测行人目标：在检测平台对比前后抽取的两个视频帧，若前后两帧完全相同，则将前一帧丢弃，并将后一帧存储继续与下一个抽取的视频帧进行对比，若前后两帧中出现差异，则将两帧存储，通过深度学***台展示，供工作人员确认热成像视频中检测到行人目标，从而完成行人目标检测。

本申请实施例中提供的一个或多个技术方案，至少具有如下技术效果或优点：

1、由于通过抽取热成像视频帧并对连续的两个视频帧对比，再通过深度学习的目标检测模型进行识别，从而避免船内部分装置晃动导致的误识别，进而实现了在恶劣环境下能够更加精准识别出行人目标，有效解决了现有技术中，存在识别行人目标时出现误判的问题。

2、由于通过每间隔一段时间从实时热成像视频中抽取一个视频帧，从而前后连续两个视频帧时间的时间间隔未必相同，进而实现了避免抽取视频帧的频率与物体移动的频率相同导致被当作重复视频帧被误丢弃。

3、由于通过深度学习在热成像视频帧中找出类人姿态的区域，从而得到类人姿态区域的坐标和置信度，并对得出的目标检测结果进行后处理和图像增强，进而提高了检测类人姿态热成像区域的精度和效率，且更便于工作人员进一步确认。

附图说明

图1为本申请实施例提供的基于深度学习的视频监控中行人目标检测方法流程图；

图2为本申请实施例提供的检测平台结构图；

图3为本申请实施例提供的找出类人姿态的区域的方法流程图；

图4为本申请实施例提供的识别模型的获得方法流程图；

图5为本申请实施例提供的基于深度学习的视频监控中行人目标检测装置结构图。

具体实施方式

本申请实施例通过提供一种基于深度学习的视频监控中行人目标检测方法及装置，解决了现有技术中，存在识别行人目标时出现误判的问题，通过抽取热成像视频帧并对连续的两个视频帧对比，再通过深度学习的目标检测模型进行识别，实现了避免船内部分装置晃动导致的误识别，进而在恶劣环境下能够更加精准识别出行人目标。

本申请实施例中的技术方案为解决上述，存在识别行人目标时出现误判的问题，总体思路如下：

首先获取监控视频：通过红外监控器获取客滚船上各个区域的实时热成像视频，即监控视频，并将实时热成像视频(包含红外监控器位置和视频具体获取时间)上传到检测平台；接着检测平台对视频监控进行预处理：检测平台将热成像视频每间隔随机时间进行一次抽帧处理，例如：可按照每间隔15ms、25ms、35ms的顺序进行一次抽帧(即第一帧与第二帧之间时间间隔为15ms，第二帧与第三帧之间时间间隔为25ms，第三帧与第四帧之间时间间隔为35ms，第四帧与第五帧之间时间间隔又按顺序从头计为15ms，以此类推)，或每隔25ms进行一次抽帧(即每两帧之间的时间间隔为25ms)；之后检测平台处理监控视频，检测行人目标：在检测平台对比前后抽取的两个视频帧，若前后两帧完全相同，则将前一帧丢弃，并将后一帧继续与下一个抽取的视频帧进行对比，若前后两帧中出现差异，则检测平台开始检测行人目标，通过深度学***台将检测结果通过可视化方式加以展示，并在检测结果上标注出类人姿态的热成像区域，提供给工作人员做最后确认，从而完成行人目标检测，达到了在恶劣环境下能够及时检索出行人目标并缩减监控视频存储量。

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

如图1所示，为本申请实施例提供的基于深度学***台；S2，对视频监控进行预处理：通过检测平台对实时热成像视频进行预处理并从中抽取视频帧；S3，处理视频监控，检测行人目标：在检测平台对比前后抽取的两个视频帧，若前后两帧完全相同，则将前一帧丢弃，并将后一帧存储继续与下一个抽取的视频帧进行对比，若前后两帧中出现差异，则将两帧存储，通过深度学***台展示，供工作人员确认热成像视频中检测到行人目标，从而完成行人目标检测。

进一步的，S1中的将实时热成像视频上传到检测平台指将实时热成像视频及热成像视频对应的红外监控器位置、视频帧时间戳和热辐值一起打包发送至云平台。

在本实施例中，在调取该区域的具***置时，可以通过打包的数据得出人员客滚船上更准确的位置信息，例如船舱号、楼层等。

进一步的，S2中的对实时热成像视频进行预处理指将视频格式统一、视频采样、视频裁剪和视频去噪，便于后续对视频进行处理。

进一步的，S2中抽取视频帧具体指每间隔一段时间间隔抽取一个视频帧，其中一段时间间隔包括一个数值和多个数值，避免抽取视频帧的频率与移动物体的移动频率相同导致前后帧内容相同而被丢弃。

在本实施例中，删除相同前后帧中的前者，既保证了后一个视频帧能够连续有对比帧进行对比，同时减少了后续得出的不包含丢弃帧且画面不连续的视频的所占内存。

进一步的，如图2所示，为本申请实施例提供的检测平台结构图，S2中的检测平台包括预处理模块、对比模块、识别模块和展示模块；预处理模块用于将热成像视频进行预处理，并每隔一段时间间隔从热成像视频中抽取视频帧；对比模块用于将抽取的后一个视频帧与前一个视频帧对比，若完全无变化则删除前一个视频帧保留后一个视频帧，在将保留的视频帧与之后再次抽取的视频帧进行对比，若有变化则保存对比的前后两个视频帧，并将两个视频帧组合输入到识别模块；识别模块用于将对比模块输入的两个视频帧通过深度学习识别算法进行识别检测，得出其中包括类人姿态的区域；展示模块用于将包含类人姿态区域的视频帧展示给工作人员，由工作人员确认包含类人姿态区域的视频帧中检测到的行人目标。

在本实施例中，类人姿态指的是类似于人类的姿态，即具有人类特征的姿态,在客滚船行人目标检测中，类人姿态检测可以帮助快速准确地识别出热成像视频中存在人的区域，从而实现对船上人员的搜索和救援；在进行前后两帧的对比时，可以采用像素级别的差异检测算法，以便更精确地检测出热成像区域的变化。

进一步的，对比模块中保留的视频帧最后需要重新按照时间戳顺序进行合并，保存为不包含丢弃帧且画面不连续的视频。

进一步的，如图3所示，为本申请实施例提供的找出类人姿态的区域的方法流程图，S3中通过深度学习在热成像视频帧中找出类人姿态的区域的具体指：步骤1，将热成像视频帧输入识别模型中进行目标检测得到类人姿态区域的坐标和置信度，即：{(x₁,p₁),(x₂,p₂),...,(x_m,p_m)}＝f(x)，其中x表示新的热成像视频帧，m表示检测出的类人姿态区域的数量，(x_i,p_i)表示第i个检测框的位置和置信度，f(x)表示模型对输入视频帧x进行目标检测的输出；步骤2，对目标检测结果进行后处理，以提高检测精度和效率；步骤3，将检测出的类人姿态区域进行展示，并在图像上进行增强处理，便于工作人员进一步检查和确认。

在本实施例中，置信度通常是通过计算检测框(bounding box)与真实目标框之间的IoU(Intersection over Union)来得到的，IoU是目标检测中常用的评价指标之一，用于度量检测框与真实目标框的重合程度，具体地，假设检测框的坐标为(x,y,w,h)，其中(x,y)表示框的左上角坐标，w和h分别表示框的宽度和高度。真实目标框的坐标为(x',y',w',h')，IoU的计算公式如下：其中area(…)表示计算区域的面积，bbox表示检测框，gt表示真实目标框，∩和∪分别表示交集和并集操作，置信度通常被定义为检测框中包含目标的概率，可以使用如下公式计算：/>其中,p表示置信度，area(gt)表示真实目标框的面积,通过上述公式，可以将置信度定义为检测框与真实目标框的重叠程度，重叠程度越高，置信度越大；对目标检测结果所进行的后处理包括筛选、合并、去重等操作，以提高检测精度和效率，比如非极大值抑制(NMS)算法：对所有检测框按照置信度从高到低排序，选择置信度最高的检测框，并将其与剩余的检测框进行重叠度计算，移除重叠度高于阈值的检测框，继续选择下一个置信度最高的；此外可在图像上进行标注和颜色渲染等增强处理，以便工作人员进一步检查和确认。

进一步的，如图4所示，为本申请实施例提供的识别模型的获得方法流程图，识别模型的获得方法具体为：步骤1，数据收集和标注：首先收集一定数量的热成像视频帧，并手动标注出其中的类人姿态区域，以作为训练数据集；步骤2，模型选择：选择合适的深度学习目标检测模型进行训练和推断；步骤3，数据预处理：对收集的热成像视频帧进行预处理，以符合目标检测模型的输入要求；步骤4，模型训练：使用标注的热成像视频帧进行模型训练，以使其学会自动识别类人姿态区域。

在本实施例中，在找出类人姿态的区域时，可选择常用的目标检测模型，例如Faster R-CNN、YOLO、SSD等，以提高准确率和速度；对收集的热成像视频帧进行预处理，包括裁剪、缩放、归一化等操作；在展示存在类人姿态的区域时，可以对热成像图片进行颜色渲染或者人工智能算法进行图像增强，以便更清晰地显示人员位置。

进一步的，步骤4中使其学会自动识别类人姿态区域指最小化目标函数，过程中使用的公式为：

在本实施例中，L(f(x_i；θ),y_i)表示模型预测的类人姿态区域和真实标注之间的差异，其中，损失函数包括交叉熵损失和均方误差损失等，λ‖θ‖²表示对模型参数进行正则化，以防止模型过拟合。

如图5所示，为本申请实施例提供的基于深度学***台；预处理模块用于对视频监控进行预处理：通过检测平台对实时热成像视频进行预处理并从中抽取视频帧；处理识别模块用于处理视频监控，检测行人目标：在检测平台对比前后抽取的两个视频帧，若前后两帧完全相同，则将前一帧丢弃，并将后一帧存储继续与下一个抽取的视频帧进行对比，若前后两帧中出现差异，则将两帧存储，通过深度学***台展示，供工作人员确认热成像视频中检测到行人目标，从而完成行人目标检测。

上述本申请实施例中的技术方案，至少具有如下的技术效果或优点：相对于公开号为：CN114967731A公开的一种基于无人机的野外人员自动搜寻方法，本申请实施例通过每间隔一段时间从实时热成像视频中抽取一个视频帧，后续去除连续视频帧中重复的帧并重新合并保存，从而避免抽取视频帧的频率与物体移动频率相同，进而减少合并保存得到的结果数据大小；相对于公开号为：CN111126102A公开的人员搜索方法、装置及图像处理设备，本申请实施例通过处理实时热成像视频并从视频帧中识别类人姿态的热成像区域，从而避免图像处理检测行人目标导致的可能会存在误判漏判的问题，进而更精准的识别行人目标。

本领域内的技术人员应明白，本发明的实施例可提供为方法、***、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于深度学习的视频监控中行人目标检测方法，其特征在于，包括以下步骤：

S1，获取视频监控：通过在红外监控器获取客滚船上各个区域的实时热成像视频，并将实时热成像视频上传到检测平台；

S2，对视频监控进行预处理：通过检测平台对实时热成像视频进行预处理并从中抽取视频帧；

S3，处理视频监控，检测行人目标：在检测平台对比前后抽取的两个视频帧，若前后两帧完全相同，则将前一帧丢弃，并将后一帧存储继续与下一个抽取的视频帧进行对比，若前后两帧中出现差异，则将两帧存储，通过深度学习在热成像视频帧中找出类人姿态的区域；

S4，展示检测结果以待确认：将类人姿态的热成像区域在检测平台展示，供工作人员确认热成像视频中检测到行人目标，从而完成行人目标检测。

2.如权利要求1所述基于深度学***台指将实时热成像视频及热成像视频对应的红外监控器位置、视频帧时间戳和热辐值一起打包发送至云平台。

3.如权利要求1所述基于深度学习的视频监控中行人目标检测方法，其特征在于：所述S2中的对实时热成像视频进行预处理指将视频格式统一、视频采样、视频裁剪和视频去噪，便于后续对视频进行处理。

4.如权利要求1所述基于深度学习的视频监控中行人目标检测方法，其特征在于：所述S2中抽取视频帧具体指每间隔一段时间间隔抽取一个视频帧，其中一段时间间隔包括一个数值和多个数值，避免抽取视频帧的频率与移动物体的移动频率相同导致前后帧内容相同而被丢弃。

5.如权利要求1所述基于深度学***台包括预处理模块、对比模块、识别模块和展示模块；

所述预处理模块用于将热成像视频进行预处理，并每隔一段时间间隔从热成像视频中抽取视频帧；

所述对比模块用于将抽取的后一个视频帧与前一个视频帧对比，若完全无变化则删除前一个视频帧保留后一个视频帧，在将保留的视频帧与之后再次抽取的视频帧进行对比，若有变化则保存对比的前后两个视频帧，并将两个视频帧组合输入到识别模块；

所述识别模块用于将对比模块输入的两个视频帧通过深度学习识别算法进行识别检测，得出其中包括类人姿态的区域；

所述展示模块用于将包含类人姿态区域的视频帧展示给工作人员，由工作人员确认包含类人姿态区域的视频帧中检测到的行人目标。

6.如权利要求5所述基于深度学习的视频监控中行人目标检测方法，其特征在于：所述对比模块中保留的视频帧最后需要重新按照时间戳顺序进行合并，保存为不包含丢弃帧且画面不连续的视频。

7.如权利要求1所述基于深度学习的视频监控中行人目标检测方法，其特征在于，所述S3中通过深度学习在热成像视频帧中找出类人姿态的区域的具体指：

步骤1，将热成像视频帧输入识别模型中进行目标检测得到类人姿态区域的坐标和置信度，即：

{(x₁,p₁),(x₂,p₂),...,(x_m,p_m)}＝f(x)，

其中x表示新的热成像视频帧，m表示检测出的类人姿态区域的数量，(x_i,p_i)表示第i个检测框的位置和置信度，f(x)表示模型对输入视频帧x进行目标检测的输出；

步骤2，对目标检测结果进行后处理，以提高检测精度和效率；

步骤3，将检测出的类人姿态区域进行展示，并在图像上进行增强处理，便于工作人员进一步检查和确认。

8.如权利要求7所述基于深度学习的视频监控中行人目标检测方法，其特征在于，所述识别模型的获得方法具体为：

步骤1，数据收集和标注：首先收集一定数量的热成像视频帧，并手动标注出其中的类人姿态区域，以作为训练数据集；

步骤2，模型选择：选择合适的深度学习目标检测模型进行训练和推断；

步骤3，数据预处理：对收集的热成像视频帧进行预处理，以符合目标检测模型的输入要求；

步骤4，模型训练：使用标注的热成像视频帧进行模型训练，以使其学会自动识别类人姿态区域。

9.如权利要求8所述基于深度学习的视频监控中行人目标检测方法，其特征在于：所述步骤4中使其学会自动识别类人姿态区域指最小化目标函数，过程中使用的公式为：

10.一种基于深度学习的视频监控中行人目标检测装置，其特征在于，所述基于深度学习的视频监控中行人目标检测装置包括：获取模块、预处理模块、处理识别模块和输出模块；

所述获取模块用于获取视频监控：通过在红外监控器获取客滚船上各个区域的实时热成像视频，并将实时热成像视频上传到检测平台；

所述预处理模块用于对视频监控进行预处理：通过检测平台对实时热成像视频进行预处理并从中抽取视频帧；

所述处理识别模块用于处理视频监控，检测行人目标：在检测平台对比前后抽取的两个视频帧，若前后两帧完全相同，则将前一帧丢弃，并将后一帧存储继续与下一个抽取的视频帧进行对比，若前后两帧中出现差异，则将两帧存储，通过深度学习在热成像视频帧中找出类人姿态的区域；

所述输出模块用于展示检测结果以待确认：将类人姿态的热成像区域在检测平台展示，供工作人员确认热成像视频中检测到行人目标，从而完成行人目标检测。