CN117710905A - 一种视频监控信息处理方法、***、装置及存储介质 - Google Patents

一种视频监控信息处理方法、***、装置及存储介质 Download PDF

Info

Publication number
CN117710905A
CN117710905A CN202311453419.8A CN202311453419A CN117710905A CN 117710905 A CN117710905 A CN 117710905A CN 202311453419 A CN202311453419 A CN 202311453419A CN 117710905 A CN117710905 A CN 117710905A
Authority
CN
China
Prior art keywords
target
information
frame
video monitoring
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311453419.8A
Other languages
English (en)
Inventor
刘建德
明军
李洪霞
洪明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Consys Technology Co ltd
Original Assignee
Shenzhen Consys Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Consys Technology Co ltd filed Critical Shenzhen Consys Technology Co ltd
Priority to CN202311453419.8A priority Critical patent/CN117710905A/zh
Publication of CN117710905A publication Critical patent/CN117710905A/zh
Pending legal-status Critical Current

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种视频监控信息处理方法、***、装置及存储介质,方法包括:获取单帧目标图像;对单帧目标图像检测得到目标类别信息和旋转框位置信息;确定实际世界坐标系下的目标地理位置信息;预测下一帧图像的旋转框轨迹信息;对目标图像检测得到车辆朝向信息;确定各个目标车辆的运动状态信息;确定人体姿态信息;根据目标类别信息、目标地理位置信息、下一帧图像的旋转框轨迹信息、车辆朝向信息、运动状态信息、人体姿态信息得到全局态势信息,以对视频监控区域进行信息整合和评估预警。本发明实施例的视频监控信息处理方法,能够快速整合多个摄像头数据并生成全局态势信息,以对视频监控区域进行评估预警,从而满足安防需求。

Description

一种视频监控信息处理方法、***、装置及存储介质
技术领域
本发明涉及数据处理相关技术领域,尤其是涉及一种视频监控信息处理方法、***、装置及存储介质。
背景技术
在现代社会,人工智能技术发展日新月异,视频监控在公共安全领域得到普遍应用,摄像头数量多、视角多,监控视频数据量大,真实场景复杂。单纯依靠人力识别多个摄像头下的车辆与行人目标效率低下,且不易及时发现异常目标与行为。现有的安防监控摄像头产品与解决方案,都是一个较大范围场景内布设多个摄像头,每个摄像头各司其职,但相互之间数据无法通信,信息无法快速整合。以上因素,在案件侦破、治安态势预警、大规模***感知和预防方面,不利于及时有效的整合多个摄像头数据与预警信息,并及时做出处置决策,无法很好的满足安全领域的需求。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明提出一种视频监控信息处理方法,能够快速整合多个摄像头数据并生成全局态势信息,以对视频监控区域进行评估预警,从而满足安防需求。
本发明还提供了一种视频监控信息处理***、装置以及计算机可读存储介质。
根据本发明的第一方面实施例的视频监控信息处理方法,应用于视频监控信息处理装置的控制装置,所述视频监控信息处理装置还包括与所述控制装置通信连接的视频监控装置,所述视频监控装置包括分布在视频监控区域的不同位置的多个摄像头;
所述视频监控信息处理方法包括以下步骤:
获取由所述视频监控装置上传的图像数据中的单帧目标图像;
基于旋转矩形框训练模型对单帧所述目标图像进行检测,得到所有目标车辆的目标类别信息和旋转框位置信息,所述旋转框位置信息为图像像素坐标系下的位置信息;
根据所述目标图像基于透视变换原理得到所述图像像素坐标系和实际世界坐标系的映射矩阵,并通过所述映射矩阵得到所述实际世界坐标系下所述旋转框位置信息对应的目标地理位置信息;
基于卡尔曼滤波预测模型,利用所述旋转框位置信息预测得到下一帧图像的旋转框轨迹信息;
基于车辆朝向分类训练模型对所述目标图像进行检测,得到所有目标车辆的车辆朝向信息;
基于ViBe+背景建模算法,根据各个所述旋转框位置信息确定各个目标车辆的运动状态信息;
基于MoveNet模型,确定所述目标图像中的人体姿态信息;
根据所有目标车辆的所述目标类别信息、所述目标地理位置信息、下一帧图像的所述旋转框轨迹信息、所述车辆朝向信息、所述运动状态信息以及所述目标图像中的所述人体姿态信息得到全局态势信息,以对视频监控区域进行信息整合和评估预警。
根据本发明实施例的视频监控信息处理方法,至少具有如下有益效果:
通过视频监控装置可以拍摄到视频监控区域的图像数据,基于旋转矩形框训练模型对图像数据的单帧目标图像进行检测,可以得到所有目标车辆的目标类别信息和旋转框位置信息,根据图像像素坐标系和实际世界坐标系的映射矩阵可以得到实际世界坐标系下旋转框位置信息对应的目标地理位置信息。基于卡尔曼滤波预测模型可以预测得到下一帧图像的旋转框轨迹信息。基于车辆朝向分类训练模型可以得到所有目标车辆的车辆朝向信息。基于ViBe+背景建模算法可以根据各个旋转框位置信息确定各个目标车辆的运动状态信息。基于MoveNet模型可以确定目标图像中的人体姿态信息。将所有目标车辆的目标类别信息、目标地理位置信息、下一帧图像的旋转框轨迹信息、车辆朝向信息、运动状态信息以及目标图像中的人体姿态信息整合得到全局态势信息,可以便于工作人员对视频监控区域进行信息整合和评估预警。本发明实施例的视频监控信息处理方法,能够快速整合多个摄像头数据并生成全局态势信息,以对视频监控区域进行评估预警,从而满足安防需求。
根据本发明的一些实施例,所述基于卡尔曼滤波预测模型,利用所述旋转框位置信息预测得到下一帧图像的旋转框轨迹信息,包括以下步骤:
将各个目标车辆的所述旋转框位置信息输入卡尔曼滤波预测模型,预测得到各个目标车辆的跟踪目标框和对应的跟踪预测阈值;
基于各个目标车辆的所述旋转框位置信息和各个目标车辆的所述跟踪目标框和对应的所述跟踪预测阈值进行IOU匹配,将下一帧图像中的目标车辆分为确定目标和未确定目标,所述确定目标与所述旋转框位置信息中对应的目标车辆为同一目标,所述未确定目标与所述旋转框位置信息中对应的目标车辆为不同目标;
删除所有所述未确定目标,根据所有所述确定目标得到下一帧图像的所述旋转框轨迹信息。
根据本发明的一些实施例,所述旋转框位置信息包括车辆位置信息和置信度;所述基于各个目标车辆的所述旋转框位置信息和各个目标车辆的所述跟踪目标框和对应的所述跟踪预测阈值进行IOU匹配,将下一帧图像中的目标车辆分为确定目标和未确定目标,包括以下步骤:
将各个目标车辆的所述旋转框位置信息分为高阈值检测框和低阈值检测框,所述高阈值检测框的所述置信度大于预设跟踪阈值,所述低阈值检测框的所述跟踪预测阈值大于所述置信度且小于等于所述预设跟踪阈值,所述低阈值检测框的所述跟踪预测阈值为对应的所述跟踪目标框的所述跟踪预测阈值;
根据所述高阈值检测框与所述跟踪目标框进行IOU匹配,得到第一匹配目标、第一失配目标、第一未匹配检测框和未信任目标;
根据所述低阈值检测框与所述第一失配目标进行IOU匹配,得到第二匹配目标和暂丢目标;
根据所述第一未匹配检测框与所述未信任目标进行IOU匹配,得到第三匹配目标、第二失配目标和第二未匹配检测框;
将所述第一匹配目标、所述第二匹配目标和所述第三匹配目标分别确定为所述确定目标,并删除所述暂丢目标和所述第二失配目标,将所述第二未匹配检测框确定为所述未确定目标。
根据本发明的一些实施例,所述基于ViBe+背景建模算法,根据各个所述旋转框位置信息确定各个目标车辆的运动状态信息,包括以下步骤:
基于所述ViBe+背景建模算法对所述图像数据的初始帧图像进行背景建模,使用前景分割算法从当前单帧所述目标图像中分离出背景像素和前景像素;
计算各个所述旋转框位置信息的最小正接包围矩形;
根据所述最小正接包围矩形的面积、所述最小正接包围矩形内所述前景像素的个数和预设比例值确定各个目标车辆的所述运动状态信息。
根据本发明的一些实施例,所述运动状态信息的约束公式为:
其中,N为所述最小正接包围矩形内所述前景像素的个数,A为所述最小正接包围矩形的面积;若σ大于等于所述预设比例值,所述运动状态信息表示为运动状态,若σ小于所述预设比例值,所述运动状态信息表示为静止状态。
根据本发明的一些实施例,所述车辆朝向分类训练模型由以下步骤得到:
获取由多个所述摄像头分别上传的不同角度、不同高度的车辆数据集;
确定所述车辆数据集中各个目标车辆的旋转矩形框和朝向信息;
根据所述朝向信息按东、南、西、北四个朝向将各个目标车辆的所述旋转矩形框一一对应生成四个车辆朝向数据;
采用MicroNet-M3分类模型对四个所述车辆朝向数据进行分类模型训练,得到所述车辆朝向分类训练模型。
根据本发明的一些实施例,所述基于MoveNet模型,确定所述目标图像中的人体姿态信息,包括以下步骤:
识别所述目标图像中的目标人体;
基于MoveNet模型计算所述目标人体的热力图;
在所述热力图的峰值中心位置切出关键点回归向量;
对每个所述关键点回归向量进行加权计算所述热力图的最大值位置;
对所述最大值位置添加局部的2D偏移,并提取得到所述目标人体的每个关节点在图像像素坐标系中的坐标数据;
采用softmax多分类算法根据所述坐标数据得到所述目标人体的所述人体姿态信息。
根据本发明的第二方面实施例的视频监控信息处理***,应用于视频监控信息处理装置的控制装置,所述视频监控信息处理装置还包括与所述控制装置通信连接的视频监控装置,所述视频监控装置包括分布在视频监控区域的不同位置的多个摄像头;
所述视频监控信息处理***包括:
目标图像获取单元,用于获取由所述视频监控装置上传的图像数据中的单帧目标图像;
旋转矩形框检测单元,用于基于旋转矩形框训练模型对单帧所述目标图像进行检测,得到所有目标车辆的目标类别信息和旋转框位置信息,所述旋转框位置信息为图像像素坐标系下的位置信息;
目标地理位置信息确定单元,用于根据所述目标图像基于透视变换原理得到所述图像像素坐标系和实际世界坐标系的映射矩阵,并通过所述映射矩阵得到所述实际世界坐标系下所述旋转框位置信息对应的目标地理位置信息;
卡尔曼滤波预测单元,用于基于卡尔曼滤波预测模型,利用所述旋转框位置信息预测得到下一帧图像的旋转框轨迹信息;
车辆朝向信息确定单元,用于基于车辆朝向分类训练模型对所述目标图像进行检测,得到所有目标车辆的车辆朝向信息;
运动状态信息确定单元,用于基于ViBe+背景建模算法,根据各个所述旋转框位置信息确定各个目标车辆的运动状态信息;
人体姿态信息确定单元,用于基于MoveNet模型,确定所述目标图像中的人体姿态信息;
全局态势信息确定单元,用于根据所有目标车辆的所述目标类别信息、所述目标地理位置信息、下一帧图像的所述旋转框轨迹信息、所述车辆朝向信息、所述运动状态信息以及所述目标图像中的所述人体姿态信息得到全局态势信息,以对视频监控区域进行信息整合和评估预警。
由于视频监控信息处理***采用了上述实施例的视频监控信息处理方法的全部技术方案,因此至少具有上述实施例的技术方案所带来的所有有益效果。
根据本发明的第三方面实施例的视频监控信息处理装置,包括:
视频监控装置,包括分布在视频监控区域的不同位置的多个摄像头,用于拍摄视频监控区域的图像数据;
与所述视频监控装置电性连接的控制装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面实施例所述的视频监控信息处理方法。
由于视频监控信息处理装置采用了上述实施例的视频监控信息处理方法的全部技术方案,因此至少具有上述实施例的技术方案所带来的所有有益效果。
根据本发明的第四方面实施例的计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行如上述第一方面实施例所述的视频监控信息处理方法。由于计算机可读存储介质采用了上述实施例的视频监控信息处理方法的全部技术方案,因此至少具有上述实施例的技术方案所带来的所有有益效果。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明一实施例的视频监控信息处理方法的流程图;
图2是图1中步骤S400的流程图;
图3是图2中步骤S420的流程图;
图4是图1中步骤S600的流程图;
图5是本发明一实施例的训练车辆朝向分类训练模型的流程图;
图6是图1中步骤S700的流程图;
图7是本发明一实施例的热力图的示意图;
图8是本发明一实施例的关键点回归向量的示意图;
图9是本发明一实施例的热力图的最大值位置的示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
在本发明的描述中,如果有描述到第一、第二等只是用于区分技术特征为目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。
在本发明的描述中,需要理解的是,涉及到方位描述,例如上、下等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
本发明的描述中,需要说明的是,除非另有明确的限定,设置、安装、连接等词语应做广义理解,所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。
下面将结合图1至图9对本发明实施例的视频监控信息处理方法进行清楚、完整的描述,显然,以下所描述的实施例是本发明一部分实施例,并非全部实施例。
根据本发明的第一方面实施例的视频监控信息处理方法,应用于视频监控信息处理装置的控制装置,视频监控信息处理装置还包括与控制装置通信连接的视频监控装置,视频监控装置包括分布在视频监控区域的不同位置的多个摄像头;
视频监控信息处理方法包括但不限于以下步骤:
步骤S100,获取由视频监控装置上传的图像数据中的单帧目标图像;
步骤S200,基于旋转矩形框训练模型对单帧目标图像进行检测,得到所有目标车辆的目标类别信息和旋转框位置信息,旋转框位置信息为图像像素坐标系下的位置信息;
步骤S300,根据目标图像基于透视变换原理得到图像像素坐标系和实际世界坐标系的映射矩阵,并通过映射矩阵得到实际世界坐标系下旋转框位置信息对应的目标地理位置信息;
步骤S400,基于卡尔曼滤波预测模型,利用旋转框位置信息预测得到下一帧图像的旋转框轨迹信息;
步骤S500,基于车辆朝向分类训练模型对目标图像进行检测,得到所有目标车辆的车辆朝向信息;
步骤S600,基于ViBe+背景建模算法,根据各个旋转框位置信息确定各个目标车辆的运动状态信息;
步骤S700,基于MoveNet模型,确定目标图像中的人体姿态信息;
步骤S800,根据所有目标车辆的目标类别信息、目标地理位置信息、下一帧图像的旋转框轨迹信息、车辆朝向信息、运动状态信息以及目标图像中的人体姿态信息得到全局态势信息,以对视频监控区域进行信息整合和评估预警。
在本发明一些实施例的步骤S100中,视频监控装置包括分布在视频监控区域的不同位置的多个摄像头,摄像头采用400万像素、23倍变焦、100米视距、支持夜景红外功能的摄像头,分别安装在视频监控区域的15~20米的高度,多个摄像头覆盖视频监控区域。
传统的监控方案中,高空视角下目标检测与跟踪存在以下问题:部分目标过小,拍摄的画面比较远,在远景中车辆目标显得比较小,容易漏检;高空视角画面中,存在大量的检测物体,目标存在遮挡或重叠,影响目标检测与跟踪的效果,直接影响后续车辆位置和朝向信息的准确性;数据都是单独回传到录像机或者服务器,存在数据鸿沟和数据孤岛。
本发明实施例所需设备简单,比传统视频监控方案使用的摄像头更少,监控的公共区域的范围更广,成本更低,检测准确度高。需要说明的是,具体采用什么型号的摄像头可以根据实际需要进行选择,不能看作是对本发明的限定。
每个摄像头都可以设置一个控制装置,用于执行本发明实施例的视频监控信息处理方法,图像数据中的单帧目标图像为对应的摄像头上传,其他摄像头能与该控制装置进行数据通信。也可以一个视频监控区域设置一个控制装置,视频监控区域的多个摄像头拍摄的图像数据都上传至该控制装置,上述步骤中的单帧目标图像可以是任一摄像头拍摄的,不能看作是对本发明的限定。
在本发明一些实施例的步骤S200中,在现有技术的自然场景图像的目标检测中,通常使用水平矩形框作为检测框对目标的位置进行框定,但是在高空视角下,物体通常很拥挤,分布范围大、并且以任意方向出现,水平矩形框的通用目标检测方法会导致边界框和定向对象之间严重错位,采用旋转矩形框可以解决水平矩形框抖动的问题。
旋转矩形框训练模型由以下步骤得到:
步骤S201,获取由多个摄像头分别上传的不同角度、不同高度的车辆数据集;
步骤S202,确定车辆数据集中各个目标车辆的旋转矩形框和车辆类别;
步骤S203,根据各个目标车辆的旋转矩形框和车辆类别确定各个目标车辆的图像信息;
步骤S204,采用Mosaic和Mixup对各个目标车辆的图像信息进行图像增强;
步骤S205,采用yolov5+CSL模型对进行图像增强后的各个目标车辆的图像信息进行检测模型训练,得到旋转矩形框训练模型。
图像信息的具体获得步骤如下:采用labelme标注工具标注各个目标车辆的车辆多边形边框点,并指定相应的车辆类别,然后采用opencv minAreaRect和boxPoints函数获得旋转矩形框的四个顶点,并将数据写入图像名对应的txt文件中,每行代表一个目标车辆的图像信息,格式为(x1,y1,x2,y2,x3,y3,x4,y4,class,difficult),其中,(x1,y1,x2,y2,x3,y3,x4,y4)代表旋转矩形框的四个顶点的坐标,class为车辆类别,包括汽车(car)、公交车(bus)、卡车(truck)、面包车(van)四类。
旋转矩形框训练模型的具体训练过程如下:基于pytorch环境下,搭建yolov5+CSL模型,角度窗口半径(csl_radius)设置为2,修改水平IOU为Poly_iou,Poly_iou为求取两个旋转矩形框的IOU,用于计算旋转边框回归IOU损失函数和NMS重框的去除。根据训练设备的实际情况,合理设定输入模型的图像数量(batch_size),训练次数(epoch)可自行设定,优化器采用Adam,当训练结果准确率(mAP0.5)达到0.90以上,平均损失(average loss)在1.6以下可以停止训练,得到旋转矩形框训练模型。
需要说明的是,上述提到的图像信息的具体获得步骤和旋转矩形框训练模型的具体训练过程涉及到的专业词汇皆为本领域技术人员可知的现有技术,在此不再进行详细解释。
基于旋转矩形框训练模型对单帧目标图像进行检测,得到所有目标车辆的目标类别信息和旋转框位置信息,旋转框位置信息为图像像素坐标系下的位置信息,旋转框位置信息包括车辆位置信息和置信度,车辆位置信息为(x,y,w,h,theta),其中,(x,y)为旋转矩形框左上角顶点坐标;(w,h)为旋转矩形框的宽度和高度;theta为目标车辆的旋转矩形框与图像像素坐标系的横轴所成的角度。
在本发明一些实施例的步骤S300中,首先选择目标图像中具有清晰可分辨的地面特征点作为锚点,锚点的数量为4个,且均匀分布在图像画面中,通过opencv和鼠标获取目标图像中所对应的图像像素坐标系下的像素坐标值(u,v),通过地图获取锚点的地理经纬度值(lon,lat)。以第一锚点(4个锚点中任选一个)作为实际世界坐标系的原点,经度方向作为X轴,纬度方向作为Y轴,根据第一锚点的地理经纬度值,求取其余三个锚点的实际世界坐标系的坐标,基于透视变换原理,根据opencv getPerspectvieTransform函数求解映射矩阵。
映射矩阵如下公式:
根据上述映射矩阵可以得到实际世界坐标系下的位置:
x=(a11u+a12v+a13)/(a31u+a32v+a33);
y=(a21u+a22v+a23)/(a31u+a32v+a33);
然后求目标车辆的旋转矩形框的中心点(x,y)离原点(x0,y0)的距离dist和方位角angle:
angle=atan2(x-x0,y-y0)*180/π;
从而可以得到实际世界坐标系下车辆位置信息对应的目标地理位置信息。
需要说明的是,具体的映射矩阵求解过程为本领域技术人员可知的现有技术,在此不再进行赘述。
在本发明一些实施例的步骤S400中,通过预测下一帧图像的旋转框轨迹信息可以对视频监控区域的各个目标车辆进行轨迹预测,从而可以对各个目标车辆的未来轨迹进行评估预警,起到安全防范的作用。
在本发明一些实施例的步骤S500中,传统的目标检测大多直接采用YOLO系列的目标检测算法,检测的都是物体的正接包围矩形,并不能很好的反映物体实际的方向信息。本发明实施例中的模型训练过程和图像样本增强方面与现有技术没有区别,区别在于在样本图像中物体标注方面和分类,现有的技术,并未对车辆按方向进行分类。本发明实施例的视频监控信息处理方法加入了车辆朝向信息,有利于对视频监控区域进行全方位、多方面的评估预警,从而满足安防需求。
在本发明一些实施例的步骤S600中,旋转矩形框训练模型基于图像切片推理结合,实现图像全图推理,切片推理侧重图像中较小目标检测,能够避免图像中特征明显的小目标的漏检情况,全图推理能够保证较大目标不会因为切片失去全局信息而漏检,切片推理和全图推理保证存在一定特征信息的运动目标都能被检测出来。
ViBe+背景建模算法通过分离目标图像中的背景像素和前景像素,能够减少背景像素的干扰。
结合ViBe+背景建模算法和旋转矩形框训练模型确定各个目标车辆的运动状态信息,能够避免目标漏检情况,还能减少背景像素的干扰,使得得到的运动状态信息更准确,对视频监控区域进行评估预警的准确度更高,提高安全性要求。
在本发明一些实施例的步骤S700中,传统的人体姿态估计方案大多都是top-down(自上而下)模式的,也就是detection+pose。先由一个目标检测模型提供目标的bbox(位置矩形框),再由pose模型进行单人姿态估计。而MoveNet模型与众不同的地方在于,它是bottom-up(自下而上)的模式,即先检测出单个人体的关节点,然后再将这些关节点聚类连接到一起,组合成整个人体,能够更准确、高效的实时检测到目标人体的人体姿态信息。
根据本发明实施例的视频监控信息处理方法,通过视频监控装置可以拍摄到视频监控区域的图像数据,基于旋转矩形框训练模型对图像数据的单帧目标图像进行检测,可以得到所有目标车辆的目标类别信息和旋转框位置信息,根据图像像素坐标系和实际世界坐标系的映射矩阵可以得到实际世界坐标系下旋转框位置信息对应的目标地理位置信息。基于卡尔曼滤波预测模型可以预测得到下一帧图像的旋转框轨迹信息。基于车辆朝向分类训练模型可以得到所有目标车辆的车辆朝向信息。基于ViBe+背景建模算法可以根据各个旋转框位置信息确定各个目标车辆的运动状态信息。基于MoveNet模型可以确定目标图像中的人体姿态信息。将所有目标车辆的目标类别信息、目标地理位置信息、下一帧图像的旋转框轨迹信息、车辆朝向信息、运动状态信息以及目标图像中的人体姿态信息整合得到全局态势信息,可以便于工作人员对视频监控区域进行信息整合和评估预警。本发明实施例的视频监控信息处理方法,能够快速整合多个摄像头数据并生成全局态势信息,以对视频监控区域进行评估预警,从而满足安防需求。
在本发明的一些实施例中,参考图2,步骤S400包括但不限于以下步骤:
步骤S410,将各个目标车辆的旋转框位置信息输入卡尔曼滤波预测模型,预测得到各个目标车辆的跟踪目标框和对应的跟踪预测阈值;
步骤S420,基于各个目标车辆的旋转框位置信息和各个目标车辆的跟踪目标框和对应的跟踪预测阈值进行IOU匹配,将下一帧图像中的目标车辆分为确定目标和未确定目标,确定目标与旋转框位置信息中对应的目标车辆为同一目标,未确定目标与旋转框位置信息中对应的目标车辆为不同目标;
步骤S430,删除所有未确定目标,根据所有确定目标得到下一帧图像的旋转框轨迹信息。
采用(x,y,a,h,theta,dx,dy,da,dh,dtheta)作为状态估计模型的状态向量,采用匀速运动模型的卡尔曼滤波预测模型预测下一帧跟踪目标框,其中a=w/h,dx,dy,da,dh,dtheta分别为x,y,a,h,theta的变化量。
进行IOU匹配是为了将目标车辆的ID(编号)匹配上。检测得到的每个目标车辆的车辆位置信息是不带ID(编号)的。对于每一帧图像,目标检测只是检测到了模型可以判别的物体的旋转矩形框位置,并不能确认前后两帧图像中的物体是否属于同一个物体。根据各个目标车辆的旋转框位置信息(即旋转矩形框)与跟踪目标框的匹配与否,才能确定前后两帧图像中的物体是否是同一个目标。
需要说明的是,IOU匹配过程为本领域技术人员可知的现有技术,在此不再进行赘述。
在本发明的一些实施例中,参考图3,旋转框位置信息包括车辆位置信息和置信度;步骤S420包括但不限于以下步骤:
步骤S421,将各个目标车辆的旋转框位置信息分为高阈值检测框和低阈值检测框,高阈值检测框的置信度大于预设跟踪阈值,低阈值检测框的跟踪预测阈值大于置信度且小于等于预设跟踪阈值,低阈值检测框的跟踪预测阈值为对应的跟踪目标框的跟踪预测阈值;
步骤S422,根据高阈值检测框与跟踪目标框进行IOU匹配,得到第一匹配目标、第一失配目标、第一未匹配检测框和未信任目标;
步骤S423,根据低阈值检测框与第一失配目标进行IOU匹配,得到第二匹配目标和暂丢目标;
步骤S424,根据第一未匹配检测框与未信任目标进行IOU匹配,得到第三匹配目标、第二失配目标和第二未匹配检测框;
步骤S425,将第一匹配目标、第二匹配目标和第三匹配目标分别确定为确定目标,并删除暂丢目标和第二失配目标,将第二未匹配检测框确定为未确定目标。
旋转框位置信息包括车辆位置信息和置信度,车辆位置信息包括旋转矩形框。匹配目标表示旋转矩形框与跟踪目标框匹配成功,为同一目标,ID保持不变。失配目标表示旋转矩形框与跟踪目标框匹配失败,且多次失败,为需要丢弃的目标,如已经从监控画面中消失了的目标。未匹配检测框表示旋转矩形框与跟踪目标框匹配失败,暂时无法确认是否是新目标,还是之前没检测到的旧目标。未信任目标表示目标检测到的次数小于预设检测阈值(一般设置为3,也可以设为其他值)。暂丢目标表示跟踪目标框匹配到了,但是由于某些原因(如被部分遮挡),该帧图像检测到目标类别的置信度较低,所以认为暂定跟丢了。
被暂时认为是不可信的目标,不会传到应用进行处理。将第二未匹配检测框确定为未确定目标后,当连续帧未匹配到检测目标上,则删除此目标,当检测次数大于预设检测阈值,则转为确定目标,会进一步进行车辆朝向检测。
在得到下一帧图像的旋转框轨迹信息后,对卡尔曼滤波参数进行更新,以便下一次预测。
在本发明的一些实施例中,参考图4,步骤S600包括但不限于以下步骤:
步骤S610,基于ViBe+背景建模算法对图像数据的初始帧图像进行背景建模,使用前景分割算法从当前单帧目标图像中分离出背景像素和前景像素;
步骤S620,计算各个旋转框位置信息的最小正接包围矩形;
步骤S630,根据最小正接包围矩形的面积、最小正接包围矩形内前景像素的个数和预设比例值确定各个目标车辆的运动状态信息。
新建20个背景模板,选择图像数据的初始帧图像,遍历所有像素。则20个背景模板中对应位置的像素值为当前像素加上一些随机噪声,可以记作公式:value_plus_noise=value+rand()%20-10。其中value_plus_noise是背景模板对应位置的像素值,value是初始帧图像对应位置的像素值,rand()%20-10为加入的随机噪声像素值的计算方法。
随机从20个背景模板中选出来2个背景模板,如果对应位置的像素值与2个背景模板中对应位置的像素值的差值的绝对值大于预设像素阈值,则认为该像素为前景像素,否则,认为该像素为背景像素,并更新背景模板中对应位置的像素值。
计算各个旋转框位置信息的最小正接包围矩形是为了尽可能的把目标车辆运动后的旋转矩形框也完全包含进去,其原理为本领域技术人员可知的现有技术,在此不再进行赘述。
运动状态信息的约束公式为:
其中,N为最小正接包围矩形内前景像素的个数,A为最小正接包围矩形的面积;若σ大于等于预设比例值,运动状态信息表示为运动状态,若σ小于预设比例值,运动状态信息表示为静止状态。
需要说明的是,ViBe+背景建模算法还可以采用高斯背景建模算法替换,不能看作是对本发明的限定。
在本发明的一些实施例中,参考图5,车辆朝向分类训练模型由以下步骤得到:
步骤S501,获取由多个摄像头分别上传的不同角度、不同高度的车辆数据集;
步骤S502,确定车辆数据集中各个目标车辆的旋转矩形框和朝向信息;
步骤S503,根据朝向信息按东、南、西、北四个朝向将各个目标车辆的旋转矩形框一一对应生成四个车辆朝向数据;
步骤S504,采用MicroNet-M3分类模型对四个车辆朝向数据进行分类模型训练,得到车辆朝向分类训练模型。
获取不同角度、不同高度的车辆数据集后,将车辆数据集中非车辆区域的像素值设为(125,125,125),用于区别目标车辆和背景区域。对于每个目标车辆按照朝向位置分别放入0,1,2,3文件夹中,形成四个车辆朝向数据。在生成四个车辆朝向数据后,采用Cutout和Mixup进行数据增强,再基于pytorch环境下,分类模型设置为MicroNet-M3,初始学习率为0.001,训练次数(epoch)设置为200,进行分类模型训练,得到车辆朝向分类训练模型。
需要说明的是,MicroNet-M3分类模型以及模型训练的过程皆为本领域技术人员可知的现有技术,在此不再进行赘述。
在本发明的一些实施例中,参考图6至图9,步骤S700包括但不限于以下步骤:
步骤S710,识别目标图像中的目标人体;
步骤S720,基于MoveNet模型计算目标人体的热力图;
步骤S730,在热力图的峰值中心位置切出关键点回归向量;
步骤S740,对每个关键点回归向量进行加权计算热力图的最大值位置;
步骤S750,对最大值位置添加局部的2D偏移,并提取得到目标人体的每个关节点在图像像素坐标系中的坐标数据;
步骤S760,采用softmax多分类算法根据坐标数据得到目标人体的人体姿态信息。
传统的人体姿态估计方案大多都是top-down(自上而下)模式的,也就是detection+pose。先由一个目标检测模型提供目标的bbox(位置矩形框),再由pose模型进行单人姿态估计。而MoveNet模型与众不同的地方在于,它是bottom-up(自下而上)的模式,即先检测出单个人体的关节点,然后再将这些关节点聚类连接到一起,组合成整个人体,能够更准确、高效的实时检测到目标人体的人体姿态信息。
需要说明的是,MoveNet模型的原理为本领域技术人员可知的现有技术,在此不再进行赘述。
根据本发明的第二方面实施例的视频监控信息处理***,应用于视频监控信息处理装置的控制装置,视频监控信息处理装置还包括与控制装置通信连接的视频监控装置,视频监控装置包括分布在视频监控区域的不同位置的多个摄像头;
视频监控信息处理***包括目标图像获取单元、旋转矩形框检测单元、目标地理位置信息确定单元、卡尔曼滤波预测单元、车辆朝向信息确定单元、运动状态信息确定单元、人体姿态信息确定单元、全局态势信息确定单元。
目标图像获取单元,用于获取由视频监控装置上传的图像数据中的单帧目标图像;
旋转矩形框检测单元,用于基于旋转矩形框训练模型对单帧目标图像进行检测,得到所有目标车辆的目标类别信息和旋转框位置信息,旋转框位置信息为图像像素坐标系下的位置信息;
目标地理位置信息确定单元,用于根据目标图像基于透视变换原理得到图像像素坐标系和实际世界坐标系的映射矩阵,并通过映射矩阵得到实际世界坐标系下旋转框位置信息对应的目标地理位置信息;
卡尔曼滤波预测单元,用于基于卡尔曼滤波预测模型,利用旋转框位置信息预测得到下一帧图像的旋转框轨迹信息;
车辆朝向信息确定单元,用于基于车辆朝向分类训练模型对目标图像进行检测,得到所有目标车辆的车辆朝向信息;
运动状态信息确定单元,用于基于ViBe+背景建模算法,根据各个旋转框位置信息确定各个目标车辆的运动状态信息;
人体姿态信息确定单元,用于基于MoveNet模型,确定目标图像中的人体姿态信息;
全局态势信息确定单元,用于根据所有目标车辆的目标类别信息、目标地理位置信息、下一帧图像的旋转框轨迹信息、车辆朝向信息、运动状态信息以及目标图像中的人体姿态信息得到全局态势信息,以对视频监控区域进行信息整合和评估预警。
在现有技术的自然场景图像的目标检测中,通常使用水平矩形框作为检测框对目标的位置进行框定,但是在高空视角下,物体通常很拥挤,分布范围大、并且以任意方向出现,水平矩形框的通用目标检测方法会导致边界框和定向对象之间严重错位,采用旋转矩形框可以解决水平矩形框抖动的问题。
旋转矩形框训练模型由以下步骤得到:
获取由多个摄像头分别上传的不同角度、不同高度的车辆数据集;
确定车辆数据集中各个目标车辆的旋转矩形框和车辆类别;
根据各个目标车辆的旋转矩形框和车辆类别确定各个目标车辆的图像信息;
采用Mosaic和Mixup对各个目标车辆的图像信息进行图像增强;
采用yolov5+CSL模型对进行图像增强后的各个目标车辆的图像信息进行检测模型训练,得到旋转矩形框训练模型。
图像信息的具体获得步骤如下:采用labelme标注工具标注各个目标车辆的车辆多边形边框点,并指定相应的车辆类别,然后采用opencv minAreaRect和boxPoints函数获得旋转矩形框的四个顶点,并将数据写入图像名对应的txt文件中,每行代表一个目标车辆的图像信息,格式为(x1,y1,x2,y2,x3,y3,x4,y4,class,difficult),其中,(x1,y1,x2,y2,x3,y3,x4,y4)代表旋转矩形框的四个顶点的坐标,class为车辆类别,包括汽车(car)、公交车(bus)、卡车(truck)、面包车(van)四类。
旋转矩形框训练模型的具体训练过程如下:基于pytorch环境下,搭建yolov5+CSL模型,角度窗口半径(csl_radius)设置为2,修改水平IOU为Poly_iou,Poly_iou为求取两个旋转矩形框的IOU,用于计算旋转边框回归IOU损失函数和NMS重框的去除。根据训练设备的实际情况,合理设定输入模型的图像数量(batch_size),训练次数(epoch)可自行设定,优化器采用Adam,当训练结果准确率(mAP0.5)达到0.90以上,平均损失(average loss)在1.6以下可以停止训练,得到旋转矩形框训练模型。
需要说明的是,上述提到的图像信息的具体获得步骤和旋转矩形框训练模型的具体训练过程涉及到的专业词汇皆为本领域技术人员可知的现有技术,在此不再进行详细解释。
基于旋转矩形框训练模型对单帧目标图像进行检测,得到所有目标车辆的目标类别信息和旋转框位置信息,旋转框位置信息为图像像素坐标系下的位置信息,旋转框位置信息包括车辆位置信息和置信度,车辆位置信息为(x,y,w,h,theta),其中,(x,y)为旋转矩形框左上角顶点坐标;(w,h)为旋转矩形框的宽度和高度;theta为目标车辆的旋转矩形框与图像像素坐标系的横轴所成的角度。
目标地理位置信息由以下步骤得到:首先选择目标图像中具有清晰可分辨的地面特征点作为锚点,锚点的数量为4个,且均匀分布在图像画面中,通过opencv和鼠标获取目标图像中所对应的图像像素坐标系下的像素坐标值(u,v),通过地图获取锚点的地理经纬度值(lon,lat)。以第一锚点(4个锚点中任选一个)作为实际世界坐标系的原点,经度方向作为X轴,纬度方向作为Y轴,根据第一锚点的地理经纬度值,求取其余三个锚点的实际世界坐标系的坐标,基于透视变换原理,根据opencv getPerspectvieTransform函数求解映射矩阵。
映射矩阵如下公式:
根据上述映射矩阵可以得到实际世界坐标系下的位置:
x=(a11u+a12v+a13)/(a31u+a32v+a33);
y=(a21u+a22v+a23)/(a31u+a32v+a33);
然后求目标车辆的旋转矩形框的中心点(x,y)离原点(x0,y0)的距离dist和方位角angle:
angle=atan2(x-x0,y-y0)*180/π;
从而可以得到实际世界坐标系下车辆位置信息对应的目标地理位置信息。
需要说明的是,具体的映射矩阵求解过程为本领域技术人员可知的现有技术,在此不再进行赘述。
通过预测下一帧图像的旋转框轨迹信息可以对视频监控区域的各个目标车辆进行轨迹预测,从而可以对各个目标车辆的未来轨迹进行评估预警,起到安全防范的作用。
传统的目标检测大多直接采用YOLO系列的目标检测算法,检测的都是物体的正接包围矩形,并不能很好的反映物体实际的方向信息。本发明实施例中的模型训练过程和图像样本增强方面与现有技术没有区别,区别在于在样本图像中物体标注方面和分类,现有的技术,并未对车辆按方向进行分类。本发明实施例的视频监控信息处理方法加入了车辆朝向信息,有利于对视频监控区域进行全方位、多方面的评估预警,从而满足安防需求。
旋转矩形框训练模型基于图像切片推理结合,实现图像全图推理,切片推理侧重图像中较小目标检测,能够避免图像中特征明显的小目标的漏检情况,全图推理能够保证较大目标不会因为切片失去全局信息而漏检,切片推理和全图推理保证存在一定特征信息的运动目标都能被检测出来。ViBe+背景建模算法通过分离目标图像中的背景像素和前景像素,能够减少背景像素的干扰。结合ViBe+背景建模算法和旋转矩形框训练模型确定各个目标车辆的运动状态信息,能够避免目标漏检情况,还能减少背景像素的干扰,使得得到的运动状态信息更准确,对视频监控区域进行评估预警的准确度更高,提高安全性要求。
传统的人体姿态估计方案大多都是top-down(自上而下)模式的,也就是detection+pose。先由一个目标检测模型提供目标的bbox(位置矩形框),再由pose模型进行单人姿态估计。而MoveNet模型与众不同的地方在于,它是bottom-up(自下而上)的模式,即先检测出单个人体的关节点,然后再将这些关节点聚类连接到一起,组合成整个人体,能够更准确、高效的实时检测到目标人体的人体姿态信息。
由于视频监控信息处理***采用了上述实施例的视频监控信息处理方法的全部技术方案,因此至少具有上述实施例的技术方案所带来的所有有益效果。
根据本发明的第三方面实施例的视频监控信息处理装置,包括视频监控装置和与视频监控装置电性连接的控制装置。
视频监控装置,包括分布在视频监控区域的不同位置的多个摄像头,用于拍摄视频监控区域的图像数据;
与视频监控装置电性连接的控制装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述第一方面实施例的视频监控信息处理方法。
视频监控装置包括分布在视频监控区域的不同位置的多个摄像头,摄像头采用400万像素、23倍变焦、100米视距、支持夜景红外功能的摄像头,分别安装在视频监控区域的15~20米的高度,多个摄像头覆盖视频监控区域。
传统的监控方案中,高空视角下目标检测与跟踪存在以下问题:部分目标过小,拍摄的画面比较远,在远景中车辆目标显得比较小,容易漏检;高空视角画面中,存在大量的检测物体,目标存在遮挡或重叠,影响目标检测与跟踪的效果,直接影响后续车辆位置和朝向信息的准确性;数据都是单独回传到录像机或者服务器,存在数据鸿沟和数据孤岛。
本发明实施例所需设备简单,比传统视频监控方案使用的摄像头更少,监控的公共区域的范围更广,成本更低,检测准确度高。需要说明的是,具体采用什么型号的摄像头可以根据实际需要进行选择,不能看作是对本发明的限定。
每个摄像头都可以设置一个控制装置,用于执行本发明实施例的视频监控信息处理方法,图像数据中的单帧目标图像为对应的摄像头上传,其他摄像头能与该控制装置进行数据通信。也可以一个视频监控区域设置一个控制装置,视频监控区域的多个摄像头拍摄的图像数据都上传至该控制装置,上述步骤中的单帧目标图像可以是任一摄像头拍摄的,不能看作是对本发明的限定。
处理器和存储器可以通过总线或者其他方式连接。
存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
实现上述实施例的视频监控信息处理方法所需的非暂态软件程序以及指令存储在存储器中,当被处理器执行时,执行上述实施例中的视频监控信息处理方法。
由于视频监控信息处理装置采用了上述实施例的视频监控信息处理方法的全部技术方案,因此至少具有上述实施例的技术方案所带来的所有有益效果。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
此外,本发明第四方面实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令被一个处理器或控制器执行,例如,被上述控制装置的处理器执行,可使得上述处理器执行上述实施例中的视频监控信息处理方法。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、***可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
上面结合附图对本发明实施例作了详细说明,但本发明不限于上述实施例,在所属技术领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (10)

1.一种视频监控信息处理方法,其特征在于,应用于视频监控信息处理装置的控制装置,所述视频监控信息处理装置还包括与所述控制装置通信连接的视频监控装置,所述视频监控装置包括分布在视频监控区域的不同位置的多个摄像头;
所述视频监控信息处理方法包括以下步骤:
获取由所述视频监控装置上传的图像数据中的单帧目标图像;
基于旋转矩形框训练模型对单帧所述目标图像进行检测,得到所有目标车辆的目标类别信息和旋转框位置信息,所述旋转框位置信息为图像像素坐标系下的位置信息;
根据所述目标图像基于透视变换原理得到所述图像像素坐标系和实际世界坐标系的映射矩阵,并通过所述映射矩阵得到所述实际世界坐标系下所述旋转框位置信息对应的目标地理位置信息;
基于卡尔曼滤波预测模型,利用所述旋转框位置信息预测得到下一帧图像的旋转框轨迹信息;
基于车辆朝向分类训练模型对所述目标图像进行检测,得到所有目标车辆的车辆朝向信息;
基于ViBe+背景建模算法,根据各个所述旋转框位置信息确定各个目标车辆的运动状态信息;
基于MoveNet模型,确定所述目标图像中的人体姿态信息;
根据所有目标车辆的所述目标类别信息、所述目标地理位置信息、下一帧图像的所述旋转框轨迹信息、所述车辆朝向信息、所述运动状态信息以及所述目标图像中的所述人体姿态信息得到全局态势信息,以对视频监控区域进行信息整合和评估预警。
2.根据权利要求1所述的视频监控信息处理方法,其特征在于,所述基于卡尔曼滤波预测模型,利用所述旋转框位置信息预测得到下一帧图像的旋转框轨迹信息,包括以下步骤:
将各个目标车辆的所述旋转框位置信息输入卡尔曼滤波预测模型,预测得到各个目标车辆的跟踪目标框和对应的跟踪预测阈值;
基于各个目标车辆的所述旋转框位置信息和各个目标车辆的所述跟踪目标框和对应的所述跟踪预测阈值进行IOU匹配,将下一帧图像中的目标车辆分为确定目标和未确定目标,所述确定目标与所述旋转框位置信息中对应的目标车辆为同一目标,所述未确定目标与所述旋转框位置信息中对应的目标车辆为不同目标;
删除所有所述未确定目标,根据所有所述确定目标得到下一帧图像的所述旋转框轨迹信息。
3.根据权利要求2所述的视频监控信息处理方法,其特征在于,所述旋转框位置信息包括车辆位置信息和置信度;所述基于各个目标车辆的所述旋转框位置信息和各个目标车辆的所述跟踪目标框和对应的所述跟踪预测阈值进行IOU匹配,将下一帧图像中的目标车辆分为确定目标和未确定目标,包括以下步骤:
将各个目标车辆的所述旋转框位置信息分为高阈值检测框和低阈值检测框,所述高阈值检测框的所述置信度大于预设跟踪阈值,所述低阈值检测框的所述跟踪预测阈值大于所述置信度且小于等于所述预设跟踪阈值,所述低阈值检测框的所述跟踪预测阈值为对应的所述跟踪目标框的所述跟踪预测阈值;
根据所述高阈值检测框与所述跟踪目标框进行IOU匹配,得到第一匹配目标、第一失配目标、第一未匹配检测框和未信任目标;
根据所述低阈值检测框与所述第一失配目标进行IOU匹配,得到第二匹配目标和暂丢目标;
根据所述第一未匹配检测框与所述未信任目标进行IOU匹配,得到第三匹配目标、第二失配目标和第二未匹配检测框;
将所述第一匹配目标、所述第二匹配目标和所述第三匹配目标分别确定为所述确定目标,并删除所述暂丢目标和所述第二失配目标,将所述第二未匹配检测框确定为所述未确定目标。
4.根据权利要求1所述的视频监控信息处理方法,其特征在于,所述基于ViBe+背景建模算法,根据各个所述旋转框位置信息确定各个目标车辆的运动状态信息,包括以下步骤:
基于所述ViBe+背景建模算法对所述图像数据的初始帧图像进行背景建模,使用前景分割算法从当前单帧所述目标图像中分离出背景像素和前景像素;
计算各个所述旋转框位置信息的最小正接包围矩形;
根据所述最小正接包围矩形的面积、所述最小正接包围矩形内所述前景像素的个数和预设比例值确定各个目标车辆的所述运动状态信息。
5.根据权利要求4所述的视频监控信息处理方法,其特征在于,所述运动状态信息的约束公式为:
其中,N为所述最小正接包围矩形内所述前景像素的个数,A为所述最小正接包围矩形的面积;若σ大于等于所述预设比例值,所述运动状态信息表示为运动状态,若σ小于所述预设比例值,所述运动状态信息表示为静止状态。
6.根据权利要求1所述的视频监控信息处理方法,其特征在于,所述车辆朝向分类训练模型由以下步骤得到:
获取由多个所述摄像头分别上传的不同角度、不同高度的车辆数据集;
确定所述车辆数据集中各个目标车辆的旋转矩形框和朝向信息;
根据所述朝向信息按东、南、西、北四个朝向将各个目标车辆的所述旋转矩形框一一对应生成四个车辆朝向数据;
采用MicroNet-M3分类模型对四个所述车辆朝向数据进行分类模型训练,得到所述车辆朝向分类训练模型。
7.根据权利要求1所述的视频监控信息处理方法,其特征在于,所述基于MoveNet模型,确定所述目标图像中的人体姿态信息,包括以下步骤:
识别所述目标图像中的目标人体;
基于MoveNet模型计算所述目标人体的热力图;
在所述热力图的峰值中心位置切出关键点回归向量;
对每个所述关键点回归向量进行加权计算所述热力图的最大值位置;
对所述最大值位置添加局部的2D偏移,并提取得到所述目标人体的每个关节点在图像像素坐标系中的坐标数据;
采用softmax多分类算法根据所述坐标数据得到所述目标人体的所述人体姿态信息。
8.一种视频监控信息处理***,其特征在于,应用于视频监控信息处理装置的控制装置,所述视频监控信息处理装置还包括与所述控制装置通信连接的视频监控装置,所述视频监控装置包括分布在视频监控区域的不同位置的多个摄像头;
所述视频监控信息处理***包括:
目标图像获取单元,用于获取由所述视频监控装置上传的图像数据中的单帧目标图像;
旋转矩形框检测单元,用于基于旋转矩形框训练模型对单帧所述目标图像进行检测,得到所有目标车辆的目标类别信息和旋转框位置信息,所述旋转框位置信息为图像像素坐标系下的位置信息;
目标地理位置信息确定单元,用于根据所述目标图像基于透视变换原理得到所述图像像素坐标系和实际世界坐标系的映射矩阵,并通过所述映射矩阵得到所述实际世界坐标系下所述旋转框位置信息对应的目标地理位置信息;
卡尔曼滤波预测单元,用于基于卡尔曼滤波预测模型,利用所述旋转框位置信息预测得到下一帧图像的旋转框轨迹信息;
车辆朝向信息确定单元,用于基于车辆朝向分类训练模型对所述目标图像进行检测,得到所有目标车辆的车辆朝向信息;
运动状态信息确定单元,用于基于ViBe+背景建模算法,根据各个所述旋转框位置信息确定各个目标车辆的运动状态信息;
人体姿态信息确定单元,用于基于MoveNet模型,确定所述目标图像中的人体姿态信息;
全局态势信息确定单元,用于根据所有目标车辆的所述目标类别信息、所述目标地理位置信息、下一帧图像的所述旋转框轨迹信息、所述车辆朝向信息、所述运动状态信息以及所述目标图像中的所述人体姿态信息得到全局态势信息,以对视频监控区域进行信息整合和评估预警。
9.一种视频监控信息处理装置,其特征在于,包括:
视频监控装置,包括分布在视频监控区域的不同位置的多个摄像头,用于拍摄视频监控区域的图像数据;
与所述视频监控装置电性连接的控制装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7中任意一项所述的视频监控信息处理方法。
10.一种计算机可读存储介质,存储有计算机可执行指令,其特征在于,所述计算机可执行指令用于执行如权利要求1至7中任意一项所述的视频监控信息处理方法。
CN202311453419.8A 2023-11-02 2023-11-02 一种视频监控信息处理方法、***、装置及存储介质 Pending CN117710905A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311453419.8A CN117710905A (zh) 2023-11-02 2023-11-02 一种视频监控信息处理方法、***、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311453419.8A CN117710905A (zh) 2023-11-02 2023-11-02 一种视频监控信息处理方法、***、装置及存储介质

Publications (1)

Publication Number Publication Date
CN117710905A true CN117710905A (zh) 2024-03-15

Family

ID=90154090

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311453419.8A Pending CN117710905A (zh) 2023-11-02 2023-11-02 一种视频监控信息处理方法、***、装置及存储介质

Country Status (1)

Country Link
CN (1) CN117710905A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118276089A (zh) * 2024-06-03 2024-07-02 深圳大学 一种sar旋转多目标检测与追踪方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118276089A (zh) * 2024-06-03 2024-07-02 深圳大学 一种sar旋转多目标检测与追踪方法

Similar Documents

Publication Publication Date Title
US9292750B2 (en) Method and apparatus for detecting traffic monitoring video
CN111611853B (zh) 一种传感信息融合方法、装置及存储介质
KR101735365B1 (ko) 학습 기반의 영상 내 관심 물체 검지 및 환경 변화에 강인한 물체 추적 방법
KR101569919B1 (ko) 차량의 위치 추정 장치 및 방법
Bedruz et al. Real-time vehicle detection and tracking using a mean-shift based blob analysis and tracking approach
CN112166459A (zh) 基于多相机卷积器***的三维环境建模
US20060221181A1 (en) Video ghost detection by outline
CN110718068B (zh) 一种道路监控摄像机安装角度估计方法
US11580659B2 (en) Method for size estimation by image recognition of specific target using given scale
CN115546738A (zh) 一种铁轨异物检测方法
CN110349172B (zh) 基于图像处理和双目立体测距的输电线路防外破预警方法
CN112084892A (zh) 一种道路异常事件检测管理装置及其方法
CN113505643B (zh) 违章目标物检测方法及相关装置
CN110636248B (zh) 目标跟踪方法与装置
JP6916975B2 (ja) 標識位置特定システム及びプログラム
CN113994381A (zh) 检测移动物体的方法
KR20210044127A (ko) 영상 분석 기반 가시거리 측정 및 경보 시스템 및 방법
CN117710905A (zh) 一种视频监控信息处理方法、***、装置及存储介质
CN113628251B (zh) 一种智慧酒店终端监测方法
US11488390B2 (en) Map generation device, recording medium and map generation method
Lookingbill et al. Learning activity-based ground models from a moving helicopter platform
Novais et al. Community based repository for georeferenced traffic signs
CN107358170B (zh) 一种基于移动机器视觉的车辆违章压线识别方法
CN114399537B (zh) 一种目标人员的车辆跟踪方法及***
CN113705502B (zh) 一种融合目标检测和目标跟踪的船舶目标行为理解***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination