CN117953580A - 一种基于跨摄像头多目标跟踪的行为识别方法、***及电子设备 - Google Patents
一种基于跨摄像头多目标跟踪的行为识别方法、***及电子设备 Download PDFInfo
- Publication number
- CN117953580A CN117953580A CN202410117750.0A CN202410117750A CN117953580A CN 117953580 A CN117953580 A CN 117953580A CN 202410117750 A CN202410117750 A CN 202410117750A CN 117953580 A CN117953580 A CN 117953580A
- Authority
- CN
- China
- Prior art keywords
- behavior
- targets
- target
- cameras
- current frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 230000006399 behavior Effects 0.000 claims abstract description 196
- 238000001514 detection method Methods 0.000 claims abstract description 45
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 35
- 230000009977 dual effect Effects 0.000 claims abstract description 5
- 238000012549 training Methods 0.000 claims description 28
- 230000000391 smoking effect Effects 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 6
- 101000611614 Homo sapiens Proline-rich protein PRCC Proteins 0.000 claims description 3
- 101000642315 Homo sapiens Spermatogenesis-associated protein 17 Proteins 0.000 claims description 3
- 102100040829 Proline-rich protein PRCC Human genes 0.000 claims description 3
- 102100036408 Spermatogenesis-associated protein 17 Human genes 0.000 claims description 3
- 238000010276 construction Methods 0.000 abstract description 6
- 238000012544 monitoring process Methods 0.000 abstract description 5
- 230000000007 visual effect Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 7
- 238000012795 verification Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 3
- 238000012937 correction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
- G06Q50/265—Personal security, identity or safety
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Tourism & Hospitality (AREA)
- Human Computer Interaction (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Primary Health Care (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- Educational Administration (AREA)
- Development Economics (AREA)
- Human Resources & Organizations (AREA)
- Databases & Information Systems (AREA)
- General Business, Economics & Management (AREA)
- Computer Security & Cryptography (AREA)
- Medical Informatics (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于跨摄像头多目标跟踪的行为识别方法、***及电子设备,属于行为识别技术领域。该方法包括:视频图像采集;人员区域定位;进行双重目标跟踪:利用位置相似度和匈牙利算法完成单摄像头内目标匹配,利用外观相似度和贪心算法完成跨摄像头间目标匹配,赋予人员编号;行为初步识别;行为综合判别;根据行为综合判别结果对所有摄像头当前帧中目标的行为初步标签进行修正,并在图像中可视化输出存在涉及行为的目标区域及行为标签。本发明解决了基于单帧图像识别的高漏检率和高误检率的问题,使得方法能够在电力基建等作业场景下,实现基于视频监控的高效可靠的人员行为安全管控任务。
Description
技术领域
本发明涉及行为识别技术领域,更具体的说是涉及一种基于跨摄像头多目标跟踪的行为识别方法、***及电子设备。
背景技术
随着社会的迅速发展,电力基建等作业场景的人员安全管控形势日益严峻。特别是在复杂的作业场景中,确保作业人员的安全成为了巨大挑战。相比于传统人工巡检的方式,当前也出现了基于计算机视觉的行为识别方法,虽然能够减少一定的人力成本,但是现有技术大多基于单帧图像,其在处理动态、多变的复杂作业环境时显示出了明显的不足。由于缺乏时间维度的深入分析,这些技术往往存在高漏检和高误检的问题,导致准确性及可靠性受限,仍然需要安全监督人员进行大量人工排查和确定识别结果的工作。
因此,针对现有技术的这些局限,如何提供一种基于跨摄像头多目标跟踪的行为识别方法、***及电子设备是本领域技术人员亟需解决的问题。
发明内容
有鉴于此,本发明提供了一种基于跨摄像头多目标跟踪的行为识别方法、***及电子设备,该方法利用电力作业场景中普遍存在的多摄像头多视角监控***,通过跨摄像头多目标跟踪算法,将不同摄像头捕捉到的相同人员关联起来,赋予统一的人员编号,从而实现利用特定时间段内同一编号人员的行为信息进行综合判别。这种方法的优势在于,它不单单依赖于静态的单帧图像,而是结合了多摄像头的连续时间序列内的多帧数据,从而为行为识别提供了更全面的上下文信息,有效提高了行为识别的准确性,还大幅降低了误判和漏检的可能性,为电力基建等作业场景中的安全管控提供了高可靠性的技术支持。
为了实现上述目的,本发明提供如下技术方案:
一种基于跨摄像头多目标跟踪的行为识别方法,包括:
S100:获取场景中多个摄像头的实时视频图像数据;
S200:通过完成训练的行人检测模型对所有摄像头所有帧中的目标进行区域定位,得到所有目标的区域坐标;
S300:对于单摄像头,当前帧中所有目标的区域坐标和上一帧中所有目标的区域坐标进行位置相似度计算,并用匈牙利算法完成单摄像头内目标匹配,将相互匹配的目标赋予相同的人员编号,得到当前帧目标信息;
对于跨摄像头之间,任意摄像头当前帧中所有目标与剩余摄像头当前帧中所有目标利用外观特征进行外观相似度计算,并用贪心算法完成跨摄像头间目标匹配,根据匹配结果对目标的人员编号进行修正;
S400:对所有摄像头当前帧中的所有目标进行行为识别,为每个目标赋予相应的行为初步标签;
S500:结合多摄像头先前相邻特定帧中相同人员编号的行为初步标签,根据预设的综合判别策略对人员行为类别进行确定,得到行为综合判别结果;
S600:根据行为综合判别结果对所有摄像头当前帧中目标的行为初步标签进行修正,并在图像中可视化输出存在涉及行为的目标区域及行为标签。
优选地,所述S100的多摄像头的设置具体为:对于具体应用场景,将在不同位置及不同高度布置多个摄像头,从而获取该场景不同视角的实时视频图像数据,提供更全面的空间信息。
优选的,所述S200包括:
基于F2DNet行人检测框架构建行人检测模型;
获取COCO数据集,并对所述行人检测模型进行预训练;
获取CrowdHuman行人数据集、Cityperson行人数据集、ETHZ行人数据集以及MOT17多目标跟踪数据、MOT20多目标跟踪数据,并对所述行人检测模型进行训练,得到完成训练的行人检测模型;
将采集的任一摄像头的当前帧图像输入至完成训练的行人检测模型,输出当前帧所有目标的区域坐标,表示为:
其中,i表示当前帧第i个目标,c表示当前帧第c个摄像头,和/>分别为当前帧目标区域左下角的横坐标和纵坐标,/>和/>分别为当前帧目标区域的长度和宽度。
优选地,所述S300中,对于单摄像头,当前帧中所有目标的区域坐标和上一帧中所有目标的区域坐标进行位置相似度计算,并用匈牙利算法完成单摄像头内目标匹配,包括:
S310:对于单摄像头内目标匹配,输入当前帧及前一帧的所有目标的区域坐标,前一帧目标的区域坐标为:
其中,j表示上一帧第j个目标,v表示当前帧第v个摄像头,和/>分别为前一帧目标区域左下角的横坐标和纵坐标,/>和/>分别为前一帧目标区域的长度和宽度;
S311:利用配置的卡尔曼滤波器对前一帧的所有目标进行位置预测,获得预测后的目标的区域坐标为:
其中,和/>分别为前一帧预测目标区域左下角的横坐标和纵坐标,/>和/>分别为前一帧预测目标区域的长度和宽度;
S312:采用IoU作为衡量函数计算当前帧所有目标与前一帧所有预测目标的位置相似度:
其中,对于单摄像头内目标匹配,函数中c和v相等;
S313:将位置相似度作为匹配依据,采用匈牙利计算目标之间的匹配度,相匹配的目标作为同一人员,赋予相同的人员编号,输出当前帧单摄像头内目标匹配后的初级目标信息为:
其中,为人员编号。
优选的,所述S300中,对于跨摄像头之间,任意摄像头当前帧中所有目标与剩余摄像头当前帧中所有目标利用外观特征进行外观相似度计算,并用贪心算法完成跨摄像头间目标匹配,包括:
S320:输入多摄像头当前帧经过单摄像头内目标匹配后的所有目标的区域坐标以及人员编号;
S321:通过完成训练的行人重识别模型提取所有目标区域内的行人外观特征并加入当前帧初级目标信息中,获得当前帧二级目标信息;
S322:根据摄像头编号顺序,第一个摄像头中的所有目标分别与其他摄像头中的所有目标逐个根据外观特征计算余弦相似度作为外观相似度;
S323:将外观相似度作为匹配依据,采用贪心算法完成不同摄像头之间的目标匹配,相匹配的目标作为同一人员,以第一个摄像头目标的人员编号为依据对其他摄像头中目标的人员编号进行修正。
优选地,所述S321包括:
基于CAL架构建行人重识别模型;
获取LTCC重识别数据集和PRCC重识别数据集,对所述行人重识别模型进行训练,得到完成训练的行人重识别模型,
通过所述行人重识别模型提取目标外观特征;
将目标外观特征加入当前帧初级目标信息中,获得当前帧二级目标信息为:
其中,为目标外观特征。
优选地额,所述S400,包括:
采用YOLOX目标检测模型进行逐帧行为识别,使用COCO数据集预训练权重;
获取行为识别数据集,所述行为识别数据集包括:倒地、吸烟、跨越;
通过所述行为识别数据集训练所述YOLOX目标检测模型;
通过训练好的YOLOX目标检测模型获得行为初步标签将合并入三级目标信息,形式为:
其中,为行为初步标签,包含倒地、吸烟、跨越的具体行为类别标签及未存在行为类别标签。
优选地,所述S500,包括:
S510:输入多摄像头的当前帧中相同人员编号的所有目标;
S520:统计输入的所有目标的行为初步标签类别数量,将数量占比最大的类别作为当前帧中相同人员编号下待确定行为类别;
S530:获取多摄像头的特定时间间隔内相邻先前帧中所有相同人员编号目标的行为初步标签,计算其中与当前帧待确定行为类别相同的行为初步标签占比;
S540:若所述标签占比大于预设占比,则相同人员编号下的行为类别为当前帧待确定行为类别,否则,对应相同人员编号下未进行相关行为;
S550:基于S510-S540根据预设的综合判别策略对人员行为类别进行确定,得到行为综合判别结果。
优选地,所述综合判别策略的参数包括:
时间间隔默认参数设定为16帧;
预设占比参数设定为90%。
一种基于跨摄像头多目标跟踪的行为识别***,包括:
视频图像采集模块:获取场景中多个摄像头的实时视频图像数据;
人员区域定位模块:通过完成训练的行人检测模型对所有摄像头当前帧中的目标进行区域定位,得到所有目标的区域坐标;
双重目标跟踪模块:对于单摄像头,当前帧中所有目标的区域坐标和上一帧中所有目标的区域坐标进行位置相似度计算,并用匈牙利算法完成单摄像头内目标匹配,将相互匹配的目标赋予相同的人员编号,得到当前帧目标信息;
对于跨摄像头之间,任意摄像头当前帧中所有目标与剩余摄像头当前帧中所有目标利用外观特征进行外观相似度计算,并用贪心算法完成跨摄像头间目标匹配,根据匹配结果对目标的人员编号进行修正;
行为初步识别模块:对所有摄像头当前帧中的所有目标进行行为识别,为每个目标赋予相应的行为初步标签;
行为综合判别模块:结合多摄像头先前相邻特定帧中相同人员编号的行为初步标签,根据预设的综合判别策略对人员行为类别进行确定,得到行为综合判别结果;
识别结果输出模块:根据行为综合判别结果对所有摄像头当前帧中目标的行为初步标签进行修正,并在图像中可视化输出存在涉及行为的目标区域及行为标签。
一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现基于跨摄像头多目标跟踪的行为识别方法。
经由上述的技术方案可知,与现有技术相比,本发明公开提供了一种基于跨摄像头多目标跟踪的行为识别方法、***及电子设备,在多变的环境中,能够有效识别并跟踪不同视角下的同一人员,确保连续性和一致性的行为分析,可以有效地克服传统单帧图像行为识别方法中的误判和漏检问题,显著提高了行为识别的准确率,进一步减少了对人工的依赖,从而显著降低了人力资源的需求;该技术的实施不仅可以提升安全管理水平,也能有效地减少由于监控盲区或识别错误导致的安全事故风险。使得本发明能够应用在电力基建等作业场景下,实现基于视频监控的高效可靠的人员行为安全管控任务,为作业场景提供更加可靠和先进的作业人员安全管控解决方案。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明的方法流程示意图;
图2为本发明实施例提供的人员区域定位结果可视化示意图;
图3为本发明实施例提供的单摄像头内目标匹配流程图;
图4为本发明实施例提供的跨摄像头间目标匹配流程图;
图5为本发明实施例提供的双重目标跟踪结果可视化示意图;
图6为本发明实施例提供的行为综合判别流程图;
图7为本发明实施例提供的识别结果输出可视化示意图;
图8为本发明的***结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种基于跨摄像头多目标跟踪的行为识别方法、***及电子设备,获取场景中多摄像头的实时视频图像数据;利用行人检测算法对所有摄像头当前视频帧中的人员目标进行准确区域定位,输出所有目标的区域坐标;进行双重目标跟踪,利用位置相似度和匈牙利算法完成单摄像头内目标匹配,利用外观相似度和贪心算法完成跨摄像头间目标匹配,赋予人员编号;对当前帧中的所有人员目标进行行为识别,为每个目标赋予相应的行为初步标签;结合多摄像头先前相邻特定帧中相同编号目标的行为初步标签,根据综合判别策略对人员行为类别进行确定;根据行为综合判别结果对所有摄像头当前帧中目标的行为初步标签进行修正,并在图像中可视化输出存在涉及行为的目标区域及行为标签。为基于单帧图像识别的高漏检率和高误检率的问题提供解决方案。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明实施例公开了一种基于跨摄像头多目标跟踪的行为识别方法,结合图1可知,本发明的实施例包括以下步骤:
S100视频图像采集:
获取场景中多摄像头的实时视频图像数据;
S200人员区域定位:
利用已完成训练的行人检测算法对所有摄像头所有帧中的人员目标进行准确区域定位,输出所有目标的区域坐标;
S300双重目标跟踪:
当前帧中所有目标和上一帧所有目标依据区域坐标进行位置相似度计算,并用匈牙利算法完成单摄像头内目标匹配;当前帧中所有目标与其他摄像头视频帧中所有目标依据外观特征进行外观相似度计算,并用贪心算法完成跨摄像头间目标匹配;相互匹配的目标即属于同一人员,赋予相同的人员编号;
S400行为初步识别:
对当前帧中的所有人员目标进行行为识别,若存在涉及的行为类别,则为每个目标赋予相应类别的行为初步标签,否则行为初步标签设定为未存在行为;
S500行为综合判别:
由于方法逐帧进行,当前帧及先前帧中的所有目标均已包含相应的人员编号和行为初步标签;对于当前帧的某个人员,需要结合多摄像头先前相邻特定帧中相同编号目标的行为初步标签,根据综合判别策略对人员行为类别进行确定;
S600识别结果输出:
根据行为综合判别结果对所有摄像头当前帧中目标的行为初步标签进行修正,并在图像中可视化输出存在涉及行为的目标区域及行为标签。
在一个具体实施例中,S100的多摄像头设置具体为:对于具体应用场景,将在不同位置及不同高度布置多个摄像头,从而获取该场景不同视角的实时视频图像数据,提供更全面的空间信息。
在一个具体实施例中,S200的行人检测具体为:本发明采用先进的F2DNet行人检测算法,其设计了特征提取、焦点检测和检测生成策略,通过检测头部进行精确定位和高分类召回,并使用轻量级的抑制头部来处理误报,因此具有高效与准确的特点,且其计算量较小适用于实际场景部署;行人检测算法利用COCO数据集完成了预训练后,在行人数据集CrowdHuman、Cityperson、ETHZ以及多目标跟踪数据MOT17、MOT20上进行训练;具体训练参数如表1所示,训练样本输入尺寸为1440×800,在4张NVIDIA A100GPU上进行训练,每个批次输入样本数量为24张,并采用SGD优化器,初始学习率为1e-3,共计训练120个轮次。
表1行人检测算法训练参数设定
行人检测输出当前帧目标区域坐标为:
其中,i表示当前帧第i个目标,c表示当前帧第c个摄像头,和/>分别为当前帧目标区域左下角的横坐标和纵坐标,/>和/>分别为当前帧目标区域的长度和宽度;人员区域定位结果可视化示意图如图2所示,以吸烟、倒地、跨越和打电话行为类别场景为例,矩形框为目标区域坐标可视化结果。
在一个具体实施例中,经过S300的双重目标跟踪后,可得到其结果可视化示意图如图5所示,以吸烟行为类别场景为例,每个矩形框上方有人员编号,具有相同人员编号为同一人员;每一行的图像表示来源于同一摄像头,可视化了先前帧(-4、-8、-12、-16帧)和当前帧(0帧)。
在一个具体实施例中,S300的单摄像头内目标匹配具体为:对于单摄像头内目标匹配,实际上就是对于每个摄像头的视频图像进行单独处理,单摄像头内目标匹配流程图如图3所示,目标匹配步骤为:
S310:输入当前帧及前一帧的所有目标信息,即包含每个目标的目标区域坐标信息,前一帧目标区域坐标为:
其中,j表示上一帧第j个目标,v表示当前帧第v个摄像头,和/>分别为前一帧目标区域左下角的横坐标和纵坐标,/>和/>分别为前一帧目标区域的长度和宽度。
S311:对于前一帧的所有目标,利用配置的卡尔曼滤波器对目标进行位置预测,获得预测后的目标区域坐标为:
其中,和/>分别为前一帧预测目标区域左下角的横坐标和纵坐标,/>和/>分别为前一帧预测目标区域的长度和宽度。
S312:计算当前帧所有目标与前一帧所有预测目标的位置相似度,采用IoU作为衡量函数:
其中,对于单摄像头内目标匹配,函数中c和v相等;
S313:将位置相似度作为匹配依据,采用匈牙利算法完成目标之间的匹配,相匹配的目标即为同一人员,赋予相同的人员编号,输出当前帧单摄像头内目标匹配后的初级目标信息为:
其中,为人员编号。
在一个具体实施例中,S300的跨摄像头间目标匹配流程图如图4所示,具体为:
S320:输入多摄像头当前帧经过单摄像头内目标匹配后的所有目标信息,即包含每个目标的目标区域坐标信息与人员编号;
S321:通过已完成训练的行人重识别模型对所有目标区域内的行人外观特征进行提取,获得的当前帧二级目标信息为:
其中,为目标外观特征;
S322:根据摄像头编号顺序,第一个摄像头中的所有目标分别与其他摄像头中的所有目标逐个根据外观特征计算余弦相似度作为外观相似度;
S323:将外观相似度作为匹配依据,采用贪心算法完成不同摄像头之间的目标匹配,相匹配的目标即为同一人员,以第一个摄像头目标的人员编号为依据对其他摄像头中目标的人员编号进行修正,从而对多摄像头中同一人员的编号进行统一;
在一个具体实施例中,S321:中的行人重识别模型具体为:采用先进的CAL行人重识别模型来提取目标外观特征,这是一个针对换衣行人重识别任务设计的模型,可提取更有效的与穿着无关的外观特征,适合于人员穿类似工作着装等本发明涉及的应用场景;该模块在LTCC和PRCC重识别数据集上进行训练,具体训练参数如表2所示,训练样本输入尺寸为384×192,在单张NVIDIA A100 GPU上进行训练,每个批次输入样本数量为64张,学习率为3.5e-4,通过Adam训练60个轮次。
表2行人重识别算法训练参数设定
在一个具体实施例中,S400的行为识别具体为:采用YOLOX目标检测算法来实现逐帧行为识别,使用COCO预训练权重,在采集的行为识别数据集上进行训练,该行为识别数据集包含了7类人员行为的高质量标注,包括倒地、吸烟、跨越等,且由不同视角的6个摄像头采集,涵盖了从白天到傍晚的4个场景下的图像数据样本;具体训练参数如表3所示,训练样本输入尺寸为448×448,在单张NVIDIA A100 GPU上进行训练,每个批次输入样本数量为32张,学习率从{1e-2,5e-3,1e-3}中选择,同时采用了随机深度作为正则化方法,共计训练80个轮次;行为识别获得的行为初步标签将合并入目标信息,三级目标信息形式为:
其中,为行为初步标签,包含倒地(failing)、吸烟(smoking)、跨越(crossing)等具体行为类别标签及未存在行为(none)。
表3行为识别算法训练参数设定
在一个具体实施例中,S500的综合判别策略具体为:对于多摄像头的所有当前帧中的某一人员,即相同人员编号目标,进行如下综合判别步骤,行为综合判别流程图如图6所示:
S510:输入多摄像头的当前帧中相同人员编号的所有目标;
S520:对输入的所有目标的行为初步标签类别数量统计,获取数量占比最大的类别作为该人员的当前帧待确定行为类别;
S530:获取多摄像头的特定时间间隔内相邻先前帧中所有相同人员编号目标的行为初步标签,计算其中与当前帧待确定行为类别相同的行为初步标签占比;
S540:若该标签占比大于特定占比,则该人员的行为类别为当前帧待确定行为类别,否则,该人员未进行相关行为
具体的,还包括:S550:基于S510-S540根据预设的综合判别策略对人员行为类别进行确定,得到行为综合判别结果。
具体的,综合判别策略的参数设定具体为:时间间隔默认参数设定为16帧,由于输入视频帧率为每秒16帧,即综合考虑了1秒内相邻先前帧的识别结果;占比默认参数设定为90%;时间间隔和占比可以根据实际场景及具体任务进行微调以到达更准确的结果。
在一个具体实施例中,S600的初步标签修正具体为:将所述S500中经过综合判别策略确定的当前帧各人员行为类别来修正当前帧各人员所有目标的初步行为标签,作为可视化输出及后续综合判别参考的依据。识别结果输出可视化示意图如图7所示,以吸烟行为类别为例,为显示方法效果进行了对比,第一行为修正前行为初步标签,第二行为修正后输出。
参见图8所示,本发明实施例还公开了一种基于跨摄像头多目标跟踪的行为识别***,包括:
视频图像采集模块:获取场景中多个摄像头的实时视频图像数据;
人员区域定位模块:通过完成训练的行人检测模型对所有摄像头当前帧中的目标进行区域定位,得到所有目标的区域坐标;
双重目标跟踪模块:对于单摄像头,当前帧中所有目标的区域坐标和上一帧中所有目标的区域坐标进行位置相似度计算,并用匈牙利算法完成单摄像头内目标匹配,将相互匹配的目标赋予相同的人员编号,得到当前帧目标信息;
对于跨摄像头之间,任意摄像头当前帧中所有目标与剩余摄像头当前帧中所有目标利用外观特征进行外观相似度计算,并用贪心算法完成跨摄像头间目标匹配,根据匹配结果对目标的人员编号进行修正;
行为初步识别模块:对所有摄像头当前帧中的所有目标进行行为识别,为每个目标赋予相应的行为初步标签;
行为综合判别模块:结合多摄像头先前相邻特定帧中相同人员编号的行为初步标签,根据预设的综合判别策略对人员行为类别进行确定,得到行为综合判别结果;
识别结果输出模块:根据行为综合判别结果对所有摄像头当前帧中目标的行为初步标签进行修正,并在图像中可视化输出存在涉及行为的目标区域及行为标签。
一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现基于跨摄像头多目标跟踪的行为识别方法。
在一个具体实施例中,为了验证本发明的性能,在为本发明采集制作的行为识别数据集上进行了实验验证,该发明涉及的行人检测模型、行人重识别模型和行为检测模型均根据相关步骤中的设定完成训练,并在单张GPU上进行了推理验证;具体实验设定和结果如下:
该数据集包含了7类人员行为的区域和编号标注,具体类别、样本数量等数据集信息如表4所示。
表4本发明数据集样本数量
行为类别 | 区域标注 | 编号标注 | 样本数量 |
倒地 | √ | √ | 3241 |
吸烟 | √ | √ | 4381 |
跨越 | √ | √ | 5314 |
持杆 | √ | √ | 2143 |
登高 | √ | √ | 2841 |
爬梯 | √ | √ | 3195 |
打电话 | √ | √ | 4952 |
采用漏检率、误检率和准确率来衡量方法的有效性,方法实验验证结果如表5所示,为了说明方法的优势,表格中列出了仅使用本方法中行为识别模块(YOLOX)的识别结果即未经过修正的结果。
表5方法实验验证结果
具体的,本发明提供的一种基于跨摄像头多目标跟踪的行为识别方法、***及电子设备,通过行人检测确定目标区域,双重目标跟踪实现跨多摄像头的目标人员编号赋予,行为识别算法对目标行为进行初步分析,结合多摄像头多相邻帧根据行为综合判别策略,实现目标行为确定。在行为识别数据集上的验证结果可知,通过引入跨摄像头多目标跟踪,从而利用多摄像头多不同视角信息与连续时间序列内的多帧数据有效解决了行为识别的漏检和错检问题,明显提高了识别的准确性,同时,将本发明利用电力基建等作业场景中普遍存在的多摄像头多视角监控***,通过跨摄像头多目标跟踪算法,将不同摄像头捕捉到的相同人员关联起来,赋予统一的人员编号,从而实现利用特定时间段内同一编号人员的行为信息进行综合判别。这种方法的优势在于,它不单单依赖于静态的单帧图像,而是结合了多摄像头的连续时间序列内的多帧数据,从而为行为识别提供了更全面的上下文信息,有效提高了行为识别的准确性,还大幅降低了误判和漏检的可能性,为电力基建等作业场景中的安全管控提供了高可靠性的技术支持,能够推动行为识别方法在人员安全管控方面的技术应用。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种基于跨摄像头多目标跟踪的行为识别方法,其特征在于,包括:
S100:获取场景中多个摄像头的实时视频图像数据;
S200:通过完成训练的行人检测模型对所有摄像头所有帧中的目标进行区域定位,得到所有目标的区域坐标;
S300:对于单摄像头,当前帧中所有目标的区域坐标和上一帧中所有目标的区域坐标进行位置相似度计算,并用匈牙利算法完成单摄像头内目标匹配,将相互匹配的目标赋予相同的人员编号,得到当前帧目标信息;
对于跨摄像头之间,任意摄像头当前帧中所有目标与剩余摄像头当前帧中所有目标利用外观特征进行外观相似度计算,并用贪心算法完成跨摄像头间目标匹配,根据匹配结果对目标的人员编号进行修正;
S400:对所有摄像头当前帧中的所有目标进行行为识别,为每个目标赋予相应的行为初步标签;
S500:结合多摄像头先前相邻特定帧中相同人员编号的行为初步标签,根据预设的综合判别策略对人员行为类别进行确定,得到行为综合判别结果;
S600:根据行为综合判别结果对所有摄像头当前帧中目标的行为初步标签进行修正,并在图像中可视化输出存在涉及行为的目标区域及行为标签。
2.根据权利要求1所述的一种基于跨摄像头多目标跟踪的行为识别方法,其特征在于,所述S200包括:
基于F2DNet行人检测框架构建行人检测模型;
获取COCO数据集,并对所述行人检测模型进行预训练;
获取CrowdHuman行人数据集、Cityperson行人数据集、ETHZ行人数据集以及MOT17多目标跟踪数据、MOT20多目标跟踪数据,并对所述行人检测模型进行训练,得到完成训练的行人检测模型;
将采集的任一摄像头的当前帧图像输入至完成训练的行人检测模型,输出的当前帧所有目标的区域坐标,表示为:
其中,i表示当前帧第i个目标,c表示当前帧第c个摄像头,和/>分别为当前帧目标区域左下角的横坐标和纵坐标,/>和/>分别为当前帧目标区域的长度和宽度。
3.根据权利要求1所述的一种基于跨摄像头多目标跟踪的行为识别方法,其特征在于,所述S300中,对于单摄像头,当前帧中所有目标的区域坐标和上一帧中所有目标的区域坐标进行位置相似度计算,并用匈牙利算法完成单摄像头内目标匹配,包括:
S310:对于单摄像头内目标匹配,输入当前帧及前一帧的所有目标的区域坐标,前一帧目标的区域坐标为:
其中,j表示上一帧第j个目标,v表示当前帧第v个摄像头,和/>分别为前一帧目标区域左下角的横坐标和纵坐标,/>和/>分别为前一帧目标区域的长度和宽度;
S311:利用配置的卡尔曼滤波器对前一帧的所有目标进行位置预测,获得预测后的目标的区域坐标为:
其中,和/>分别为前一帧预测目标区域左下角的横坐标和纵坐标,/>和/>分别为前一帧预测目标区域的长度和宽度;
S312:采用IoU作为衡量函数计算当前帧所有目标与前一帧所有预测目标的位置相似度:
其中,对于单摄像头内目标匹配,函数中c和v相等;
S313:将位置相似度作为匹配依据,采用匈牙利计算目标之间的匹配度,相匹配的目标作为同一人员,赋予相同的人员编号,输出当前帧单摄像头内目标匹配后的初级目标信息为:
其中,为人员编号。
4.根据权利要求1所述的一种基于跨摄像头多目标跟踪的行为识别方法,其特征在于,所述S300中,对于跨摄像头之间,任意摄像头当前帧中所有目标与剩余摄像头当前帧中所有目标利用外观特征进行外观相似度计算,并用贪心算法完成跨摄像头间目标匹配,包括:
S320:输入多摄像头当前帧经过单摄像头内目标匹配后的所有目标的区域坐标以及人员编号;
S321:通过完成训练的行人重识别模型提取所有目标区域内的行人外观特征并加入当前帧初级目标信息中,获得当前帧二级目标信息;
S322:根据摄像头编号顺序,第一个摄像头中的所有目标分别与其他摄像头中的所有目标逐个根据外观特征计算余弦相似度作为外观相似度;
S323:将外观相似度作为匹配依据,采用贪心算法完成不同摄像头之间的目标匹配,相匹配的目标作为同一人员,以第一个摄像头目标的人员编号为依据对其他摄像头中目标的人员编号进行修正。
5.根据权利要求4所述的一种基于跨摄像头多目标跟踪的行为识别方法,其特征在于,所述S321包括:
基于CAL架构建行人重识别模型;
获取LTCC重识别数据集和PRCC重识别数据集,对所述行人重识别模型进行训练,得到完成训练的行人重识别模型,
通过所述行人重识别模型提取目标外观特征;
将目标外观特征加入当前帧初级目标信息中,获得当前帧二级目标信息为:
其中,为目标外观特征。
6.根据权利要求1所述的一种基于跨摄像头多目标跟踪的行为识别方法,其特征在于,所述S400,包括:
采用YOLOX目标检测模型进行逐帧行为识别,使用COCO数据集预训练权重;
获取行为识别数据集,所述行为识别数据集包括:倒地、吸烟、跨越;
通过所述行为识别数据集训练所述YOLOX目标检测模型;
通过训练好的YOLOX目标检测模型获得行为初步标签将合并入三级目标信息,形式为:
其中,为行为初步标签,包含倒地、吸烟、跨越的具体行为类别标签及未存在行为类别标签。
7.根据权利要求1所述的一种基于跨摄像头多目标跟踪的行为识别方法,其特征在于,所述S500,包括:
S510:输入多摄像头的当前帧中相同人员编号的所有目标;
S520:统计输入的所有目标的行为初步标签类别数量,将数量占比最大的类别作为当前帧中相同人员编号下待确定行为类别;
S530:获取多摄像头的特定时间间隔内相邻先前帧中所有相同人员编号目标的行为初步标签,计算其中与当前帧待确定行为类别相同的行为初步标签占比;
S540:若所述标签占比大于预设占比,则相同人员编号下的行为类别为当前帧待确定行为类别,否则,对应相同人员编号下未进行相关行为;
S550:基于S510-S540根据预设的综合判别策略对人员行为类别进行确定,得到行为综合判别结果。
8.根据权利要求7所述的一种基于跨摄像头多目标跟踪的行为识别方法,其特征在于,所述综合判别策略的参数包括:
时间间隔默认参数设定为16帧;
预设占比参数设定为90%。
9.一种利用权利要求1至8任一项所述的基于跨摄像头多目标跟踪的行为识别方法的基于跨摄像头多目标跟踪的行为识别***,其特征在于,包括:
视频图像采集模块:获取场景中多个摄像头的实时视频图像数据;
人员区域定位模块:通过完成训练的行人检测模型对所有摄像头所有帧中的目标进行区域定位,得到所有目标的区域坐标;
双重目标跟踪模块:对于单摄像头,当前帧中所有目标的区域坐标和上一帧中所有目标的区域坐标进行位置相似度计算,并用匈牙利算法完成单摄像头内目标匹配,将相互匹配的目标赋予相同的人员编号,得到当前帧目标信息;
对于跨摄像头之间,任意摄像头当前帧中所有目标与剩余摄像头当前帧中所有目标利用外观特征进行外观相似度计算,并用贪心算法完成跨摄像头间目标匹配,根据匹配结果对目标的人员编号进行修正;
行为初步识别模块:对所有摄像头当前帧中的所有目标进行行为识别,为每个目标赋予相应的行为初步标签;
行为综合判别模块:结合多摄像头先前相邻特定帧中相同人员编号的行为初步标签,根据预设的综合判别策略对人员行为类别进行确定,得到行为综合判别结果;
识别结果输出模块:根据行为综合判别结果对所有摄像头当前帧中目标的行为初步标签进行修正,并在图像中可视化输出存在涉及行为的目标区域及行为标签。
10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至8任一所述的基于跨摄像头多目标跟踪的行为识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410117750.0A CN117953580A (zh) | 2024-01-29 | 2024-01-29 | 一种基于跨摄像头多目标跟踪的行为识别方法、***及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410117750.0A CN117953580A (zh) | 2024-01-29 | 2024-01-29 | 一种基于跨摄像头多目标跟踪的行为识别方法、***及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117953580A true CN117953580A (zh) | 2024-04-30 |
Family
ID=90802599
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410117750.0A Pending CN117953580A (zh) | 2024-01-29 | 2024-01-29 | 一种基于跨摄像头多目标跟踪的行为识别方法、***及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117953580A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170116753A1 (en) * | 2014-04-30 | 2017-04-27 | Institute Of Automation Chinese Academy Of Sciences | Large-Range-First Cross-Camera Visual Target Re-identification Method |
CN110399808A (zh) * | 2019-07-05 | 2019-11-01 | 桂林安维科技有限公司 | 一种基于多目标跟踪的人体行为识别方法及*** |
CN111259790A (zh) * | 2020-01-15 | 2020-06-09 | 上海交通大学 | 用于中短时视频的从粗到细的行为快速检测与分类方法及*** |
JP2021117635A (ja) * | 2020-01-24 | 2021-08-10 | Kddi株式会社 | オブジェクト追跡装置及びオブジェクト追跡方法 |
CN114240997A (zh) * | 2021-11-16 | 2022-03-25 | 南京云牛智能科技有限公司 | 一种智慧楼宇在线跨摄像头多目标追踪方法 |
CN114693746A (zh) * | 2022-03-31 | 2022-07-01 | 西安交通大学 | 基于身份识别和跨摄像头目标追踪的智能监控***及方法 |
CN116363694A (zh) * | 2023-03-03 | 2023-06-30 | 中国电子科技集团公司第二十八研究所 | 一种多元信息匹配的无人***跨摄像头多目标跟踪方法 |
-
2024
- 2024-01-29 CN CN202410117750.0A patent/CN117953580A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170116753A1 (en) * | 2014-04-30 | 2017-04-27 | Institute Of Automation Chinese Academy Of Sciences | Large-Range-First Cross-Camera Visual Target Re-identification Method |
CN110399808A (zh) * | 2019-07-05 | 2019-11-01 | 桂林安维科技有限公司 | 一种基于多目标跟踪的人体行为识别方法及*** |
CN111259790A (zh) * | 2020-01-15 | 2020-06-09 | 上海交通大学 | 用于中短时视频的从粗到细的行为快速检测与分类方法及*** |
JP2021117635A (ja) * | 2020-01-24 | 2021-08-10 | Kddi株式会社 | オブジェクト追跡装置及びオブジェクト追跡方法 |
CN114240997A (zh) * | 2021-11-16 | 2022-03-25 | 南京云牛智能科技有限公司 | 一种智慧楼宇在线跨摄像头多目标追踪方法 |
CN114693746A (zh) * | 2022-03-31 | 2022-07-01 | 西安交通大学 | 基于身份识别和跨摄像头目标追踪的智能监控***及方法 |
CN116363694A (zh) * | 2023-03-03 | 2023-06-30 | 中国电子科技集团公司第二十八研究所 | 一种多元信息匹配的无人***跨摄像头多目标跟踪方法 |
Non-Patent Citations (2)
Title |
---|
YUHANG HE, ET AL.: "Multi-Target Multi-Camera Tracking by Tracklet-to-Target Assignment", 《IEEE TRANSACTIONS ON IMAGE PROCESSING》, vol. 29, 19 March 2020 (2020-03-19), XP011779656, DOI: 10.1109/TIP.2020.2980070 * |
齐冬莲等: "一种改进的YOLO目标检测方法在电缆设备异常状态识别中的应用", 《电测与仪表》, vol. 57, no. 2, 31 January 2020 (2020-01-31) * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111191576B (zh) | 人员行为目标检测模型构建方法、智能分析方法及*** | |
CN106991668B (zh) | 一种天网摄像头拍摄画面的评价方法 | |
CN111414807B (zh) | 一种基于yolo技术的潮水识别与危机预警方法 | |
CN113903081A (zh) | 一种水电厂图像视觉识别人工智能报警方法及装置 | |
CN110232379A (zh) | 一种车辆姿态检测方法及*** | |
CN111539938B (zh) | 一种轧带钢带头曲度检测方法、***、介质及电子终端 | |
CN109035307B (zh) | 基于自然光双目视觉的设定区域目标追踪方法及*** | |
CN111079518A (zh) | 一种基于执法办案区场景下的倒地异常行为识别方法 | |
CN113449675A (zh) | 一种煤矿人员越界检测方法 | |
CN114202646A (zh) | 一种基于深度学习的红外图像吸烟检测方法与*** | |
CN111339902A (zh) | 一种数显仪表的液晶屏示数识别方法及装置 | |
CN111008994A (zh) | 基于MPSoC的运动目标实时检测跟踪***及方法 | |
CN112270381A (zh) | 基于深度学习的人流量检测方法 | |
CN111259736B (zh) | 一种基于深度学习的复杂环境下行人实时检测方法 | |
CN114067438A (zh) | 一种基于热红外视觉的停机坪人体动作识别方法及*** | |
CN113256731A (zh) | 基于单目视觉的目标检测方法及装置 | |
CN112580542A (zh) | 一种基于目标检测的钢筋计数方法 | |
CN115311623A (zh) | 一种基于红外热成像的设备漏油检测方法及*** | |
CN114332739A (zh) | 一种基于运动目标检测和深度学习技术的烟雾检测方法 | |
EP3825804A1 (en) | Map construction method, apparatus, storage medium and electronic device | |
CN110321808B (zh) | 遗留物与盗移物检测方法、设备和存储介质 | |
CN110059544B (zh) | 一种基于道路场景的行人检测方法和*** | |
CN114821486B (zh) | 一种电力作业场景下人员识别方法 | |
CN117953580A (zh) | 一种基于跨摄像头多目标跟踪的行为识别方法、***及电子设备 | |
CN110956156A (zh) | 一种基于深度学习的闯红灯检测*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |