CN114550041B

CN114550041B - 一种多摄像头拍摄视频的多目标标注方法

Info

Publication number: CN114550041B
Application number: CN202210152739.9A
Authority: CN
Inventors: 李向阳; 张正; 张兰; 雷佳谕
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2022-02-18
Filing date: 2022-02-18
Publication date: 2024-03-29
Anticipated expiration: 2042-02-18
Also published as: CN114550041A

Abstract

本发明公开了一种多摄像头拍摄视频的多目标标注方法，包括：步骤1，选取前后摄像头拍摄的同一区域的两段视频数据；步骤2，拉齐时间，并校正镜头畸变；步骤3，在两段视频数据的相同时刻画面中的共同区域各选择四个固定点按顺序连接成凸四边形作为标注区；步骤4，在一个画面的标注区内，通过标注框标注对应ID，通过ReID模型输出各ID标注目标在另一画面的位置，由标注人员对位置进行矫正；步骤5，重复步骤4标注完所有目标；步骤6，切换到预设时长后的画面，运行目标追踪模型，由标注人员修正目标追踪模型的输出结果，再运行目标追踪模型修正两帧画面之间的标注信息，直到完成整个视频数据的多目标标注。该方法节省标注时间和人力，提升了效率。

Description

一种多摄像头拍摄视频的多目标标注方法

技术领域

本发明涉及视频数据分析领域，尤其涉及一种区域监控视频的多目标标注方法。

背景技术

现有的各类视频算法已经非常成熟，但是针对密集人群的目标检测与追踪仍然是难点，主要原因就是缺乏有效且干净的数据来训练模型。但是现有的标注方法，在人员密集的区域，比如说教室，存在标注繁琐、遮挡严重等问题。与此同时，小目标(如像素面积小与32×32pixels的目标)检测至今仍是目标检测的难点之一，其中一个重要原因就是小目标在数据集方面不平衡。在COCO数据集中，很多小目标物体的标注都是非常困难的，它们不仅非常小，还存在不同程度的遮挡、模糊等现象。

现有的视频标注方法集中在优化目标追踪方法来节约标注者的点击次数，但是对于视频中存在的小目标(如像素面积小与32×32pixels的目标)束手无策，难以发现，存在人员操作次数多，耗费人力且标注效率低的问题。

有鉴于此，特提出本发明。

发明内容

本发明的目的是提供了一种多摄像头拍摄视频的多目标标注方法，能对多摄像头拍摄的区域监控视频中多目标进行标注，显著减少人员操作次数，节约人力，提高标注效率，进而解决现有技术中存在的上述技术问题。

本发明的目的是通过以下技术方案实现的：

本发明实施方式提供一种多摄像头拍摄视频的多目标标注方法，包括：

步骤1，从多摄像头拍摄的同一区域的视频数据中，选取前后设置的两个摄像头拍摄的同一区域的两段视频数据作为需要标注的两段视频数据，两段视频数据均为包含多个目标的视频数据；

步骤2，将拍摄两段视频数据的前、后摄像头的时间拉齐，通过前、后摄像头的内参矫正两段视频数据的镜头畸变；

步骤3，在两段视频数据的相同时刻画面中的共同区域各选择四个固定点按顺序连接成凸四边形作为标注区；

步骤4，在所述步骤3处理后的一段视频数据的一个画面的标注区内，对每一个要标注的目标通过标注框标注对应的ID，通过ReID模型输出各ID标注的目标在另一段视频数据的相同时刻画面的标注区中的位置，由标注人员根据ID匹配错误或者标注框偏移对所述ReID模型输出的位置进行矫正；

步骤5，重复所述步骤4直到标注完两段视频数据的相同时刻画面中的所有目标；

步骤6，将两段视频数据均切换到预设时长后的画面，运行目标追踪模型进行目标追踪，由标注人员修正所述目标追踪模型的输出结果，再反向运行所述目标追踪模型修正两帧画面之间的标注信息，则完成一段视频的多目标标注；

继续将两段视频数据均切换到预设时长后的画面，重复本步骤6直到完成对整个视频数据的多目标标注。

与现有技术相比，本发明所提供的多摄像头拍摄视频的多目标标注方法，其有益效果包括：

通过先在所标注的两段视频数据的相同时刻画面的共同区域中各选择四个固定点按顺序连接成凸四边形作为标注区作为辅助，在一段视频数据的画面标注区中的多目标进行标注后，通过ReID模型进行另一段视频数据的相同时刻画面标注区中的多目标进行标注，显著减少人员操作次数，不仅节约人力，也提升了标注的效率。该方法适用于视频数据的分析与挖掘处理。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的多摄像头拍摄视频的多目标标注方法的流程示意图；

图2为本发明实施例提供的多目标标注方法的拍摄区域示意图；

图3为本发明实施例提供的多目标标注方法的前、后摄像头拍摄视频数据中多目标位置对应关系示意图；

图4为本发明实施例提供的多目标标注方法的拍摄区域立体示意图；

图5为本发明实施例提供的多目标标注方法的处理流程示意图；

图6为本发明实施例提供的多目标标注方法的视频数据的画面示意图；其中，(a)与(b)分别为前、后摄像头中目标行动的起始画面，(c)与(d)分别为前、后摄像头中目标行动的终止画面。

具体实施方式

下面结合本发明的具体内容，对本发明实施例中的技术方案进行清楚、完整地描述；显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例，这并不构成对本发明的限制。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

首先对本文中可能使用的术语进行如下说明：

术语“和/或”是表示两者任一或两者同时均可实现，例如，X和/或Y表示既包括“X”或“Y”的情况也包括“X和Y”的三种情况。

术语“包括”、“包含”、“含有”、“具有”或其它类似语义的描述，应被解释为非排它性的包括。例如：包括某技术特征要素(如原料、组分、成分、载体、剂型、材料、尺寸、零件、部件、机构、装置、步骤、工序、方法、反应条件、加工条件、参数、算法、信号、数据、产品或制品等)，应被解释为不仅包括明确列出的某技术特征要素，还可以包括未明确列出的本领域公知的其它技术特征要素。

术语“由……组成”表示排除任何未明确列出的技术特征要素。若将该术语用于权利要求中，则该术语将使权利要求成为封闭式，使其不包含除明确列出的技术特征要素以外的技术特征要素，但与其相关的常规杂质除外。如果该术语只是出现在权利要求的某子句中，那么其仅限定在该子句中明确列出的要素，其他子句中所记载的要素并不被排除在整体权利要求之外。

除另有明确的规定或限定外，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如：可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本文中的具体含义。

当浓度、温度、压力、尺寸或者其它参数以数值范围形式表示时，该数值范围应被理解为具体公开了该数值范围内任何上限值、下限值、优选值的配对所形成的所有范围，而不论该范围是否被明确记载；例如，如果记载了数值范围“2～8”时，那么该数值范围应被解释为包括“2～7”、“2～6”、“5～7”、“3～4和6～7”、“3～5和7”、“2和5～7”等范围。除另有说明外，本文中记载的数值范围既包括其端值也包括在该数值范围内的所有整数和分数。

术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述和简化描述，而不是明示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本文的限制。

下面对本发明所提供的多摄像头拍摄视频的多目标标注方法进行详细描述。本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。本发明实施例中未注明具体条件者，按照本领域常规条件或制造商建议的条件进行。本发明实施例中所用试剂或仪器未注明生产厂商者，均为可以通过市售购买获得的常规产品。

如图1所示，本发明实施例提供一种多摄像头拍摄视频的多目标标注方法，包括：

步骤4，在所述步骤3处理后的一段视频数据的一个画面的标注区内，对每一个要标注的目标通过标注框标注对应的ID，通过ReID模型输出各ID标注的目标在另一段视频数据的相同时刻画面的标注区中的位置，由标注人员根据ID匹配错误或者标注框偏移对所述ReID模型输出的目标位置进行矫正；

步骤6，将两段视频数据均切换到预设时长后的画面，运行目标追踪模型进行目标追踪，由标注人员修正所述目标追踪模型的输出结果，再将两段视频倒放重新运行所述目标追踪模型修正两帧画面之间的标注信息，则完成一段视频的多目标标注；

上述多目标标注方法中，所述ReID模型采用CLI模型。这种CLI模型能利用多个摄像头的信息，进行信息融合，从而高效地获得多个视角下的目标标注信息。

上述多目标标注方法中，所述目标追踪模型采用ByteTrack模型。

上述多目标标注方法中，所述步骤6中，切换到预设时长为3秒。即以3秒为一段时长对整个视频进行多目标标注处理。

综上可见，本发明实施例的多目标标注方法，由于引入了ReID模型与目标追踪模型，对两个摄像头的两个画面相互辅助进行标注，结合人员的标注微调，显著减少人员操作次数，不仅节约人力，也提升了标注的效率。

为了更加清晰地展现出本发明所提供的技术方案及所产生的技术效果，下面以具体实施例对本发明实施例所提供的多摄像头拍摄视频的多目标标注方法进行详细描述。

实施例

如图2、6所示，本发明实施例提供一种多摄像头拍摄视频的多目标标注方法，用来标注有多个摄像头拍摄的区域的视频数据，如教室、办公室等公共区域的监控视频数据，包括(参见图1)：

步骤1，从多摄像头拍摄的同一区域的视频数据中(参见图3)，选取前后设置的两个摄像头拍摄的同一区域的两段视频数据作为需要标注的两段视频数据，两段视频数据均为包含多个目标的视频数据(参见图4)；

步骤2，向标注设备载入需要标注的两段视频数据，将拍摄两段视频数据的前、后摄像头的时间拉齐，输入前、后摄像头内参矫正两段视频数据的镜头畸变；

步骤3，在两段视频数据的相同时刻的两个画面中的共同区域各选择四个固定点按顺序连接成凸四边形作为标注区(参见图6(a)、(b)、(c)、(d))；

步骤4，对于每一个需要标注的对象，在其中一段视频数据的一个画面拉框(即通过标注框)标注id信息，ReID模型输出该id信息在另一段视频的相同时刻画面标注区中的位置，再由标注人员进行微调，具体微调方式是由标注人员根据ID匹配错误或者标注框偏移对所述ReID模型输出的目标位置进行矫正(参见图5)；

步骤5，重复步骤4直到两段视频数据中的所有目标都标注完成；

步骤6，将两段视频数据均切换到几秒后(一般预设为3秒)的画面，运行目标追踪模型进行标注目标追踪，由标注人员修正目标追踪模型的输出结果，再反向运行目标追踪模型来修正两段视频数据的两帧画面之间的标注信息，则完成一段视频的多目标标注；

综上可见，本发明实施例的多目标标注方法，由于多种模型的参与，通过模型自动完成以往都由人工进行的多目标标注过程，而标注人员仅进行纠正处理任务，充分减轻了标注人员的工作量，并且对模型的效果有很大的容错空间，能同时高效获得多个已准确标注的视频数据，有效减轻标注人员的标注难度。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。本文背景技术部分公开的信息仅仅旨在加深对本发明的总体背景技术的理解，而不应当被视为承认或以任何形式暗示该信息构成已为本领域技术人员所公知的现有技术。

Claims

1.一种多摄像头拍摄视频的多目标标注方法，其特征在于，包括：

2.根据权利要求1所述的多摄像头拍摄视频的多目标标注方法，其特征在于，所述ReID模型采用CLI模型。

3.根据权利要求1或2所述的多摄像头拍摄视频的多目标标注方法，其特征在于，所述目标追踪模型采用ByteTrack模型。

4.根据权利要求1或2所述的多摄像头拍摄视频的多目标标注方法，其特征在于，所述步骤6中，切换到预设时长为3秒。