CN116311003B - 一种基于双通道加载机制的视频检测方法及*** - Google Patents

一种基于双通道加载机制的视频检测方法及*** Download PDF

Info

Publication number
CN116311003B
CN116311003B CN202310580231.3A CN202310580231A CN116311003B CN 116311003 B CN116311003 B CN 116311003B CN 202310580231 A CN202310580231 A CN 202310580231A CN 116311003 B CN116311003 B CN 116311003B
Authority
CN
China
Prior art keywords
data
enhancement
detection model
target detection
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310580231.3A
Other languages
English (en)
Other versions
CN116311003A (zh
Inventor
柯登峰
程鹏
徐艳艳
王运峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ocdop Ltd
Original Assignee
Ocdop Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ocdop Ltd filed Critical Ocdop Ltd
Priority to CN202310580231.3A priority Critical patent/CN116311003B/zh
Publication of CN116311003A publication Critical patent/CN116311003A/zh
Application granted granted Critical
Publication of CN116311003B publication Critical patent/CN116311003B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及视频检测技术领域,具体公开了一种基于双通道加载机制的视频检测方法及***,包括获取具有标注信息的视频数据并进行预处理,以获得具有标注信息的第一数据集和第二数据集;将第一数据集和第二数据集中的数据输入双通道加载机制中,从而获得第一增强数据和第二增强数据;构建目标检测模型,将第一增强数据和第二增强数据分别输入到模型中,以获得物体的预测位置和预测类别;基于标注信息训练目标检测模型;基于训练好的目标检测模型对待检测的视频数据进行检测;该方法通过双通道加载机制同时加载二份数据并且使用不同的数据增强策略进行最大化扩充数据的多样性,增强模型的检测能力。

Description

一种基于双通道加载机制的视频检测方法及***
技术领域
本发明涉及视频检测技术领域,具体涉及一种基于双通道加载机制的视频检测方法及***。
背景技术
在现有的视频检测中,生成的模型主要受到视频训练的限制,视频训练目前包括采用间隔采样的帧用于训练和采用全部帧都用于训练;视频数据具有高度的连续性,采用间隔采样的帧用于训练(即每间隔一定帧数取一帧图像作为训练数据)会导致数据量不多,如果视频数据采集量不多的情况下用来生成的训练数据总量就很少,从而导致模型的检测效果较低;而采用全部帧都用于训练(即全帧数据训练)时,由于视频帧十分连续,即使视频数据量不多也可能产生大量的图片,会导致训练时间很久,模型拟合泛化能力极差,效果一般不佳。
为了利用少量视频数据获得较好的模型检测效果,目前视频检测中使用的视频数据增强的方法来增加视频数据的多样性,但视频数据增强也只能使用少量的策略,如果单通道同时使用多种数据增强策略进行增强,图像经历多种增强算法的叠加,将会导致与原图分布差异较大,模型的性能不能随着使用更多的增强算法而提升。
发明内容
针对上述问题,本发明的一个目的是提供一种基于双通道加载机制的视频检测方法,该方法通过双通道加载机制同时加载二份数据并且使用不同的数据增强策略进行最大化扩充数据的多样性,弥补视频数据由于连续性导致样本差异过小,提取有效图像数据不足的缺点,从而增强目标检测模型的检测能力。
本发明的第二个目的是提供一种基于双通道加载机制的视频检测***。
本发明所采用的第一个技术方案是:一种基于双通道加载机制的视频检测方法,包括以下步骤:
S100:获取具有标注信息的视频数据并进行预处理,以获得具有标注信息的第一数据集和第二数据集;所述标注信息标注了物体的类别和位置;
S200:将所述第一数据集和第二数据集中的数据输入双通道加载机制中,采用不同的数据增强策略进行数据增强,从而获得第一增强数据和第二增强数据;
S300:构建目标检测模型,将第一增强数据和第二增强数据分别输入到所述目标检测模型中,以获得物体的预测位置和预测类别;
S400:基于物体的类别和预测类别,以及物体的位置和预测位置训练所述目标检测模型,以获得训练好的目标检测模型;
S500:基于所述训练好的目标检测模型对待检测的视频数据进行检测。
优选地,所述步骤S100中的预处理包括:
1)将标注信息进行格式转换,从而形成coco格式的标注信息;
2)将具有coco格式标注信息的视频数据分别以50帧和37帧为间隔进行间隔取帧,以获得具有标注信息的第一数据集和第二数据集。
优选地,所述步骤S200中的数据增强操作在双通道中实现,第一数据集中的数据和第二数据集中的数据各自对应不同的数据增强通道。
优选地,所述双通道中的第一通道中包括图像大小调整、第一自搜索数据增强策略、图像数值归一化、图像填充和图像数值类型转换;
第二通道中包括图像大小调整、第二自搜索数据增强策略、图像数值归一化、图像填充和图像数值类型转换。
优选地,所述步骤S300中的目标检测模型为基于atss-convnext的目标检测模型;所述基于atss-convnext的目标检测模型包括backbone层、neck层和head层。
优选地,所述步骤S300包括以下子步骤:
S310:将所述第一增强数据和第二增强数据分别输入backbone层进行特征提取,以获得三层特征图;
S320:将所述三层特征图输入到neck层进行FPN特征加强融合,以生成加强特征图;
S330:将所述加强特征图输入到head层,以获得物体的预测位置和预测类别。
优选地,所述步骤S400包括:
基于物体的类别和预测类别通过Focal Loss进行训练;基于物体的位置和预测位置通过GIOU Loss进行训练。
优选地,所述步骤S400还包括:
使用公开数据集对所述目标检测模型进行预训练,从而生成初始化权重;获得初始化权重后,再基于物体的类别和预测类别,以及物体的位置和预测位置训练所述目标检测模型,以获得训练好的目标检测模型。
本发明所采用的第二个技术方案是:一种基于双通道加载机制的视频检测***,包括预处理模块、数据增强模块、目标检测模型构建模块、训练模块和检测模块;
所述预处理模块用于获取具有标注信息的视频数据并进行预处理,以获得具有标注信息的第一数据集和第二数据集;所述标注信息标注了物体的类别和位置;
所述数据增强模块用于将所述第一数据集和第二数据集中的数据输入双通道加载机制中,采用不同的数据增强策略进行数据增强,从而获得第一增强数据和第二增强数据;
所述目标检测模型构建模块用于构建目标检测模型,将第一增强数据和第二增强数据分别输入到所述目标检测模型中,以获得物体的预测位置和预测类别;
所述训练模块用于基于物体的类别和预测类别,以及物体的位置和预测位置训练所述目标检测模型,以获得训练好的目标检测模型;
所述检测模块用于基于所述训练好的目标检测模型对待检测的视频数据进行检测。
优选地,所述数据增强模块在双通道中进行数据增强,其中第一数据集中的数据和第二数据集中的数据各自对应不同的数据增强通道。
上述技术方案的有益效果:
(1)本发明公开的一种基于双通道加载机制的视频检测方法根据视频数据分别每间隔37帧和50帧生成两份图像数据,通过双通道加载机制同时加载二份数据,并且使用不同的数据增强策略进行最大化扩充数据的多样性,弥补视频数据由于连续性导致样本差异过小、提取有效图像数据不足的缺点;从而增强目标检测模型的检测能力。
(2)本发明通过改进船载视频数据的数据增强策略(即采用双通道加载机制进行数据增强)来扩展更多数据和使用更多的数据增强,从而提高目标检测模型的检测精度。
(3)本发明通过获取视频数据进行不同间隔提取图像,能够提取两份分布不同的数据集,同时使用二种数据预处理通道(即双通道加载机制)进行数据预处理,每个数据预处理通道使用的数据增强策略不同,两份分布不同的数据集经过不同的数据预处理通道产生不同增强后的图像;通过该双通道加载的方式,能够在同一视频数据中扩展生成更多数据来增强目标检测模型的鲁棒性,提高目标检测模型的检测准确度。
附图说明
图1为本发明的一个实施例提供的一种基于双通道加载机制的视频检测方法的流程示意图;
图2为本发明一个实施例提供的双通道加载机制的示意图;
图3为本发明一个实施例提供的neck层的结构示意图;
图4为本发明的一个实施例提供的一种基于双通道加载机制的视频检测***的结构示意图。
具体实施方式
下面结合附图和实施例对本发明的实施方式作进一步详细描述。以下实施例的详细描述和附图用于示例性地说明本发明的原理,但不能用来限制本发明的范围,即本发明不限于所描述的优选实施例,本发明的范围由权利要求书限定。
在本发明的描述中,需要说明的是,除非另有说明,“多个”的含义是两个或两个以上;术语“第一”“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性;对于本领域的普通技术人员而言,可视具体情况理解上述术语在本发明中的具体含义。
实施例一
如图1所示,本发明的一个实施例提供了一种基于双通道加载机制的视频检测方法,包括以下步骤:
S100:获取具有标注信息的视频数据并进行预处理,以获得具有标注信息的第一数据集和第二数据集;所述标注信息标注了每一帧中物体的类别和位置;
获取具有标注信息的视频数据包括:从华为云官方平台上获取船海检测数据集,获取船海检测数据集中的视频数据和其对应的txt格式的标注信息,以形成具有标注信息的视频数据(即每一个视频数据都具有与其对应的标注信息;所述标注信息标注了视频数据中每一帧中所存在物体的物体类别和位置。
对具有标注信息的视频数据进行预处理包括:
1)将标注信息进行格式转换,从而形成coco格式的标注信息;
将txt格式的标注信息转换为coco类型的annotations格式,方便后期训练;
2)如图2所示,将具有coco格式标注信息的视频数据分别以50帧和37帧为间隔进行间隔取帧,以获得具有标注信息的第一数据集和第二数据集;
读取具有coco格式标注信息的每一段视频数据中的每一帧,以每间隔37帧提取一张图像进行保存,并将此张图像(此帧)的标注信息存入到JSON(JavaScript ObjectNotation)文件中,以生成具有标注信息的第一数据集;
以每间隔50帧提取一张图像进行保存,并将此图像的标注信息存入到JSON文件中,以生成具有标注信息的第二数据集。
具有标注信息的第一数据集(Data1)一共1544张图像,具有标注信息的第二数据集(Data2)一共1799张图像,具体数据信息参见表1。
表1 数据信息
本发明将视频数据中的每一帧利用加载器(dataloader)封装,以迭代器的方式输出具有标注信息的第一数据集和第二数据集。
S200:将具有标注信息的第一数据集和第二数据集中的数据输入双通道加载机制中,采用不同的数据增强策略进行数据增强,从而获得具有标注信息的第一增强数据和第二增强数据;
为了实现图像数据的归一化和数值类型转变;如图2所示,将视频数据中的图像数据(即视频数据中的所有帧)进行间隔取帧的操作封装成双通道(piplines)的方式,图像的数据增强操作也在这个双通道(piplines)中实现,具有标注信息的第一数据集中的数据和具有标注信息的第二数据集中的数据对应不同的数据增强通道piplines(piplines1和piplines2);在一个加载器(dataloader)中遍历第一数据集和第二数据集中的全部数据。
第一通道(piplines1)和第二通道(piplines2)的主要差别是数据增强策略不同,例如第一通道(piplines1)中包括图像大小调整(Resize)、第一自搜索数据增强策略v1(autoaugment v1)、图像数值归一化(Normalize)、图像填充(Pad)和图像数值类型转换(ImageToTensor);第二通道(piplines2)中包括图像大小调整(Resize)、第二自搜索数据增强策略v2(autoaugment v2)、图像数值归一化(Normalize)、图像填充(Pad)和图像数值类型转换(ImageToTensor)。
第一自搜索数据增强策略和第二自搜索数据增强策略都包括十几种数据增强算法,存在部分重叠;第一自搜索数据增强策略v1例如包括裁剪、旋转、亮度、对比度等;第二自搜索数据增强策略v2例如包括mixup、cutout等。
本发明在加载第一数据集中的数据时使用pipline1,加载第二数据集中的数据时使用pipline2,双通道加载机制构建完成。本发明在数据预处理方面基于双通道加载机制实现数据增强并行化,即本发明在数据加载机制中通过引用双通道的方式在同一个批次中同时遍历二份数据,同时两份数据使用不同的piplines数据处理通道进行处理,在不同的数据中使用不同的数据增强策略来最大化增强数据样本,从而实现丰富了数据样本和更好的鲁棒性的效果。
S300:构建目标检测模型,将具有标注信息的第一增强数据和第二增强数据分别输入到所述目标检测模型中,以获得物体的预测位置和预测类别;
(1)构建目标检测模型;
目标检测模型为基于atss-convnext的目标检测模型,包括backbone层、neck层和head层。
backbone层包括convnext-tiny模型,convnext-tiny模型用于提取图像特征;convnext-tiny模型的block每次利用数为(3,3,9,3),每一个block的设计都是相同,第一层为二维卷积,卷积核为7x7,使用layer norm层归一化;第二层为1x1的二维卷积,使用GELU激活函数;第三层为1x1的二维卷积同时使用了Drop path方法。
(2)将具有标注信息的第一增强数据和第二增强数据分别输入到所述目标检测模型中,以获得若干个预测目标检测框;
S310:将具有标注信息的第一增强数据和第二增强数据分别输入backbone层进行特征提取,以获得三层特征图;
将具有标注信息的第一增强数据和第二增强数据分别输入backbone层中,生成通道数分别为192,384,768的三层特征图并输出,三层特征图从上层到下层的顺序依次是C1,C2,C3,每个特征图大小不一致,下一层是上一层的四分之一大小。
S320:将backbone层输出的三层特征图输入到neck层进行FPN(特征金字塔网络)特征加强融合(即将三层特征图输入FPN架构中,基于三层特征图搭建特征金字塔结构,将浅层特征与深层特征进行融合),以生成加强特征图;
如图3所示,随着卷积的深度增加特征图尺度变小,通道数不断增加,C1、C2、C3的特征图大小分别为(80,80,256),(40,40,512),(20,20,1024);将C3进行上采样操作,C3的特征图大小变为(40,40,1024),然后将C3和C2的特征图进行拼接,以及使用CSPLayer层和Conv2D卷积重新生成的C2特征图具有更高的语义信息,然后利用新的C2特征图进行上采样,C2的特征图大小此时为(20,20,512);之后和C1特征图拼接以及使用CSPLayer层卷积输出最终的C1特征图,在将最终的C1进行下采样与C2特征图拼接,再使用CSPLayer层卷积输出最终的C2特征图,将最终的C2特征图同样进行下采样与C3特征图拼接在使用CSPLayer层卷积输出最终的C3特征图;由于C1、C2、C3都利用了上采样和下采样卷积进行不同尺度的融合,能够使得每层特征图获得全局特征。
S330:将生成的加强特征图输入到head层,以获得物体的预测位置和预测类别;
head层包括物体定位网络层和物体分类网络层,head层的整体架构是基于anchor-free,将加强特征图分别输入物体定位网络层和物体分类网络层。
将加强特征图输入物体定位网络层;通过物体定位的网络层在每一个加强特征图上都预测出预测中心点,如果预测中心点距离真实物体中心点的距离小于设定阈值就当做正样本训练,否则是负样本;设定阈值例如为3x3的特征点。在预测中心点的基础上再预测物体边界框(四条边)距离预测中心点的距离,从而获得物体的预测位置。将加强特征图输入物体分类网络层以实现物体分类,从而获得物体的预测类别。
S400:基于物体的类别和预测类别,以及物体的位置和预测位置训练所述目标检测模型,以获得训练好的目标检测模型;
将所有的预测值(即物体预测类别和物体预测位置)与目标值(即物体类别和物***置)进行计算损失值;通过不同的损失值来约束目标检测模型学习,学习加强特征图上的物体类别和位置信息,实现目标检测模型的训练。
基于物体类别和物体预测类别通过Focal Loss进行训练,参数设置alpha=0.75,gamma=2.0;基于物***置和物体预测位置通过GIOU Loss进行训练。
训练目标检测模型时,先使用另外的公开数据集(coco数据集)进行模型预训练,从而生成初始化权重,在训练coco数据集时只需要使用一个piplines,包含resize、p、ad,totensor等,不需要使用数据增强和双通道加载机制;获得初始化权重后,再在具有标注信息的第一数据集和第二数据集上进行目标检测模型的微调训练(使用双通道加载机制进行数据增强,基于物体的类别和预测类别,以及物体的位置和预测位置训练所述目标检测模型)。
优化器采用了AdamW优化器,beta值为0.9和0.99;一共训练12批次,学习率初始化设置为0.0001,学习率调整策略为线性下降方式,在第8批次和第11批次以0.1倍数进行调整。
进一步的,在一个实施例中,还包括对训练好的目标检测模型进行测试和评估;
在测试阶段不适用数据增强策略;获取测试集视频,将测试集视频中以间隔10帧生成的图像作为测试集图像,通过训练好的目标检测模型在测试集图像上进行预测输出物***置和物体类别,评价指标是MAP以0.5-0.95的IOU阈值下取各类目标AP进行平均,速度要求需要在P100显卡上大于30fps。
对比单通道加载策略与双通道加载策略(机制)的MAP得分,如表2所示,模型使用单通道加载第一自搜索数据增强策略(v1)的MAP得分为0.413;模型使用双通道加载第一自搜索数据增强策略和第二自搜索数据增强策略(v1+v2)的MAP得分为0.428;证明了基于双通道加载机制实现数据增强的有效性。
表2 MAP得分
S500:基于所述训练好的目标检测模型对待检测的视频数据进行检测。
实施例二
如图4所示,本发明的一个实施例提供了一种基于双通道加载机制的视频检测***,包括预处理模块、数据增强模块、目标检测模型构建模块、训练模块和检测模块;
所述预处理模块用于获取具有标注信息的视频数据并进行预处理,以获得具有标注信息的第一数据集和第二数据集;所述标注信息标注了物体的类别和位置;
所述数据增强模块用于将所述第一数据集和第二数据集中的数据输入双通道加载机制中,采用不同的数据增强策略进行数据增强,从而获得第一增强数据和第二增强数据;
所述目标检测模型构建模块用于构建目标检测模型,将第一增强数据和第二增强数据分别输入到所述目标检测模型中,以获得物体的预测位置和预测类别;
所述训练模块用于基于物体的类别和预测类别,以及物体的位置和预测位置训练所述目标检测模型,以获得训练好的目标检测模型;
所述检测模块用于基于所述训练好的目标检测模型对待检测的视频数据进行检测。
其中,所述数据增强模块在双通道中进行数据增强,其中第一数据集中的数据和第二数据集中的数据各自对应不同的数据增强通道。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (6)

1.一种基于双通道加载机制的视频检测方法,其特征在于,包括以下步骤:
S100:获取具有标注信息的视频数据并进行预处理,以获得具有标注信息的第一数据集和第二数据集;所述标注信息标注了物体的类别和位置;
S200:将所述第一数据集和第二数据集中的数据输入双通道加载机制中,采用不同的数据增强策略进行数据增强,从而获得第一增强数据和第二增强数据;
S300:构建目标检测模型,将第一增强数据和第二增强数据分别输入到所述目标检测模型中,以获得物体的预测位置和预测类别;
S400:基于物体的类别和预测类别,以及物体的位置和预测位置训练所述目标检测模型,以获得训练好的目标检测模型;
S500:基于所述训练好的目标检测模型对待检测的视频数据进行检测;
其中,所述步骤S100中的预处理包括:
1)将标注信息进行格式转换,从而形成coco格式的标注信息;
2)将具有coco格式标注信息的视频数据分别以50帧和37帧为间隔进行间隔取帧,以获得具有标注信息的第一数据集和第二数据集;
所述步骤S200中双通道中的第一通道中包括图像大小调整、第一自搜索数据增强策略、图像数值归一化、图像填充和图像数值类型转换;
第二通道中包括图像大小调整、第二自搜索数据增强策略、图像数值归一化、图像填充和图像数值类型转换。
2.根据权利要求1所述的视频检测方法,其特征在于,所述步骤S300中的目标检测模型为基于atss-convnext的目标检测模型;所述基于atss-convnext的目标检测模型包括backbone层、neck层和head层。
3.根据权利要求2所述的视频检测方法,其特征在于,所述步骤S300包括以下子步骤:
S310:将所述第一增强数据和第二增强数据分别输入backbone层进行特征提取,以获得三层特征图;
S320:将所述三层特征图输入到neck层进行FPN特征加强融合,以生成加强特征图;
S330:将所述加强特征图输入到head层,以获得物体的预测位置和预测类别。
4.根据权利要求1所述的视频检测方法,其特征在于,所述步骤S400包括:
基于物体的类别和预测类别通过Focal Loss进行训练;基于物体的位置和预测位置通过GIOU Loss进行训练。
5.根据权利要求4所述的视频检测方法,其特征在于,所述步骤S400还包括:
使用公开数据集对所述目标检测模型进行预训练,从而生成初始化权重;获得初始化权重后,再基于物体的类别和预测类别,以及物体的位置和预测位置训练所述目标检测模型,以获得训练好的目标检测模型。
6.一种基于双通道加载机制的视频检测***,其特征在于,包括预处理模块、数据增强模块、目标检测模型构建模块、训练模块和检测模块;
所述预处理模块用于获取具有标注信息的视频数据并进行预处理,以获得具有标注信息的第一数据集和第二数据集;所述标注信息标注了物体的类别和位置;
所述数据增强模块用于将所述第一数据集和第二数据集中的数据输入双通道加载机制中,采用不同的数据增强策略进行数据增强,从而获得第一增强数据和第二增强数据;双通道中的第一通道中包括图像大小调整、第一自搜索数据增强策略、图像数值归一化、图像填充和图像数值类型转换;第二通道中包括图像大小调整、第二自搜索数据增强策略、图像数值归一化、图像填充和图像数值类型转换;
所述目标检测模型构建模块用于构建目标检测模型,将第一增强数据和第二增强数据分别输入到所述目标检测模型中,以获得物体的预测位置和预测类别;
所述训练模块用于基于物体的类别和预测类别,以及物体的位置和预测位置训练所述目标检测模型,以获得训练好的目标检测模型;
所述检测模块用于基于所述训练好的目标检测模型对待检测的视频数据进行检测;
其中,所述预处理模块执行以下操作:
1)将标注信息进行格式转换,从而形成coco格式的标注信息;
2)将具有coco格式标注信息的视频数据分别以50帧和37帧为间隔进行间隔取帧,以获得具有标注信息的第一数据集和第二数据集。
CN202310580231.3A 2023-05-23 2023-05-23 一种基于双通道加载机制的视频检测方法及*** Active CN116311003B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310580231.3A CN116311003B (zh) 2023-05-23 2023-05-23 一种基于双通道加载机制的视频检测方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310580231.3A CN116311003B (zh) 2023-05-23 2023-05-23 一种基于双通道加载机制的视频检测方法及***

Publications (2)

Publication Number Publication Date
CN116311003A CN116311003A (zh) 2023-06-23
CN116311003B true CN116311003B (zh) 2023-08-01

Family

ID=86785398

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310580231.3A Active CN116311003B (zh) 2023-05-23 2023-05-23 一种基于双通道加载机制的视频检测方法及***

Country Status (1)

Country Link
CN (1) CN116311003B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111723719A (zh) * 2020-06-12 2020-09-29 中国科学院自动化研究所 基于类别外部记忆的视频目标检测方法、***、装置
CN114241053A (zh) * 2021-12-31 2022-03-25 北京工业大学 基于改进的注意力机制FairMOT多类别跟踪方法
CN115035159A (zh) * 2022-06-06 2022-09-09 浙江大学 一种基于深度学习和时序特征增强的视频多目标跟踪方法
CN115272819A (zh) * 2022-07-15 2022-11-01 南京信息工程大学 一种基于改进Faster-RCNN的小目标检测方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111429407B (zh) * 2020-03-09 2023-05-09 清华大学深圳国际研究生院 基于双通道分离网络的胸部x光疾病检测装置及方法
CN111291739B (zh) * 2020-05-09 2020-09-18 腾讯科技(深圳)有限公司 面部检测、图像检测神经网络训练方法、装置和设备
CN112464807A (zh) * 2020-11-26 2021-03-09 北京灵汐科技有限公司 视频动作识别方法、装置、电子设备和存储介质
CN112560695B (zh) * 2020-12-17 2023-03-24 中国海洋大学 水下目标跟踪方法、***、存储介质、设备、终端及应用
CN114842397B (zh) * 2022-05-19 2023-04-07 华南农业大学 一种基于异常检测的实时老人跌倒检测方法
CN115470406A (zh) * 2022-09-01 2022-12-13 西北师范大学 一种基于双通道信息融合的图神经网络会话推荐方法
CN115588116A (zh) * 2022-10-14 2023-01-10 成都图必优科技有限公司 基于双通道注意力机制的行人动作识别方法
CN115700731A (zh) * 2022-11-17 2023-02-07 大连海事大学 一种基于双通道卷积神经网络的水下图像增强方法
CN116092501B (zh) * 2023-03-14 2023-07-25 深圳市玮欧科技有限公司 语音增强方法、语音识别方法、说话人识别方法和***

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111723719A (zh) * 2020-06-12 2020-09-29 中国科学院自动化研究所 基于类别外部记忆的视频目标检测方法、***、装置
CN114241053A (zh) * 2021-12-31 2022-03-25 北京工业大学 基于改进的注意力机制FairMOT多类别跟踪方法
CN115035159A (zh) * 2022-06-06 2022-09-09 浙江大学 一种基于深度学习和时序特征增强的视频多目标跟踪方法
CN115272819A (zh) * 2022-07-15 2022-11-01 南京信息工程大学 一种基于改进Faster-RCNN的小目标检测方法

Also Published As

Publication number Publication date
CN116311003A (zh) 2023-06-23

Similar Documents

Publication Publication Date Title
CN111681273B (zh) 图像分割方法、装置、电子设备及可读存储介质
CN112560980B (zh) 目标检测模型的训练方法、装置及终端设备
CN112233125B (zh) 图像分割方法、装置、电子设备及计算机可读存储介质
CN107239786A (zh) 一种字符识别方法和装置
CN108764039B (zh) 神经网络、遥感影像的建筑物提取方法、介质及计算设备
CN109784283A (zh) 基于场景识别任务下的遥感图像目标提取方法
CN111291825A (zh) 病灶分类模型训练方法、装置、计算机设备和存储介质
CN112927279A (zh) 一种图像深度信息生成方法、设备及存储介质
CN104484886A (zh) 一种mr图像的分割方法及装置
CN116403127A (zh) 一种无人机航拍图像目标检测方法、装置和存储介质
CN108229281A (zh) 神经网络的生成方法和人脸检测方法、装置及电子设备
CN114549959A (zh) 基于目标检测模型的红外弱小目标实时检测方法和***
CN116311003B (zh) 一种基于双通道加载机制的视频检测方法及***
CN113240050A (zh) 一种特征融合权重可调的金属打印熔池检测方法
CN113269752A (zh) 一种图像检测方法、装置终端设备及存储介质
CN116342628A (zh) 病理图像分割方法、装置和计算机设备
CN116486153A (zh) 图像分类方法、装置、设备及存储介质
CN115659221A (zh) 一种教学质量的评估方法、装置及计算机可读存储介质
CN114359739A (zh) 目标识别方法及装置
CN114495132A (zh) 文字识别方法、装置、设备及存储介质
CN113222887A (zh) 基于深度学习的纳米铁标记神经干细胞示踪的方法
CN111753625A (zh) 一种行人检测方法、装置、设备及介质
CN117689669B (zh) 基于结构自适应上下文敏感的视网膜血管分割方法
CN117292178A (zh) 目标检测方法、装置、计算机设备及计算机可读存储介质
CN117765552A (zh) 文本内容识别方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20230623

Assignee: Shenzhen Weiou Technology Co.,Ltd.

Assignor: Ocdop Ltd.

Contract record no.: X2023980048768

Denomination of invention: A Video Detection Method and System Based on Dual Channel Loading Mechanism

Granted publication date: 20230801

License type: Common License

Record date: 20231128

EE01 Entry into force of recordation of patent licensing contract