CN115082752A - 基于弱监督的目标检测模型训练方法、装置、设备及介质 - Google Patents

基于弱监督的目标检测模型训练方法、装置、设备及介质 Download PDF

Info

Publication number
CN115082752A
CN115082752A CN202210596349.0A CN202210596349A CN115082752A CN 115082752 A CN115082752 A CN 115082752A CN 202210596349 A CN202210596349 A CN 202210596349A CN 115082752 A CN115082752 A CN 115082752A
Authority
CN
China
Prior art keywords
image
video
network
target detection
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210596349.0A
Other languages
English (en)
Inventor
于晋川
张朋
陈波扬
虞响
殷俊
蔡丹平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Dahua Technology Co Ltd
Original Assignee
Zhejiang Dahua Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Dahua Technology Co Ltd filed Critical Zhejiang Dahua Technology Co Ltd
Priority to CN202210596349.0A priority Critical patent/CN115082752A/zh
Publication of CN115082752A publication Critical patent/CN115082752A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Abstract

本申请涉及计算机视觉技术领域,提供一种基于弱监督的目标检测模型训练方法、装置、设备及介质,用于增强目标检测的效果。该方法通过特征提取网络获得各个样本图像和各帧视频图像的特征,将各个样本图像的特征输入目标检测网络,获得各个样本图像中目标的预测位置,根据各个样本图像中目标的预测位置与对应标签指示的实际位置之间的误差,调整特征提取网络和目标检测网络的参数;将各帧视频图像的特征输入视频帧预测网络,获得各帧视频图像的预测视频图像,根据各帧视频图像的预测视频图像与各帧视频图像的下一帧视频图像之间的误差,调整特征提取网络和视频帧预测网络的参数,将训练后的特征提取网络和目标检测网络作为训练后的目标检测模型。

Description

基于弱监督的目标检测模型训练方法、装置、设备及介质
技术领域
本申请涉及计算机视觉技术领域,具体涉及一种基于弱监督的目标检测模型训练方法、装置、设备及介质。
背景技术
随着海量数据的增长和设备算力的不断提升,近几年深度学习在各个领域得到了广泛应用,尤其是计算机视觉领域。基于深度学习的目标检测技术也被广泛应用于安防监控、自动驾驶等领域,然而基于深度学习的目标检测技术依赖于标注数据的数量和质量,否则训练后的目标检测模型的检测效果并不好。
由于人工标注的方式效率低且成本高,现有的目标检测训练方法通常利用已标注的标签生成伪标注,或者利用教师模型得到未标注数据的预测结果作为伪标注,从而扩充训练样本,但是生成的伪标注质量难以保证,导致训练后的目标检测模型的检测效果较差。
发明内容
本申请实施例提供一种基于弱监督的目标检测模型训练方法、装置、设备及介质,用于增强目标检测的效果。
第一方面,本申请提供一种基于弱监督的目标检测模型训练方法,所述目标检测模型包括特征提取网络、目标检测网络和视频帧预测网络,所述方法包括:
获取样本图像集和包括至少一段视频的样本视频集;其中,所述样本图像集包括多个带有标签的样本图像,所述标签基于对应的样本图像中目标的实际位置确定;
通过所述特征提取网络对各个样本图像进行特征提取,获得各个样本图像的图像特征,通过所述目标检测网络对各个样本图像的图像特征进行目标检测,获得各个样本图像中目标的预测位置,根据各个样本图像中目标的预测位置与对应标签指示的实际位置之间的误差,调整所述特征提取网络和所述目标检测网络的参数;
通过所述特征提取网络对所述至少一段视频中各帧视频图像进行特征提取,获得各帧视频图像的图像特征,将各帧视频图像的图像特征输入所述视频帧预测网络,通过所述视频帧预测网络预测各帧视频图像的下一帧图像,获得各帧视频图像的预测视频图像,根据各帧视频图像的预测视频图像与各帧视频图像的下一帧视频图像之间的误差,调整所述特征提取网络和所述视频帧预测网络的参数;
直到所述目标检测模型满足预设条件,将训练后的特征提取网络和训练后的目标检测网络作为训练后的目标检测模型。
在本申请实施例中,通过未标注的样本视频集来扩充训练样本,利用已标注的样本图像集和未标注的样本视频集一起训练目标检测模型,即采用弱监督的方式训练模型,不需要生成额外的伪标注,也不需要其他模型辅助训练。且该方法采用多任务学习的方式进行弱监督学习,将目标检测任务和视频帧预测任务相结合,特征提取网络共享两个学习任务的网络权重,通过训练预测下一帧视频图像来辅助训练特征提取网络,间接增强了目标检测任务的特征提取能力,从而增强训练后的目标检测模型的检测效果。
在一种可能的实施例中,所述标签还包括各个样本图像中目标的实际类别;在通过所述目标检测网络对各个样本图像的第一图像特征进行目标检测,获得各个样本图像中目标的预测位置之后,所述方法还包括:
获得各个样本图像中目标的预测类别;
在根据各个样本图像中目标的预测位置与对应标签指示的实际位置之间的误差,调整所述特征提取网络和所述目标检测网络的参数之后,所述方法还包括:
根据各个样本图像中目标的预测类别与对应标签指示的实际类别之间的误差,调整所述特征提取网络和所述目标检测网络的参数。
在本申请实施例中,根据目标的预测类别和实际类别之间的误差,调整特征提取网络和目标检测网络的参数,对特征提取网络进一步训练,从而进一步提高特征提取网络的特征提取能力。
在一种可能的实施例中,根据各个样本图像中目标的预测位置与对应标签指示的实际位置之间的误差,调整所述特征提取网络和所述目标检测网络的参数,包括:
若所述实际位置包括各个样本图像中目标所在的实际矩形框,所述预测位置包括各个样本图像中目标所在的预测矩形框,则根据各个样本图像中目标所在的预测矩形框与对应标签指示的实际矩形框之间的误差,调整所述特征提取网络和所述目标检测网络的参数;和/或,
若所述实际位置包括各个样本图像中目标所在的实际矩形框的位置信息,且所述预测位置包括各个样本图像中目标所在的预测矩形框的位置信息,则根据各个样本图像中目标所在的预测矩形框的位置信息与对应标签指示的实际矩形框的位置信息之间的误差,调整所述特征提取网络和所述目标检测网络的参数。
在本申请实施例中,提供多种计算预测位置与实际位置之间的误差的方案,使得调整网络参数的方式更加灵活。
在一种可能的实施例中,所述样本图像集和所述样本视频集是分别从具有相同类别的背景参考物的两个场景中采集的。
在一种可能的实施例中,在将训练后的特征提取网络和训练后的目标检测网络作为训练后的目标检测模型之后,所述方法还包括:
将所述训练后的特征提取网络和训练后的视频帧预测网络作为训练后的视频帧预测模型;其中,所述训练后的视频帧预测模型用于预测连续帧图像的下一帧图像。
在本申请实施例中,通过多任务训练的方式,不仅可以获得训练后的目标检测模型,还可以获得训练后的视频帧预测模型,用于预测连续帧图像的下一帧图像。
在一种可能的实施例中,所述视频帧预测网络为时序记忆网络。
在本申请实施例中,考虑到视频具有时序性,采用时序性网络来学习视频帧的时序性,这能作为很好的训练引导,提高预测下一帧视频图像的准确性。
第二方面,本申请提供一种基于弱监督的目标检测方法,所述方法包括:
获取待检测图像;
将所述待检测图像输入训练后的目标检测模型,获得所述待检测图像中目标的位置;其中,所述训练后的目标检测模型是通过如第一方面中任一项所述的方法训练得到的。
第三方面,本申请提供一种基于弱监督的目标检测模型训练装置,所述目标检测模型包括特征提取网络、目标检测网络和视频帧预测网络,所述装置包括:
获取模块,用于获取样本图像集和包括至少一段视频的样本视频集;其中,所述样本图像集包括多个带有标签的样本图像,所述标签基于对应的样本图像中目标的实际位置确定;
调整模块,用于通过所述特征提取网络对各个样本图像进行特征提取,获得各个样本图像的图像特征,通过所述目标检测网络对各个样本图像的图像特征进行目标检测,获得各个样本图像中目标的预测位置,根据各个样本图像中目标的预测位置与对应标签指示的实际位置之间的误差,调整所述特征提取网络和所述目标检测网络的参数;
所述调整模块,还用于通过所述特征提取网络对所述至少一段视频中各帧视频图像进行特征提取,获得各帧视频图像的图像特征,将各帧视频图像的图像特征输入所述视频帧预测网络,通过所述视频帧预测网络预测各帧视频图像的下一帧图像,获得各帧视频图像的预测视频图像,根据各帧视频图像的预测视频图像与各帧视频图像的下一帧视频图像之间的误差,调整所述特征提取网络和所述视频帧预测网络的参数;
获得模块,用于直到所述目标检测模型满足预设条件,将训练后的特征提取网络和训练后的目标检测网络作为训练后的目标检测模型。
在一种可能的实施例中,所述标签基于对应的样本图像中目标的实际位置和实际类别确定;所述调整模块还用于:
在通过所述目标检测网络对各个样本图像的第一图像特征进行目标检测,获得各个样本图像中目标的预测位置之后,获得各个样本图像中目标的预测类别;
在根据各个样本图像中目标的预测位置与对应标签指示的实际位置之间的误差,调整所述特征提取网络和所述目标检测网络的参数之后,根据各个样本图像中目标的预测类别与对应标签指示的实际类别之间的误差,调整所述特征提取网络和所述目标检测网络的参数。
在一种可能的实施例中,所述调整模块具体用于:
若所述实际位置包括各个样本图像中目标所在的实际矩形框,所述预测位置包括各个样本图像中目标所在的预测矩形框,则根据各个样本图像中目标所在的预测矩形框与对应标签指示的实际矩形框之间的误差,调整所述特征提取网络和所述目标检测网络的参数;和/或,
若所述实际位置包括各个样本图像中目标所在的实际矩形框的位置信息,且所述预测位置包括各个样本图像中目标所在的预测矩形框的位置信息,则根据各个样本图像中目标所在的预测矩形框的位置信息与对应标签指示的实际矩形框的位置信息之间的误差,调整所述特征提取网络和所述目标检测网络的参数。
在一种可能的实施例中,所述样本图像集和所述样本视频集是分别从具有相同类别的背景参考物的两个场景中采集的。
在一种可能的实施例中,所述获得模块还用于:
在将训练后的特征提取网络和训练后的目标检测网络作为训练后的目标检测模型之后,将所述训练后的特征提取网络和训练后的视频帧预测网络作为训练后的视频帧预测模型。其中,所述训练后的视频帧预测模型用于预测连续帧图像的下一帧图像。
在一种可能的实施例中,所述视频帧预测网络为时序记忆网络。
第四方面,本申请提供一种基于弱监督的目标检测装置,包括:
获取模块,用于获取待检测图像;
获得模块,用于将所述待检测图像输入训练后的目标检测模型,获得所述待检测图像中目标的位置;其中,所述训练后的目标检测模型是通过第一方面中任一项所述的方法训练得到的。
第五方面,本申请提供一种电子设备,包括:
存储器,用于存储程序指令;
处理器,用于调用存储器中存储的程序指令,按照获得的程序指令执行如第一方面或第二方面中任一项所述的方法。
第六方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被计算机执行时,使所述计算机执行第一方面或第二方面中任一项所述的方法。
附图说明
为了更清楚地说明本申请实施例或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的一种基于弱监督的目标检测模型训练方法的应用场景示意图;
图2为本申请实施例提供的一种基于弱监督的目标检测模型训练方法的流程示意图;
图3为本申请实施例提供的一种目标检测模型的结构示意图;
图4为本申请实施例提供的一种带有标签的样本图像的示意图;
图5为本申请实施例提供的一种基于弱监督的目标检测模型训练装置的结构示意图;
图6为本申请实施例提供的一种基于弱监督的目标检测装置的结构示意图;
图7为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面将结合本发明实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以按不同于此处的顺序执行所示出或描述的步骤。
本申请的说明书和权利要求书及上述附图中的术语“第一”和“第二”是用于区别不同对象,而非用于描述特定顺序。此外,术语“包括”以及它们任何变形,意图在于覆盖不排他的保护。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
本申请实施例中,“多个”可以表示至少两个,例如可以是两个、三个或者更多个,本申请实施例不做限制。
为了增强目标检测的效果,本申请实施例提供一种基于弱监督的目标检测模型训练方法,下面对本申请实施例的技术方案能够适用的应用场景做一些简单介绍,需要说明的是,以下介绍的应用场景仅用于说明本申请实施例而非限定。在具体实施过程中,可以根据实际需要灵活地应用本申请实施例提供的技术方案。
请参照图1,为本申请实施例提供的一种基于弱监督的目标检测模型训练方法的应用场景示意图。该应用场景可以包括拍摄设备101和训练设备102。训练设备102可以与拍摄设备101进行通信。
拍摄设备101例如为终端设备或摄像机等,终端设备例如包括相机、手机或平板电脑等,还可能包括其他的带有拍摄功能的设备。训练设备102可以通过终端或服务器实现,终端例如移动终端、固定终端或便携式终端,例如智能摄像机、移动手机、多媒体计算机、多媒体平板、台式计算机、笔记本计算机、平板计算机等。服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式***,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器,但并不局限于此。
应当说明的是,图1中是以拍摄设备101和训练设备102为两个相互独立的设备为例,但是实际上,拍摄设备101也可以与训练设备102耦合,或者拍摄设备101和训练设备102为同一个设备,如将智能摄像机作为前述拍摄设备101和训练设备102等。
具体来说,拍摄设备101将样本图像集和样本视频集发送给训练设备102,训练设备102中有预先构建的目标检测模型,训练设备102在接收到样本图像集和样本视频集之后,利用样本图像集和样本视频集对目标检测模型进行训练,获得训练后的目标检测模型。其中,如何对目标检测模型进行训练的过程将在下文中进行详细介绍。
如上介绍了应用场景,下面结合图1所示的应用场景,以图1中的训练设备102执行基于弱监督的目标检测模型训练方法为例进行介绍。请参照图2,为本申请实施例提供的一种基于弱监督的目标检测模型训练方法的流程示意图。
S201、获取样本图像集和包括至少一段视频的样本视频集。
其中,样本视频集包括至少一段视频,每段视频包括多帧连续的视频图像。样本图像集包括多个带有标签的样本图像,标签是基于目标的信息确定的,任意需要检测的行人、车辆等都可以称为目标,目标的信息例如位置信息、类别信息等。样本图像中可能不止一个目标,例如图像中存在多个行人,当样本图像存在多个目标时,每个目标对应有一个标签。
其中确定标签的方式有多种,下面分别进行示例介绍。
1、标签是基于对应的样本图像中目标的实际位置确定的。
实际位置可以包括各个样本图像中目标所在的实际矩形框,还可以包括各个样本图像中目标所在的实际矩形框的位置信息。例如以图像的中心点作为原点建立平面直角坐标系,矩形框的位置信息为(xi,yi,wi,hi),xi表示第i个目标所在的矩形框的中心点的横坐标,yi表示第i个目标所在的矩形框的中心点的纵坐标,wi表示第i个目标所在的矩形框的宽度,hi表示第i个目标所在的矩形框的高度。
2、标签是基于对应的样本图像中目标的实际位置和实际类别确定的。
实际位置的含义请参照前文论述的内容,此处不再赘述。目标的实际类别例如人、车、动物等,具体的,人还可以进一步划分为小孩、大人等,车还可以进一步划分为机动车和非机动车。
例如,在行人检测中,样本图像中的标签包括人体所在的矩形框,标签还可以包括一个外接矩形框,外接矩形框中显示该人体所在的矩形框的位置信息和该人体的类别。或者例如在车辆检测中,样本图像中的标签包括车身所在的实际矩形框,标签还可以包括一个外接矩形框,外接矩形框中显示该车身所在的矩形框的位置信息和该车身的类别。
请参照图3,为本申请实施例提供的一种带有标签的样本图像的示意图。该样本图像的标签包括车身所在的实际矩形框301、以及与实际矩形框301连接的外接矩形框302。其中,外接矩形框302中的car表示该目标的实际类别为车辆,(x,y,w,h)表示实际矩形框301在该样本图像中的位置信息。图3是以一张样本图像只有一个目标为例,实际上不限制每张样本图像中目标的数量。
样本图像集和样本视频集的采集场景可以相同或者不同,下面分别进行示例介绍。
情况一、样本图像集和样本视频集是从同一场景采集的。
同一场景指的是同一地点的场景,例如,样本图像集和样本视频集均是从A地点的道路交通场景采集的。
本申请实施例中,从同一场景采集的样本图像集和样本视频集的特征更加相似,更加有利于对特征提取网络的训练。
情况二、样本图像集和样本视频集是分别从两个场景采集的。
两个场景具有相同类别的背景参考物,这两个场景可以称为类似场景。例如,样本图像集是从A地点的道路交通场景采集的,样本视频集是从B地点的道路交通场景中采集的。
本申请实施例中,相较于同一场集的样本视频集,类似场景的样本视频集更加容易获取。
无论是情况一还是情况二,样本图像集和样本视频集可以是同一时间段或者不同时间段采集的。
如上介绍了样本图像集和样本视频集,其中涉及到训练设备如何获取样本图像集和样本视频集,获取方式有多种,下面分别进行介绍。
方式一、拍摄设备发送给训练设备的。
方式二、训练设备从网上数据库下载的。
方式三、训练设备响应于用户的输入操作获得的。
训练设备获取样本图像集和样本视频集的方式可以相同。例如训练设备均采用方式一获取样本图像集和样本视频集,或者例如训练设备均采用方式二获取样本图像集和样本视频集,或者例如训练设备均采用方式三获取样本图像集和样本视频集。
训练设备获取样本图像集和样本视频集的方式可以不同。例如训练设备采用方式一获取样本图像集,采用方式二或方式三获取样本视频集,或者例如训练设备采用方式二获取样本图像集,采用方式一或方式三获取样本视频集,或者例如训练设备采用方式三获取样本图像集,采用方式一或方式二获取样本视频集。具体例如,已标注的样本图像集是训练设备从网上数据库下载的,未标注的样本视频集是拍摄设备发送给训练设备的,或者未标注的样本视频集是用户从拍摄设备拷贝至训练设备的。
考虑到人工为图像打标的过程耗时耗力,而从网上下载的已标注的样本图像的数量有限,但是未标注的样本视频集更加容易获取,因此在一种可能的实施例中,样本视频集中视频图像的数量可以大于样本图像集中样本图像的数量。
在本申请实施例中,可以利用少量已标注的样本图像集和大量未标注的样本视频集对目标检测模型进行弱监督训练,在已标注的样本图像集有限的情况下,可以提高模型的训练效果。
S202、通过特征提取网络对各个样本图像进行特征提取,获得各个样本图像的图像特征,通过目标检测网络对各个样本图像的图像特征进行目标检测,获得各个样本图像中目标的预测位置,根据各个样本图像中目标的预测位置与对应标签指示的实际位置之间的误差,调整特征提取网络和目标检测网络的参数。
训练设备中有预先建立好的目标检测模型,请参照图4,为本申请实施例提供的目标检测模型的一种结构示意图,目标检测模型包括特征提取网络401、目标检测网络402和视频帧预测网络403。其中,特征提取网络401用于提取图像特征。目标检测网络402用于获取特征提取网络401输出的图像特征,输出目标检测结果。视频帧预测网络403用于获取特征提取网络401输出的图像特征,输出预测的下一帧视频图像。
训练设备获取样本图像集和样本视频集之后,利用样本图像集训练目标检测模型的过程如S1.1-S1.3。
S1.1、通过特征提取网络对各个样本图像进行特征提取,获得各个样本图像的图像特征。
具体的,训练设备获取样本图像集之后,将各个样本图像输入特征提取网络,特征提取网络可以是各种神经网络,可以对输入的图像进行特征提取处理,从而获得各个样本图像的图像特征。
S1.2、通过目标检测网络对各个样本图像的图像特征进行目标检测,获得各个样本图像中目标的预测位置。
具体的,训练设备将各个样本图像的图像特征输入目标检测网络,目标检测网络可以是用于检测目标的任意网络,例如faster rcnn、yolo等检测网络,从而获得各个样本图像中目标的预测位置,或者获得各个样本图像中目标的预测位置和预测类别。
应当说明的是,当样本图像存在多个目标时,通过目标检测网络对该样本图像的图像特征进行目标检测,可以获得该样本图像中多个目标的预测位置,或者获得该样本图像中多个目标的预测位置和预测类别。
S1.3、根据各个样本图像中目标的预测位置与对应标签指示的实际位置之间的误差,调整特征提取网络和目标检测网络的参数。
训练设备获得目标的预测位置之后,根据目标的预测位置与实际位置之间的误差即位置误差,调整网络参数的方式有多种,下面分情况进行介绍。
第一种情况,实际位置包括各个样本图像中目标所在的实际矩形框,预测位置包括各个样本图像中目标所在的预测矩形框。
针对第一种情况,训练设备可以根据各个样本图像中目标所在的预测矩形框与对应标签指示的实际矩形框之间的误差即第一位置误差,调整特征提取网络和目标检测网络的参数。其中计算第一位置误差可以采用回归损失函数,例如CIOU损失函数、DIOU损失函数等。
第二种情况,实际位置包括各个样本图像中目标所在的实际矩形框的位置信息,预测位置包括各个样本图像中目标所在的预测矩形框的位置信息。
针对第二种情况,训练设备可以根据各个样本图像中目标所在的预测矩形框的位置信息与对应标签指示的实际矩形框的位置信息之间的误差即第二位置误差,调整特征提取网络和目标检测网络的参数。其中计算第二误差可以采用分类损失函数,例如交叉熵损失函数。
第三种情况,实际位置包括各个样本图像中目标所在的实际矩形框和实际矩形框的位置信息,预测位置包括各个样本图像中目标所在的预测矩形框和预测矩形框的位置信息。
针对第三种情况,训练设备可以根据第一位置误差和第二位置误差,调整特征提取网络和目标检测网络的参数。其中,第一位置误差和第二位置误差的含义请参照前文论述的内容,此处不再赘述。具体的调整方式有多种,下面分别进行介绍。
方式一、训练设备可以先根据第一位置误差调整特征提取网络和目标检测网络的参数,再根据第二位置误差继续调整特征提取网络和目标检测网络的参数。
方式二、训练设备可以先根据第二位置误差调整特征提取网络和目标检测网络的参数,再根据第一位置误差继续调整特征提取网络和目标检测网络的参数。
方式三、训练设备可以根据第一位置误差和第二位置误差的加权求和结果,调整特征提取网络和目标检测网络的参数。
如上介绍了如何根据目标的预测位置与实际位置之间的误差,调整特征提取网络和目标检测网络的参数。当样本图像存在多个目标时,训练设备可以分别计算每个目标的预测位置与对应标签指示的实际位置之间的误差,获得多个位置误差,根据多个位置误差分别调整特征提取网络和目标检测网络的参数,或者,根据多个位置误差的加权求和结果调整特征提取网络和目标检测网络的参数。
S1.4、根据各个样本图像中目标的预测类别与对应标签指示的实际类别之间的误差,调整特征提取网络和目标检测网络的参数。
训练设备获得目标的预测类别之后,可以根据预测类别与实际类别之间的误差即类别误差,调整特征提取网络和目标检测网络的参数。其中,计算预测类别与实际类别之间的误差可以采用分类损失函数,例如交叉熵损失函数。
当样本图像存在多个目标时,训练设备可以分别计算每个目标的预测类别与对应标签指示的实际类别之间的误差,获得多个类别误差,根据多个类别误差分别调整特征提取网络和目标检测网络的参数,或者,根据多个类别误差的加权求和结果调整特征提取网络和目标检测网络的参数。
应当说明的是,当执行S1.2时,若通过目标检测网络仅获得各个样本图像中目标的预测位置,未获得目标的预测类别,则只执行S1.3,不执行S1.4。若通过目标检测网络获得各个样本图像中目标的预测位置和预测类别,则执行S1.3和S1.4。
进一步,S1.3和S1.4的执行顺序是任意的,训练设备可以先执行S1.3再执行S1.4,也可以先执行S1.4再执行S1.3,还可以同时执行S1.3和S1.4。例如,对S1.3中的位置误差和S1.3中的类别误差进行加权求和,根据位置误差和类别误差的加权求和结果,调整特征提取网络和目标检测网络的参数。
S203、通过特征提取网络对至少一段视频中各帧视频图像进行特征提取,获得各帧视频图像的图像特征,将各帧视频图像的图像特征输入视频帧预测网络,通过视频帧预测网络预测各帧视频图像的下一帧图像,获得各帧视频图像的预测视频图像,根据各帧视频图像的预测视频图像与各帧视频图像的下一帧视频图像之间的误差,调整特征提取网络和视频帧预测网络的参数。
训练设备获取样本图像集和样本视频集之后,利用样本视频集训练目标检测模型的过程如S2.1-S2.3所述。
S2.1、通过特征提取网络对各帧视频图像进行特征提取,获得各帧视频图像的图像特征。
具体的,训练设备获取样本视频集之后,将各帧视频图像输入特征提取网络,特征提取网络可以是各种神经网络,可以对输入的图像进行特征提取处理,从而获得各帧视频图像的图像特征。
S2.2、将各帧视频图像的图像特征输入视频帧预测网络,通过视频帧预测网络预测各帧视频图像的下一帧图像,获得各帧视频图像的预测视频图像。
具体的,训练设备将各帧视频图像的图像特征输入视频帧预测网络,视频帧预测网络可以是各种神经网络,优选的,视频帧预测网络为时序性网络,例如使用长短期记忆(Long Short-Term Memory,LSTM)、门控循环单元(Gated Recurrent Unit,GRU)的时序记忆网络,可以对各帧视频图像的下一帧图像进行预测,从而获得各帧视频图像的预测视频图像。
S2.3、根据各帧视频图像的预测视频图像与各帧视频图像的下一帧视频图像之间的误差,调整特征提取网络和视频帧预测网络的参数。
具体的,由于视频帧具有时序性,从样本视频集中可以确定每帧视频图像实际对应的下一帧视频图像,训练设备根据各帧视频图像的预测视频图像与各帧视频图像的下一帧视频图像之间的误差,调整特征提取网络和视频帧预测网络的参数。其中计算两个图像之间的误差可以采用图像重建损失函数,例如相似度损失函数(Dice Loss)。
应当说明的是,样本图像和视频图像的训练顺序是任意的。训练设备可以将样本图像和视频图像交替输入特征提取网络,根据目标检测网络和视频帧预测网络输出的预测结果,交替更新特征提取网络的参数。
S204、直到目标检测模型满足预设条件,将训练后的特征提取网络和训练后的目标检测网络作为训练后的目标检测模型。
训练设备可以采用梯度下降算法,不断迭代并更新各网络的参数,直到目标检测模型满足预设条件,训练结束,训练设备可以将训练后的特征提取网络和训练后的目标检测网络作为训练后的目标检测模型。
其中,预设条件可以是指预设迭代次数或预设测试指标。例如网络的总迭代次数等于预设迭代次数时,训练结束。或者例如,样本图像集可以分为训练集和验证集,训练集用来训练,验证集用来训练时验证,当训练集迭代完一轮(epoch)后,即训练集中所有样本图像全部输入完一轮,就采用验证集中的样本图像验证一次,当验证集中样本图像的测试指标达到预设测试指标时,训练结束。测试指标例如准确率、召回率等。
当标签基于对应的样本图像中目标的实际位置确定时,训练后的目标检测模型可以用于检测任一图像中目标的位置。当标签基于对应的样本图像中目标的实际位置和实际类别确定时,训练后的目标检测模型可以用于检测任一图像中目标的位置和类别。
在一种可能的实施例中,训练设备在将训练后的特征提取网络和训练后的目标检测网络作为训练后的目标检测模型之后,可以将训练后的特征提取网络和训练后的视频帧预测网络作为训练后的视频帧预测模型。其中,训练后的视频帧预测模型用于预测连续帧图像的下一帧图像。
训练设备在获得训练后的视频帧预测模型之后,可以获取待预测图像,将待预测图像输入训练后的视频帧预测模型,通过训练后的特征提取网络进行特征提取处理,获得该待预测图像的图像特征,将该待预测图像的图像特征输入训练后的视频帧预测网络,对该待预测图像的下一帧图像进行预测,获得该待预测图像的预测视频图像,即预测的该待预测图像的下一帧图像。
本申请实施例提供的训练框架简洁通用,基于多任务的方式可以迁移到更多任务,例如采用图像复原任务来替代视频预测任务,与目标检测任务联合训练。
具体的,训练设备可以采用噪声图像集代替样本视频集,图像复原网络代替视频帧预测网络。噪声图像集包括多个原始图像和每个原始图像对应的噪声图像,噪声图像是指对原始图像添加了噪声的图像。图像复原网络用于去除图像中的噪声。通过特征提取网络对各个噪声图像进行特征提取,获得各个噪声图像的图像特征,通过图像复原网络对各个噪声图像的图像特征进行噪声去除,获得各个噪声图像的去噪图像,根据各个噪声图像的去噪图像与各个噪声图像对应的原始图像之间的误差,调整特征提取网络和图像复原网络的参数。
为了更加清楚地说明本申请实施例提供的基于弱监督的目标检测模型训练方法,下面结合图4所示的目标检测模型的结构示意图,对基于弱监督的目标检测模型的训练过程进行进一步介绍。
S3.1、已标注的样本图像输入特征提取网络提取特征。
训练设备将样本图像集中的各个样本图像输入特征提取网络,输出各个样本图像的图像特征。其中,每个样本图像带有标签,标签的含义、样本图像集的获取方式请参照前文论述的内容,此处不再赘述。
S3.2、未标注的视频图像输入特征提取网络提取特征。
训练设备将样本视频集中的各帧视频图像输入特征提取网络,输出各帧视频图像的图像特征。其中,样本视频集的获取方式请参照前文论述的内容,此处不再赘述。
S3.3、将S3.1提取的特征输入目标检测网络,得到目标的预测位置。
训练设备将各个样本图像的图像特征输入目标检测网络,输出各个样本图像中目标的预测位置,其中,预测位置的含义请参照前文论述的内容,此处不再赘述。
S3.4、将S3.2提取的特征输入视频帧预测网络,得到预测视频图像。
训练设备将各帧视频图像的图像特征输入视频帧预测网络,对各帧视频图像的下一帧图像进行预测,输出各帧视频图像的预测视频图像。
S3.5、将S3.3得到的预测位置和实际位置做损失计算。
训练设备计算各个样本图像中目标的预测位置与对应标签指示的实际位置之间的误差。其中,如何计算误差请参照前文论述的内容,此处不再赘述。
S3.6、将S3.4得到的预测视频图像和下一帧视频图像做损失计算。
训练设备计算各帧视频图像的预测视频图像与各帧视频图像的下一帧视频图像之间的误差。如何计算误差请参照前文论述的内容,此处不再赘述。
S3.7、网络进行反向梯度传播,更新网络参数,进入下一轮训练迭代。
训练设备根据S3.5得到的误差更新特征提取网络和目标检测网络的参数,根据S3.6得到的误差更新特征提取网络和视频帧预测网络的参数,进入下一轮训练迭代,直到满足预设条件,训练结束,将训练后的特征提取网络和训练后的目标检测网络作为训练后的目标检测模型。其中,预设条件的含义请参照前文论述的内容,此处不再赘述。
基于同一发明构思,本申请实施例提供一种基于弱监督的目标检测方法,该方法包括:
训练设备获取待检测图像,将待检测图像输入训练后的目标检测模型,获得待检测图像中目标的位置。其中,训练后的目标检测模型是训练设备通过上述基于弱监督的目标检测模型训练方法训练得到的。
具体的,拍摄设备在实时拍摄到待检测图像之后,可以将待检测图像发送给训练设备,或者训练设备可以自行拍摄待检测图像。训练设备在获得待检测图像之后,将该待检测图像输入训练后的目标检测模型,通过训练后的特征提取网络进行特征提取处理,获得该待检测图像的图像特征,通过训练后的目标检测网络对该待检测图像的图像特征进行目标检测,获得该待检测图像中目标的位置,或者获得该待检测图像中目标的位置和类别。
在一种可能的实施例中,训练设备通过上述方法获得训练后的目标检测模型之后,可以将该训练后的目标检测模型发送给其他检测设备,由其他检测设备执行上述的目标检测方法。其他检测设备可以由终端或服务器实现。
作为一种示例,图2所述实施例中的拍摄设备以图1中的拍摄设备101为例,训练设备以图1中的训练设备102为例。
基于同一发明构思,本申请实施例提供一种基于弱监督的目标检测模型训练装置,目标检测模型包括特征提取网络、目标检测网络和视频帧预测网络,该装置设置在前文论述的训练设备中。请参照图5,该装置包括:
获取模块501,用于获取样本图像集和包括至少一段视频的样本视频集;其中,样本图像集包括多个带有标签的样本图像,标签基于对应的样本图像中目标的实际位置确定;
调整模块502,用于通过特征提取网络对各个样本图像进行特征提取,获得各个样本图像的图像特征,通过目标检测网络对各个样本图像的图像特征进行目标检测,获得各个样本图像中目标的预测位置,根据各个样本图像中目标的预测位置与对应标签指示的实际位置之间的误差,调整特征提取网络和目标检测网络的参数;
调整模块502,还用于通过特征提取网络对至少一段视频中各帧视频图像进行特征提取,获得各帧视频图像的图像特征,将各帧视频图像的图像特征输入视频帧预测网络,通过视频帧预测网络预测各帧视频图像的下一帧图像,获得各帧视频图像的预测视频图像,根据各帧视频图像的预测视频图像与各帧视频图像的下一帧视频图像之间的误差,调整特征提取网络和视频帧预测网络的参数;
获得模块503,用于直到目标检测模型满足预设条件,将训练后的特征提取网络和训练后的目标检测网络作为训练后的目标检测模型。
在一种可能的实施例中,标签基于对应的样本图像中目标的实际位置和实际类别确定;调整模块502还用于:
在通过目标检测网络对各个样本图像的第一图像特征进行目标检测,获得各个样本图像中目标的预测位置之后,获得各个样本图像中目标的预测类别;
在根据各个样本图像中目标的预测位置与对应标签指示的实际位置之间的误差,调整特征提取网络和目标检测网络的参数之后,根据各个样本图像中目标的预测类别与对应标签指示的实际类别之间的误差,调整特征提取网络和目标检测网络的参数。
在一种可能的实施例中,调整模块502具体用于:
若实际位置包括各个样本图像中目标所在的实际矩形框,预测位置包括各个样本图像中目标所在的预测矩形框,则根据各个样本图像中目标所在的预测矩形框与对应标签指示的实际矩形框之间的误差,调整特征提取网络和目标检测网络的参数;和/或,
若实际位置包括各个样本图像中目标所在的实际矩形框的位置信息,且预测位置包括各个样本图像中目标所在的预测矩形框的位置信息,则根据各个样本图像中目标所在的预测矩形框的位置信息与对应标签指示的实际矩形框的位置信息之间的误差,调整特征提取网络和目标检测网络的参数。
在一种可能的实施例中,样本图像集和样本视频集是分别从具有相同类别的背景参考物的两个场景中采集的。
在一种可能的实施例中,获得模块503还用于:
在将训练后的特征提取网络和训练后的目标检测网络作为训练后的目标检测模型之后,将训练后的特征提取网络和训练后的视频帧预测网络作为训练后的视频帧预测模型。其中,训练后的视频帧预测模型用于预测连续帧图像的下一帧图像。
在一种可能的实施例中,所述视频帧预测网络为时序记忆网络。
应当说明的是,图5中装置还可以用于实现前文论述的基于弱监督的目标检测模型训练方法,此处不再赘述。
基于同一发明构思,本申请提供一种基于弱监督的目标检测装置,包括:
获取模块601,用于获取待检测图像;
获得模块602,用于将所述待检测图像输入训练后的目标检测模型,获得所述待检测图像中目标的位置;其中,所述训练后的目标检测模型是通过前文论述的基于弱监督的目标检测模型训练方法训练得到的。
应当说明的是,图6中装置还可以用于实现前文论述的基于弱监督的目标检测方法,此处不再赘述。
基于同一发明构思,本申请实施例提供一种电子设备,请参照图7,该设备包括处理器701和存储器702。
存储器702,用于存储程序指令;
处理器701,用于调用存储器702中存储的程序指令,按照获得的程序指令执行前文所述的目标检测模型训练方法和/或目标检测方法。处理器701还可以实现图5和/或图6所示的装置中各个模块的功能。
本申请实施例中不限定处理器701与存储器702之间的具体连接介质,图7中是以处理器701和存储器702之间通过总线700连接为例。总线700在图7中以粗线表示,其它部件之间的连接方式,仅是进行示意性说明,并不引以为限。总线700可以分为地址总线、数据总线、控制总线等,为便于表示,图7中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。或者,处理器701也可以称为控制器,对于名称不做限制。
处理器701可以是通用处理器,例如中央处理器(CPU)、数字信号处理器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本申请实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的目标检测模型训练方法和/或目标检测方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器702作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器702可以包括至少一种类型的存储介质,例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(Random AccessMemory,RAM)、静态随机访问存储器(Static Random Access Memory,SRAM)、可编程只读存储器(Programmable Read Only Memory,PROM)、只读存储器(Read Only Memory,ROM)、带电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)、磁性存储器、磁盘、光盘等。存储器702是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。本申请实施例中的存储器702还可以是电路或者其它任意能够实现存储功能的装置,用于存储程序指令和/或数据。
基于同一发明构思,本申请实施例提供一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序包括程序指令,程序指令当被计算机执行时,使计算机执行如前文论述的目标检测模型训练方法和/或目标检测方法。由于上述计算机可读存储介质解决问题的原理与方法相似,因此上述计算机可读存储介质的实施可以参见方法的实施,重复之处不再赘述。
本领域内的技术人员应明白,本申请的实施例可提供为方法、***、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (11)

1.一种基于弱监督的目标检测模型训练方法,其特征在于,所述目标检测模型包括特征提取网络、目标检测网络和视频帧预测网络,所述方法包括:
获取样本图像集和包括至少一段视频的样本视频集;其中,所述样本图像集包括多个带有标签的样本图像,所述标签基于对应的样本图像中目标的实际位置确定;
通过所述特征提取网络对各个样本图像进行特征提取,获得各个样本图像的图像特征,通过所述目标检测网络对各个样本图像的图像特征进行目标检测,获得各个样本图像中目标的预测位置,根据各个样本图像中目标的预测位置与对应标签指示的实际位置之间的误差,调整所述特征提取网络和所述目标检测网络的参数;
通过所述特征提取网络对所述至少一段视频中各帧视频图像进行特征提取,获得各帧视频图像的图像特征,将各帧视频图像的图像特征输入所述视频帧预测网络,通过所述视频帧预测网络预测各帧视频图像的下一帧图像,获得各帧视频图像的预测视频图像,根据各帧视频图像的预测视频图像与各帧视频图像的下一帧视频图像之间的误差,调整所述特征提取网络和所述视频帧预测网络的参数;
直到所述目标检测模型满足预设条件,将训练后的特征提取网络和训练后的目标检测网络作为训练后的目标检测模型。
2.如权利要求1所述的方法,其特征在于,所述标签基于对应的样本图像中目标的实际位置和实际类别确定;在通过所述目标检测网络对各个样本图像的第一图像特征进行目标检测,获得各个样本图像中目标的预测位置之后,所述方法还包括:
获得各个样本图像中目标的预测类别;
在根据各个样本图像中目标的预测位置与对应标签指示的实际位置之间的误差,调整所述特征提取网络和所述目标检测网络的参数之后,所述方法还包括:
根据各个样本图像中目标的预测类别与对应标签指示的实际类别之间的误差,调整所述特征提取网络和所述目标检测网络的参数。
3.如权利要求1所述的方法,其特征在于,根据各个样本图像中目标的预测位置与对应标签指示的实际位置之间的误差,调整所述特征提取网络和所述目标检测网络的参数,包括:
若所述实际位置包括各个样本图像中目标所在的实际矩形框,所述预测位置包括各个样本图像中目标所在的预测矩形框,则根据各个样本图像中目标所在的预测矩形框与对应标签指示的实际矩形框之间的误差,调整所述特征提取网络和所述目标检测网络的参数;和/或,
若所述实际位置包括各个样本图像中目标所在的实际矩形框的位置信息,且所述预测位置包括各个样本图像中目标所在的预测矩形框的位置信息,则根据各个样本图像中目标所在的预测矩形框的位置信息与对应标签指示的实际矩形框的位置信息之间的误差,调整所述特征提取网络和所述目标检测网络的参数。
4.如权利要求1-3任一项所述的方法,其特征在于,所述样本图像集和所述样本视频集是分别从具有相同类别的背景参考物的两个场景中采集的。
5.如权利要求1-3任一项所述的方法,其特征在于,在将训练后的特征提取网络和训练后的目标检测网络作为训练后的目标检测模型之后,所述方法还包括:
将所述训练后的特征提取网络和训练后的视频帧预测网络作为训练后的视频帧预测模型;其中,所述训练后的视频帧预测模型用于预测连续帧图像的下一帧图像。
6.如权利要求1-3任一项所述的方法,其特征在于,所述视频帧预测网络为时序记忆网络。
7.一种基于弱监督的目标检测方法,其特征在于,所述方法包括:
获取待检测图像;
将所述待检测图像输入训练后的目标检测模型,获得所述待检测图像中目标的位置;其中,所述训练后的目标检测模型是通过如权利要求1-6中任一项所述的方法训练得到的。
8.一种基于弱监督的目标检测模型训练装置,其特征在于,所述目标检测模型包括特征提取网络、目标检测网络和视频帧预测网络,所述装置包括:
获取模块,用于获取样本图像集和包括至少一段视频的样本视频集;其中,所述样本图像集包括多个带有标签的样本图像,所述标签基于对应的样本图像中目标的实际位置确定;
调整模块,用于通过所述特征提取网络对各个样本图像进行特征提取,获得各个样本图像的图像特征,通过所述目标检测网络对各个样本图像的图像特征进行目标检测,获得各个样本图像中目标的预测位置,根据各个样本图像中目标的预测位置与对应标签指示的实际位置之间的误差,调整所述特征提取网络和所述目标检测网络的参数;
所述调整模块,还用于通过所述特征提取网络对所述至少一段视频中各帧视频图像进行特征提取,获得各帧视频图像的图像特征,将各帧视频图像的图像特征输入所述视频帧预测网络,通过所述视频帧预测网络预测各帧视频图像的下一帧图像,获得各帧视频图像的预测视频图像,根据各帧视频图像的预测视频图像与各帧视频图像的下一帧视频图像之间的误差,调整所述特征提取网络和所述视频帧预测网络的参数;
获得模块,用于直到所述目标检测模型满足预设条件,将训练后的特征提取网络和训练后的目标检测网络作为训练后的目标检测模型。
9.一种基于弱监督的目标检测装置,其特征在于,包括:
获取模块,用于获取待检测图像;
获得模块,用于将所述待检测图像输入训练后的目标检测模型,获得所述待检测图像中目标的位置;其中,所述训练后的目标检测模型是通过如权利要求1-6中任一项所述的方法训练得到的。
10.一种电子设备,其特征在于,包括:
存储器,用于存储程序指令;
处理器,用于调用存储器中存储的程序指令,按照获得的程序指令执行如权利要求1-6或7中任一项所述的方法。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被计算机执行时,使所述计算机执行如权利要求1-6或7中任一项所述的方法。
CN202210596349.0A 2022-05-30 2022-05-30 基于弱监督的目标检测模型训练方法、装置、设备及介质 Pending CN115082752A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210596349.0A CN115082752A (zh) 2022-05-30 2022-05-30 基于弱监督的目标检测模型训练方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210596349.0A CN115082752A (zh) 2022-05-30 2022-05-30 基于弱监督的目标检测模型训练方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN115082752A true CN115082752A (zh) 2022-09-20

Family

ID=83250228

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210596349.0A Pending CN115082752A (zh) 2022-05-30 2022-05-30 基于弱监督的目标检测模型训练方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN115082752A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116468985A (zh) * 2023-03-22 2023-07-21 北京百度网讯科技有限公司 模型训练方法、质量检测方法、装置、电子设备及介质
CN116628177A (zh) * 2023-05-22 2023-08-22 福建省网络与信息安全测评中心 针对网络安全平台的交互数据处理方法及***
CN117152692A (zh) * 2023-10-30 2023-12-01 中国市政工程西南设计研究总院有限公司 基于视频监控的交通目标检测方法及***

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116468985A (zh) * 2023-03-22 2023-07-21 北京百度网讯科技有限公司 模型训练方法、质量检测方法、装置、电子设备及介质
CN116468985B (zh) * 2023-03-22 2024-03-19 北京百度网讯科技有限公司 模型训练方法、质量检测方法、装置、电子设备及介质
CN116628177A (zh) * 2023-05-22 2023-08-22 福建省网络与信息安全测评中心 针对网络安全平台的交互数据处理方法及***
CN116628177B (zh) * 2023-05-22 2023-11-14 福建省网络与信息安全测评中心 针对网络安全平台的交互数据处理方法及***
CN117152692A (zh) * 2023-10-30 2023-12-01 中国市政工程西南设计研究总院有限公司 基于视频监控的交通目标检测方法及***
CN117152692B (zh) * 2023-10-30 2024-02-23 中国市政工程西南设计研究总院有限公司 基于视频监控的交通目标检测方法及***

Similar Documents

Publication Publication Date Title
CN109978893B (zh) 图像语义分割网络的训练方法、装置、设备及存储介质
CN109086873B (zh) 递归神经网络的训练方法、识别方法、装置及处理设备
CN111178183B (zh) 人脸检测方法及相关装置
CN109086811B (zh) 多标签图像分类方法、装置及电子设备
CN115082752A (zh) 基于弱监督的目标检测模型训练方法、装置、设备及介质
CN110245579B (zh) 人流密度预测方法及装置、计算机设备及可读介质
CN109800682B (zh) 驾驶员属性识别方法及相关产品
CN110096938B (zh) 一种视频中的动作行为的处理方法和装置
CN113095346A (zh) 数据标注的方法以及数据标注的装置
CN114331829A (zh) 一种对抗样本生成方法、装置、设备以及可读存储介质
CN111914908B (zh) 一种图像识别模型训练方法、图像识别方法及相关设备
CN112132130B (zh) 一种面向全场景的实时性车牌检测方法及***
CN110096617B (zh) 视频分类方法、装置、电子设备及计算机可读存储介质
CN111783712A (zh) 一种视频处理方法、装置、设备及介质
CN114550053A (zh) 一种交通事故定责方法、装置、计算机设备及存储介质
CN113313215B (zh) 图像数据处理方法、装置、计算机设备和存储介质
CN115953643A (zh) 基于知识蒸馏的模型训练方法、装置及电子设备
CN115187772A (zh) 目标检测网络的训练及目标检测方法、装置及设备
CN110490058B (zh) 行人检测模型的训练方法、装置、***和计算机可读介质
CN114064974A (zh) 信息处理方法、装置、电子设备、存储介质及程序产品
CN114170484B (zh) 图片属性预测方法、装置、电子设备和存储介质
CN114495006A (zh) 遗留物体的检测方法、装置及存储介质
CN112036381A (zh) 视觉跟踪方法、视频监控方法及终端设备
CN114445684A (zh) 车道线分割模型的训练方法、装置、设备及存储介质
CN114359618A (zh) 神经网络模型的训练方法、电子设备及计算机程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination