CN116935168B - 目标检测的方法、装置、计算机设备及存储介质 - Google Patents
目标检测的方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN116935168B CN116935168B CN202311176243.6A CN202311176243A CN116935168B CN 116935168 B CN116935168 B CN 116935168B CN 202311176243 A CN202311176243 A CN 202311176243A CN 116935168 B CN116935168 B CN 116935168B
- Authority
- CN
- China
- Prior art keywords
- data
- target detection
- branches
- training
- data set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 240
- 238000000034 method Methods 0.000 title claims description 59
- 238000012549 training Methods 0.000 claims abstract description 146
- 238000002372 labelling Methods 0.000 claims abstract description 72
- 230000011218 segmentation Effects 0.000 claims abstract description 72
- 230000015654 memory Effects 0.000 claims description 26
- 238000012545 processing Methods 0.000 claims description 10
- 238000004891 communication Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 5
- 230000006870 function Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 230000004888 barrier function Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000004821 distillation Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/0895—Weakly supervised learning, e.g. semi-supervised or self-supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及目标检测技术领域,公开了目标检测的方法、装置、计算机设备及存储介质,该方法包括:获取用于训练的分类数据集、语义分割数据集、部分标注数据集和标签宽泛数据集;根据多种数据集对目标检测模型进行训练;其中,分类数据集用于训练目标检测模型的分类分支和/或中心度分支,语义分割数据集用于训练目标检测模型的分类分支,部分标注数据集中的已标注数据以及标签宽泛数据集中与所需的标签相一致的数据用于训练目标检测模型的分类分支、边框回归分支和中心度分支;得到训练后的目标检测模型。本发明可以充分利用现有多种数据集的标注,能够利用多种数据集中的数据进行训练,训练效果较好,且不需要自己人工标注数据集。
Description
技术领域
本发明涉及目标检测技术领域,具体涉及目标检测的方法、装置、计算机设备及存储介质。
背景技术
随着深度学习的发展和算法的开源,数据的获取与标注,成为了项目乃至公司的真正技术壁垒。应运而生的自监督、半监督、弱监督、无监督、迁移、蒸馏等算法,是很多小项目的必备措施。就自动驾驶的场景而言,图像级别的公开数据集容易获取,基于该公开数据集可以实现目标检测。
但是现有的公开数据集标注质量良莠不齐,标注的类别定义也是五花八门,很难精准满足目标检测项目的需求,只能利用海量数据中很少一部分进行目标检测,导致目标检测效果较差;而自己标注数据集,则需要花费大量的成本。
发明内容
有鉴于此,本发明提供了一种目标检测的方法、装置、计算机设备及存储介质,以解决现有数据集不适用于目标检测的问题。
第一方面,本发明提供了一种目标检测的方法,所述方法包括:获取用于训练的多种数据集,所述多种数据集包括:分类数据集、语义分割数据集、部分标注数据集和标签宽泛数据集;根据所述多种数据集对目标检测模型进行训练;其中,所述目标检测模型为全卷积单阶段目标检测模型,所述分类数据集用于训练所述目标检测模型的分类分支和/或中心度分支,所述语义分割数据集用于训练所述目标检测模型的分类分支,所述部分标注数据集中的已标注数据用于训练所述目标检测模型的分类分支、边框回归分支和中心度分支,所述标签宽泛数据集中与所需的标签相一致的数据训练所述目标检测模型的分类分支、边框回归分支和中心度分支;得到训练后的目标检测模型;根据所述目标检测模型,对待识别图像进行目标检测,识别出所述待识别图像中的对象;
其中,所述方法还包括:预设初始的目标检测模型;
所述根据所述多种数据集对目标检测模型进行训练,包括:将所述初始的目标检测模型作为教师模型;根据所述数据集的标注情况,将所述数据集中的数据划分出标注区域和未标注区域;将所述标注区域内的锚点作为正样本锚点;根据所述教师模型对所述未标注区域进行目标检测,确定所述未标注区域中锚点的中心度;将中心度大于第一预设阈值的锚点作为具有伪标签的伪样本锚点,将中心度小于第二预设阈值的锚点作为负样本锚点;所述第一预设阈值大于或等于所述第二预设阈值;根据所述正样本锚点、所述伪样本锚点和所述负样本锚点进行半监督学习,得到相应的学生模型,所述学生模型为全卷积单阶段目标检测模型;
所述根据所述数据集的标注情况,将所述数据集中的数据划分出标注区域和未标注区域,包括:设置用于表示尺寸的超参数,并确定所述分类数据集中分类数据的中心坐标;将以所述中心坐标为中心,所述超参数范围内的区域作为所述分类数据的标注区域。
本实施例提供的目标检测的方法,采用FCOS模型作为待训练的目标检测模型,并利用分类数据集、语义分割数据集、部分标注数据集和标签宽泛数据集等多种数据集,分别对该目标检测模型的一个或多个分支进行学习训练,从而在单一数据集不能训练目标检测模型的情况下,也可训练得到所需的目标检测模型。本实施例中,已标注的数据集由于标注不完整,其并不适用于训练目标检测模型,但该方法可以综合利用这些已标注的数据集,基于FCOS模型实现对多种不同标注数据集的融合,从而训练得到能够完成目标检测任务的目标检测模型。该方法可以充分利用现有多种数据集的标注,能够利用多种数据集中的海量数据进行训练,训练效果较好,且不需要自己人工标注数据集。
利用半监督学习方法,可以从数据集中提取出更多可用于训练的伪样本锚点和负样本锚点,可以更加有效地利用公开数据集,适用于需要大量数据但时间紧张的目标检测项目。以分类数据的中心坐标为中心,可以简单且比较准确地确定适用于分类数据的标注区域。
在一些可选的实施方式中,所述根据所述数据集的标注情况,将所述数据集中的数据划分出标注区域和未标注区域,包括:根据所述教师模型对所述标签宽泛数据集中的标签宽泛数据进行目标检测,确定所述标签宽泛数据中边框的分类得分;在所述分类得分大于第三预设阈值的情况下,将所述边框所对应的区域作为所述标签宽泛数据的第一标注区域;所述标签宽泛数据集中第一标注区域的正样本锚点用于训练所述学生模型的分类分支、边框回归分支和中心度分支。
利用教师模型对标签宽泛数据的分类得分,可以从标签宽泛数据中提取出适用于训练分类分支、边框回归分支、中心度分支三个分支的正样本锚点,可以更好地进行训练。
在一些可选的实施方式中,所述根据所述数据集的标注情况,将所述数据集中的数据划分出标注区域和未标注区域,还包括:在所述分类得分小于第四预设阈值的情况下,将所述边框所对应的区域作为所述标签宽泛数据的第二标注区域;所述标签宽泛数据集中第二标注区域的正样本锚点用于训练所述学生模型的边框回归分支和中心度分支;所述第四预设阈值小于或等于所述第三预设阈值。
在一些可选的实施方式中,所述根据所述多种数据集对所述目标检测模型进行训练,还包括:对所述分类数据集中的分类数据进行弱监督分割处理,确定所述分类数据中的边框;所述分类数据的边框内的正样本锚点用于训练所述学生模型的分类分支、边框回归分支和中心度分支;对所述语义分割数据集中的语义分割数据进行弱监督分割处理,确定所述语义分割数据中的边框;所述语义分割数据的边框内的正样本锚点用于训练所述学生模型的分类分支、边框回归分支和中心度分支。
利用弱监督分割处理确定分类数据和语义分割数据中的边框,基于此可以对学生模型的分类分支、边框回归分支、中心度分支三个分支进行训练,能够比较充分利用这些公开数据集,可以提升目标检测模型的泛化能力。
在一些可选的实施方式中,所述部分标注数据中的伪样本锚点和负样本锚点用于训练所述学生模型的分类分支。
第二方面,本发明提供了一种目标检测的装置,所述装置包括:获取模块,用于获取用于训练的多种数据集,所述多种数据集包括:分类数据集、语义分割数据集、部分标注数据集和标签宽泛数据集;训练模块,用于根据所述多种数据集对目标检测模型进行训练,得到训练后的目标检测模型;其中,所述目标检测模型为全卷积单阶段目标检测模型,所述分类数据集用于训练所述目标检测模型的分类分支和/或中心度分支,所述语义分割数据集用于训练所述目标检测模型的分类分支,所述部分标注数据集中的已标注数据用于训练所述目标检测模型的分类分支、边框回归分支和中心度分支,所述标签宽泛数据集中与所需的标签相一致的数据训练所述目标检测模型的分类分支、边框回归分支和中心度分支;根据所述目标检测模型,对待识别图像进行目标检测,识别出所述待识别图像中的对象;预设模块,用于预设初始的目标检测模型;
所述训练模块根据所述多种数据集对所述目标检测模型进行训练,包括:将所述初始的目标检测模型作为教师模型;根据所述数据集的标注情况,将所述数据集中的数据划分出标注区域和未标注区域;将所述标注区域内的锚点作为正样本锚点;根据所述教师模型对所述未标注区域进行目标检测,确定所述未标注区域中锚点的中心度;将中心度大于第一预设阈值的锚点作为具有伪标签的伪样本锚点,将中心度小于第二预设阈值的锚点作为负样本锚点;所述第一预设阈值大于或等于所述第二预设阈值;根据所述正样本锚点、所述伪样本锚点和所述负样本锚点进行半监督学习,得到相应的学生模型,所述学生模型为全卷积单阶段目标检测模型;
所述训练模块根据所述数据集的标注情况,将所述数据集中的数据划分出标注区域和未标注区域,包括:设置用于表示尺寸的超参数,并确定所述分类数据集中分类数据的中心坐标;将以所述中心坐标为中心,所述超参数范围内的区域作为所述分类数据的标注区域。
第三方面,本发明提供了一种计算机设备,包括:存储器和处理器,存储器和处理器之间互相通信连接,存储器中存储有计算机指令,处理器通过执行计算机指令,从而执行上述第一方面或其对应的任一实施方式的目标检测的方法。
第四方面,本发明提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机指令,计算机指令用于使计算机执行上述第一方面或其对应的任一实施方式的目标检测的方法。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的训练目标检测模型的方法的流程示意图;
图2是根据本发明实施例的另一训练目标检测模型的方法的流程示意图;
图3是本发明实施例提供的部分标注数据的一种示意图;
图4是本发明实施例提供的对部分标注数据进行目标检测的一种示意图;
图5是根据本发明实施例的训练目标检测模型的装置的结构框图;
图6是本发明实施例的计算机设备的硬件结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在进行目标检测时,需要公开数据集中的数据是完整标注的数据,完整标注的数据具有标签(label)、边框(bounding box)等关键字段;但是,现有的部分公开数据集标注较差,其并不具有完整的标注。例如,对于分类数据,其只标注有标签,而不存在边框。
目前一般通过半监督的方法,试图采用少量的完整标注数据,和大量的未标注数据进行目标检测,以此减少标注的工作量。然而,由于半监督方法与全监督方法的差距较大,导致目标检测的效果较差。
基于此,本发明实施例提供一种训练目标检测模型的方法,该目标检测模型为全卷积单阶段目标检测模型,即FCOS(Fully Convolutional One-Stage)模型,通过训练得到FCOS模型,可以利用训练后的FCOS模型进行目标检测。
FCOS模型是Anchor-free的检测模型,即不需要锚框(Anchor box),将原有的对锚框进行分类与回归,变为对锚点进行分类与回归,其回归是预测特征图中各锚点到边框上下左右边界的四个距离值l、r、t、b,其中,l表示锚点到边框左边界(left)的距离,r表示锚点到边框右边界(right)的距离,t表示锚点到边框上边界(top)的距离,b表示锚点到边框下边界(bottom)的距离。
FCOS模型包含三个分支:分类(classification)分支、边框回归(regression)分支和中心度(center-ness)分支。其中,分类分支用于对各锚点的类别进行预测;边框回归分支用于对各锚点的边框大小进行预测,即预测锚点到边框上下左右四条边界的四个距离值l、r、t、b;中心度分支用于预测各锚点的中心度,一个锚点对应一个中心度,该中心度可以表示锚点相对于边框的中心性。其中,若某锚点所对应边框的四个值分别为:、/>、/>、,则该锚点的中心度/>可表示为:
。
相应地,FCOS模型的三个分支具有相应的损失函数;例如,分类分支的损失函数为Lcls、边框回归分支的损失函数为Lreg,中心度分支的损失函数为Lctr。FCOS模型的损失由这三个分支的损失函数共同组成。本实施例对该损失函数不做详述。
本实施例提供的训练目标检测模型的方法,利用多种不同类型的数据集,分别对FCOS模型的相应分支进行训练,从而得到能够进行目标检测的目标检测模型,该方法可以充分利用公开的多种数据集。
根据本发明实施例,提供了一种训练目标检测模型的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
在本实施例中提供了一种训练目标检测模型的方法,可用于计算机或服务器等。图1是根据本发明实施例的训练目标检测模型的方法的流程图,如图1所示,该流程包括如下步骤。
步骤S102,获取用于训练的多种数据集,该多种数据集包括:分类数据集、语义分割数据集、部分标注数据集和标签宽泛数据集。
本实施例中,训练所用的数据集包含有多种,该数据集可以为公开的数据集,也可以是自己标注的私有数据集,本实施例对此不做限定;一般情况下,采用网络上公开的数据集即可实现训练。在获取到这些数据集后,可以通过人为划分的方式,或者基于数据集的介绍或数据集中数据的特点,对这些数据集进行分类,以确定哪些数据集属于分类数据集,哪些数据集属于语义分割数据集等。
本实施例中,所使用的数据集至少包括四类:分类数据集、语义分割数据集、部分标注数据集和标签宽泛数据集;不同类别的数据集,其标注的类别和标注形式一般也是不同的。
分类数据集包括多个分类数据,该分类数据集一般用于训练分类模型。该分类数据具体可以是图像,其整体标注有标签,但未标注边框。
语义分割数据集包括多个语义分割数据,该语义分割数据集一般用于训练语义分割模型。该语义分割数据具体可以是图像,其对分割出的每类对象标注有不同的标签,并分割出每类对象所在位置;其中,语义分割数据一般不区分同一类的不同对象。
部分标注数据集包括多个部分标注数据,该部分标注数据集一般用于训练目标检测模型,即其中的部分标注数据标注有标签和边框,但该部分标注数据只标注出了部分类别的对象。例如,当前需要训练适用于自动驾驶场景的目标检测模型,需要该目标检测模型能够检测出图像中的车辆、人体、周围建筑物等;但若某目标检测数据集A是用于实现人体检测的,该目标检测数据集A中只标注了人体,而未标注车辆、建筑物等;因此,在训练自动驾驶场景的目标检测模型时,该目标检测数据集A属于一种部分标注数据集。可以理解,该部分标注数据集是相对于当前需要训练的目标检测模型的需求而言的。
标签宽泛数据集包括多个标签宽泛数据,该标签宽泛数据集一般也用于训练目标检测模型,即其中的标签宽泛数据标注有标签和边框,但顾名思义,该标签宽泛数据的标签较宽泛。例如,当前需要训练能够识别不同种类车辆的目标检测模型,需要该目标检测模型能够检测出图像中不同种类的车辆,并打上相应的标签;但若某目标检测数据集B是用于实现自动驾驶场景中目标检测的,其只是简单标注了哪些对象是车辆,而未对不同种类的车辆进行细分;换句话说,目标检测数据集B只是宽泛地标注了车辆(car),而未具体标注该车辆具体属于公共汽车(bus)、出租车(taxi)等。因此,在训练能够识别不同种类车辆的目标检测模型时,该目标检测数据集B属于一种标签宽泛数据集。可以理解,该标签宽泛数据集也是相对于当前需要训练的目标检测模型的需求而言的。
步骤S104,根据多种数据集对目标检测模型进行训练;其中,分类数据集用于训练目标检测模型的分类分支和/或中心度分支,语义分割数据集用于训练目标检测模型的分类分支,部分标注数据集中的已标注数据用于训练目标检测模型的分类分支、边框回归分支和中心度分支,标签宽泛数据集中与所需的标签相一致的数据训练目标检测模型的分类分支、边框回归分支和中心度分支。
一般情况下,单独的分类数据集、语义分割数据集、部分标注数据集或标签宽泛数据集,由于这些数据集的标注不完整,其与目标检测模型的需求存在差异,一般不用于进行目标检测。而本实施例中,结合这些不同种类的数据集,利用FCOS模型可以进行模型训练,进而能够实现目标检测。
本实施例中,在基于这些数据集对目标检测模型进行训练时,即在基于这些数据集对FCOS模型进行训练时,基于每种数据集各自的特点,训练FCOS模型的部分或全部分支,从而实现对FCOS模型的训练,且使得训练后的FCOS模型能够符合需求。
具体地,分类数据集中的分类数据标注有标签,故基于标注有标签的分类数据可以对目标检测模型的分类分支进行训练;此外,由于分类数据中的对象一般位于图像中央,故还可以为分类数据设置位于中央位置的边框,基于该边框对目标检测模型的中心度分支进行训练。由于该边框不能准确表示对象的位置,故不宜用于训练目标检测模型的边框回归分支。
语义分割数据集与分类数据集相似,语义分割数据中的对象标注有标签,故基于标注有标签的语义分割数据也可以对目标检测模型的分类分支进行训练。但由于语义分割数据中不区分同一类的不同对象,例如,对于图像中相互靠近且部分重叠的两个人体,语义分割数据中会将这两个人体标注为一个对象,且标签为人体(person),因此,语义分割数据不宜用于训练目标检测模型的中心度分支和边框回归分支。
部分标注数据集中存在已标注数据,即标注有标签和边框的数据,该已标注数据是部分标注数据中的一部分;可以理解,该已标注数据是完整标注数据,其可对目标检测模型进行完整训练,即可以训练目标检测模型的分类分支、边框回归分支和中心度分支。
对于标签宽泛数据集,本实施例中,需要确定与该目标检测模型所需的标签相一致的数据,基于该数据对目标检测模型进行训练。其中,虽然该数据的标签宽泛,但其并不影响边框的准确性;若该数据宽泛的标签与所需的标签相一致,则可认为从该标签宽泛数据集中可以提取出标注有准确标签、准确边框的数据,与上述的已标注数据相似,该数据也可对目标检测模型进行完整训练,即可以训练目标检测模型的分类分支、边框回归分支和中心度分支。
其中,由于FCOS模型的三个分支具有相应的损失函数,FCOS模型的损失由这三个分支的损失函数共同组成,例如,FCOS模型的损失LFCOS= Lcls+ Lreg+ Lctr;通过为不同的数据集设置不同的损失函数,即可实现对相应分支的训练。例如,若分类数据集用于训练目标检测模型的分类分支和中心度分支,则该分类数据集对应的损失函数可表示为L = Lcls+Lctr。
步骤S106,得到训练后的目标检测模型。
本实施例中,利用类数据集、语义分割数据集、部分标注数据集和标签宽泛数据集分别对目标检测模型的一个或多个分支进行学习训练,最终可以综合多种数据集的数据,训练得到所需的目标检测模型。在得到该目标检测模型之后,即可基于该目标检测模型进行目标检测。
本实施例提供的训练目标检测模型的方法,采用FCOS模型作为待训练的目标检测模型,并利用分类数据集、语义分割数据集、部分标注数据集和标签宽泛数据集等多种数据集,分别对该目标检测模型的一个或多个分支进行学习训练,从而在单一数据集不能训练目标检测模型的情况下,也可训练得到所需的目标检测模型。本实施例中,已标注的数据集由于标注不完整,其并不适用于训练目标检测模型,但该方法可以综合利用这些已标注的数据集,基于FCOS模型实现对多种不同标注数据集的融合,从而训练得到能够完成目标检测任务的目标检测模型。该方法可以充分利用现有多种数据集的标注,能够利用多种数据集中的海量数据进行训练,训练效果较好,且不需要自己人工标注数据集。
在本实施例中提供了一种训练目标检测模型的方法,可用于计算机或服务器等,图2是根据本发明实施例的训练目标检测模型的方法的流程图,如图2所示,该流程包括如下步骤。
步骤S202,获取用于训练的多种数据集,该多种数据集包括:分类数据集、语义分割数据集、部分标注数据集和标签宽泛数据集。
其中,详细请参见图1所示实施例的步骤S102,在此不再赘述。
步骤S203,预设初始的目标检测模型。
本实施例中,可以预先确定该目标检测模型的初始模型,即初始的目标检测模型,可以理解,该初始的目标检测模型也是FCOS模型。其中,该初始的目标检测模型可以是已有的FCOS模型;或者,该初始的目标检测模型可以是基于少量完全标注的数据所训练得到的模型;或者,该初始的目标检测模型也可以是融合上述多种数据集中的部分数据所训练得到的模型,例如,利用部分标注数据集中的已标注数据所训练得到的模型。本实施例对获取该初始的目标检测模型的方式不做限定。
步骤S204,根据多种数据集对目标检测模型进行训练;其中,分类数据集用于训练目标检测模型的分类分支和/或中心度分支,语义分割数据集用于训练目标检测模型的分类分支,部分标注数据集中的已标注数据用于训练目标检测模型的分类分支、边框回归分支和中心度分支,标签宽泛数据集中与所需的标签相一致的数据训练目标检测模型的分类分支、边框回归分支和中心度分支。
本实施例中,上述步骤S204“根据多种数据集对目标检测模型进行训练”可以包括以下步骤S2041至步骤S2045。
步骤S2041,将初始的目标检测模型作为教师模型。
本实施例中,采用半监督学习的方式实现对目标检测模型的训练。具体地,在确定初始的目标检测模型后,将该初始的目标检测模型作为半监督学习中的教师(teacher)模型。
步骤S2042,根据数据集的标注情况,将数据集中的数据划分出标注区域和未标注区域;将标注区域内的锚点作为正样本锚点。
本实施例中,不同种类的数据集,其中的数据各自具有相应的标注情况,基于该标注情况可以确定哪些区域是标注有标签和边框的区域,将该区域作为标注区域,即标注区域是标注有标签和边框的区域;相应地,除该标注区域之外的区域,称为未标注区域。可以理解,由于该标注区域内的锚点是标注完整的,故标注区域内的锚点可以作为训练时的正样本,即正样本锚点。
例如,对于部分标注数据集中的部分标注数据,其中部分对象标注有标签和边框,故可以将该对象的边框所对应的区域作为标注区域。例如,参见图3所示,部分标注数据为一张部分标注的图像301,该图像301中具有一建筑物和一人体,其中建筑物标注有标签(building)和边框302,而人体未被标注;故,在边框302内的区域可作为标注区域,在边框302之外的区域可作为未标注区域。
对于语义分割数据集,基于语义分割出的对象所在的位置,即可确定该对象所对应的边框,进而将边框内的区域作为语义分割数据的标注区域。
在一些可选的实施方式中,上述步骤S2042“根据数据集的标注情况,将数据集中的数据划分出标注区域和未标注区域”可以包括以下步骤A1至步骤A2。
步骤A1,设置用于表示尺寸的超参数,并确定分类数据集中分类数据的中心坐标。
步骤A2,将以中心坐标为中心,超参数范围内的区域作为分类数据的标注区域。
本实施例中,由于分类数据未标注有边框,但分类数据中的对象一般位于图像中间位置,故可以为分类数据集设置超参数,该超参数表示尺寸大小,例如,该超参数为边长或半径等。基于该分类数据的中心坐标以及该超参数,即可确定以中心坐标为中心,超参数范围内的区域,将该区域作为分类数据的标注区域。例如,超参数表示半径,则可将以中心坐标为中心,以该超参数为半径的圆形区域作为分类数据的标注区域。本实施例以分类数据的中心坐标为中心,可以简单且比较准确地确定适用于分类数据的标注区域。
步骤S2043,根据教师模型对未标注区域进行目标检测,确定未标注区域中锚点的中心度。
本实施例中,在确定数据的未标注区域后,利用教师模型对未标注区域进行目标检测,基于教师模型的输出结果即可确定未标注区域内每个锚点的中心度。其中,教师模型可以只对未标注区域进行目标检测;或者,也可以将完整的数据(包括标注区域和未标注区域)输入至教师模型,基于教师模型的输出结果可以确定其中未标注区域中锚点的中心度。
实际情况下,分类数据集中,部分分类数据可能存在多个对象,该分类数据的标签只能表示其中一个对象,其余对象未被标注;类似地,语义分割数据集、标签宽泛数据集中也可能存在相似的问题。换句话说,分类数据集、语义分割数据集、标签宽泛数据集,三者均可能存在标注不全的情况,即存在部分标注的数据,其与部分标注数据集所存在的问题相似。
因此,若分类数据集、语义分割数据集、标签宽泛数据集等也存在部分标注的情况,则未标注区域中可能存在未被标注的对象,通过对未标注区域进行目标检测,可以初步识别出其中的未被标注的对象,基于识别出的未被标注的对象进行半监督学习。
可以理解,若分类数据集等标注完整,其不存在部分标注的问题,根据教师模型对未标注区域进行目标检测,一般不会识别出其中存在未被标注的对象。因此,无论分类数据集等是否存在部分标注的问题,均可以根据教师模型对分类数据集等的未标注区域进行目标检测,其与分类数据集等是否存在部分标注问题无关。
步骤S2044,将中心度大于第一预设阈值的锚点作为具有伪标签的伪样本锚点,将中心度小于第二预设阈值的锚点作为负样本锚点;第一预设阈值大于或等于第二预设阈值。
本实施例中,基于锚点中心度的大小,从中选取出可以标注伪标签的锚点。具体地,若锚点的中心度大于第一预设阈值,则可认为该锚点能够比较好地表示图像中对象的位置,故可以为该锚点设置伪标签,将该锚点作为伪样本锚点。类似地,若锚点的中心度小于第二预设阈值,则可认为该锚点不宜用于表示图像中对象的位置,或者说,该锚点处不存在对象,故可以将该锚点设置为负样本,即负样本锚点。其中,第一预设阈值大于或等于第二预设阈值;一般情况下,第一预设阈值大于第二预设阈值。例如,第一预设阈值为0.6,第二预设阈值为0.2。
例如,参见图3所示,若部分标注数据为一张图像301,其未标注区域为边框302之外的其他区域。基于教师模型对该图像301进行目标检测,识别出其中存在人体;参见图4所示,教师模型所标注的边框以303表示。在该边框303内,距离边框303中心越近的锚点,其中心度越大,即距离边框303中心越近的锚点,越有可能作为伪样本锚点。该边框303内中心度小于第二预设阈值的锚点,作为负样本锚点;并且,位于边框303之外的锚点,属于该图像301的背景,也可作为负样本锚点。
传统的半监督方法,由于其是从图像级别的视野进行区分的,图像中的物体要么都标注,要么都没有标注,具有一定的局限性。本实施例中,可以将数据集中的数据划分为标注区域、伪样本锚点所在区域、负样本锚点所在的背景区域三种,基于三种区域中不同的锚点实现对目标检测模型的训练;这种标注方式可以表示特征点级别的标注差别,能够将一张图像区分为部分标注、部分未标注、或者部分标注不完善,标注更加精细、准确,可以实现特征点级的半监督学习。
步骤S2045,根据正样本锚点、伪样本锚点和负样本锚点进行半监督学习,得到相应的学生模型,学生模型为全卷积单阶段目标检测模型。
本实施例中,基于半监督学习的思想,除了设置教师模型之外,还需设置学生(student)模型;在初始时,该学生模型可以与教师模型相同,也可以是单独设置的目标检测模型,本实施例对此不做限定;可以理解,该学生模型与教师模型均是FCOS模型。
对于每一类数据集,确定其中的正样本锚点、伪样本锚点和负样本锚点后,即可进行半监督学***均)方式定期把参数更新到教师模型;之后再利用教师模型重新确定伪样本锚点等,再次对学生模型进行训练,如此重复数次,最终可以得到训练后的目标检测模型。例如,可以将最终训练得到的学生模型或教师模型作为所需的目标检测模型。其中,基于半监督学习对学生模型、教师模型进行训练是本领域的成熟技术,本实施例对此不做详述。
本实施例提供的训练目标检测模型的方法,利用半监督学习方法,可以从数据集中提取出更多可用于训练的伪样本锚点和负样本锚点,可以更加有效地利用公开数据集,适用于需要大量数据但时间紧张的目标检测项目。
其中,在确定标注区域时,对于标签宽泛数据集,可以采用与确定部分标注数据集中标注区域的相似过程,确定标签宽泛数据的标注区域;例如,将标签宽泛数据中所有边框内的区域作为标注区域。在一些可选的实施方式中,为能够比较好地识别出标签宽泛数据集中与所需的标签相一致的数据,可以利用教师模型对标签宽泛数据中的边框进行划分。具体地,上述步骤S2042“根据数据集的标注情况,将数据集中的数据划分出标注区域和未标注区域”可以包括以下步骤B1至步骤B2。
步骤B1,根据教师模型对标签宽泛数据集中的标签宽泛数据进行目标检测,确定标签宽泛数据中边框的分类得分。
步骤B2,在分类得分大于第三预设阈值的情况下,将边框所对应的区域作为标签宽泛数据的第一标注区域;标签宽泛数据集中第一标注区域的正样本锚点用于训练学生模型的分类分支、边框回归分支和中心度分支。
本实施例中,由于FCOS模型具有分类分支、边框回归分支、中心度分支三个分支,故基于属于FCOS模型的教师模型对标签宽泛数据进行目标检测时,可以得到该教师模型对标签宽泛数据中每个边框的分类得分(score),该分类得分越高,说明教师模型越能够准确地检测出该边框,且不易受该边框本身具有的宽泛标签的影响。在这种情况下,该边框所对应的区域可以作为标签宽泛数据的标注区域,本实施例称之为第一标注区域。由于该第一标注区域的正样本锚点本身标注有合适的边框,故其可用于训练边框回归分支、中心度分支;并且,由于教师模型可以比较准确地识别第一标注区域内锚点的分类,故该第一标注区域内的正样本锚点还可用于训练学生模型的分类分支。
本实施例利用教师模型对标签宽泛数据的分类得分,可以从标签宽泛数据中提取出适用于训练分类分支、边框回归分支、中心度分支三个分支的正样本锚点,可以更好地进行训练。
在一些可选的实施方式中,上述步骤S2042“根据数据集的标注情况,将数据集中的数据划分出标注区域和未标注区域”可以包括以下步骤B3。
步骤B3,在分类得分小于第四预设阈值的情况下,将边框所对应的区域作为标签宽泛数据的第二标注区域;标签宽泛数据集中第二标注区域的正样本锚点用于训练学生模型的边框回归分支和中心度分支;第四预设阈值小于或等于第三预设阈值。
本实施例中,在根据教师模型确定标签宽泛数据中边框的分类得分之后,若该分类得分小于第四预设阈值,则说明教师模型不太能准确确定该边框内对象的分类,故该边框内的锚点不易用于训练分类分支;但由于该边框本身仍然是准确的,故这些锚点仍然可以训练边框回归分支和中心度分支。因此,对于标签宽泛数据集中第二标注区域内的正样本锚点,其可用于训练学生模型的边框回归分支和中心度分支,不训练分类分支。
其中,该第四预设阈值小于或等于第三预设阈值;一般情况下,该第四预设阈值可以等于第三预设阈值,即将边框内除第一标注区域之外的其他区域,作为第二标注区域。例如,该第三预设阈值和第四预设阈值均为0.8。
例如,若标签宽泛数据中标注有对某车辆的标签,且标签为车辆(car);经教师模型进行目标检测后,教师模型的输出结果表示该车的分类标签为更准确的公共汽车(bus),且其分类得分超过0.8,故可以将该标签宽泛数据中该车辆的标签更改为公共汽车(bus),且相应边框内的区域即为第一标注区域。相反地,若教师模型的分类得分小于0.8,则将相应边框内的区域作为第二标注区域。
可以理解,对于其他数据集,从中确定的正样本锚点、负样本锚点等,也分别用于训练学生模型的相应分支。例如,从分类数据集中提取出的正样本锚点,其用于训练学生模型的分类分支和/或中心度分支;从语义分割数据集中提取出的正样本锚点,其用于训练学生模型的分类分支。
在一些可选的实施方式中,上述步骤S204“根据多种数据集对目标检测模型进行训练”除了可以包括步骤S2041至步骤S2045之外,还可以包括以下步骤C1至步骤C2。
步骤C1,对分类数据集中的分类数据进行弱监督分割处理,确定分类数据中的边框;分类数据的边框内的正样本锚点用于训练学生模型的分类分支、边框回归分支和中心度分支。
步骤C2,对语义分割数据集中的语义分割数据进行弱监督分割处理,确定语义分割数据中的边框;语义分割数据的边框内的正样本锚点用于训练学生模型的分类分支、边框回归分支和中心度分支。
本实施例中,对于分类数据集或语义分割数据集中的数据,可以采用弱监督分割的处理方式,确定这些数据中的边框,从而可以为分类数据和语义分割数据标注比较准确的边框;该边框内的锚点除了可以训练分类分支之外,还可以训练边框回归分支和中心度分支,即该边框内的正样本锚点能够训练学生模型的分类分支、边框回归分支和中心度分支。
本实施例中,分类数据集用于训练分类分支和/或中心度分支;在基于弱监督分割处理确定边框的情况下,该边框内的正样本锚点还可用于训练边框回归分支。
语义分割数据集用于训练分类分支;与分类数据集相似,在弱监督分割处理确定边框的情况下,该边框内的正样本锚点还可用于训练边框回归分支,以及中心度分支。
部分标注数据集中的已标注数据用于训练目标检测模型的分类分支、边框回归分支和中心度分支。其中,已标注数据所对应的区域均为标注区域,其均可作为正样本锚点;通过教师模型可以确定未标注数据中的伪样本锚点和负样本锚点,这些伪样本锚点和负样本锚点主要用于训练学生模型的分类分支。
标签宽泛数据集中与所需的标签相一致的数据(例如,分类得分大于第三预设阈值的锚点)作为正样本锚点,训练分类分支、边框回归分支和中心度分支;并且,分类得分小于第四预设阈值的锚点也作为正样本锚点,只是该种正样本锚点只训练边框回归分支和中心度分支。此外,基于教师模型进行目标检测可以识别出其中的伪样本锚点和负样本锚点,这些伪样本锚点和负样本锚点可以主要用于训练学生模型的分类分支。
本实施例提供的训练目标检测模型的方法,利用弱监督分割处理确定分类数据和语义分割数据中的边框,基于此可以对学生模型的分类分支、边框回归分支、中心度分支三个分支进行训练,能够比较充分地利用这些公开数据集,可以提升目标检测模型的泛化能力。
步骤S206,得到训练后的目标检测模型。
详细请参见图1所示实施例的步骤S106,在此不再赘述。
本实施例中提供的训练目标检测模型的方法,本质上是利用部分标注的数据,学会完整类别检测,从而可以满足完整类别检测的需求。该方法以半监督学习为整体框架,结合弱监督等算法,可以实现端到端的目标检测模型训练,没有复杂的中间过程,简单易用。
基于同样的发明构思,在本实施例中还提供了一种目标检测的方法,该方法可应用于能够实现目标检测的设备,例如移动终端、计算机等。该方法包括:根据目标检测模型,对待识别图像进行目标检测,识别出该待识别图像中的对象。其中,该目标检测模型是基于上述任一实施例提供的训练目标检测模型的方法所得到的。
其中,在需要识别出待识别图像中的对象时,其中,该待识别图像例如可以是自动驾驶场景中相机采集到的环境图像,其中存在车辆、人体等对象,将该待识别图像输入至训练好的目标检测模型,即可识别出其中的对象。
在本实施例中还提供了一种训练目标检测模型的装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
本实施例提供一种训练目标检测模型的装置,该目标检测模型为全卷积单阶段目标检测模型,如图5所示,该装置包括:
获取模块501,用于获取用于训练的多种数据集,所述多种数据集包括:分类数据集、语义分割数据集、部分标注数据集和标签宽泛数据集;
训练模块502,用于根据所述多种数据集对所述目标检测模型进行训练,得到训练后的目标检测模型;其中,所述分类数据集用于训练所述目标检测模型的分类分支和/或中心度分支,所述语义分割数据集用于训练所述目标检测模型的分类分支,所述部分标注数据集中的已标注数据用于训练所述目标检测模型的分类分支、边框回归分支和中心度分支,所述标签宽泛数据集中与所需的标签相一致的数据训练所述目标检测模型的分类分支、边框回归分支和中心度分支。
在一些可选的实施方式中,所述装置还包括:预设模块,用于预设初始的目标检测模型。
并且,所述训练模块502根据所述多种数据集对所述目标检测模型进行训练,包括:
将所述初始的目标检测模型作为教师模型;
根据所述数据集的标注情况,将所述数据集中的数据划分出标注区域和未标注区域;将所述标注区域内的锚点作为正样本锚点;
根据所述教师模型对所述未标注区域进行目标检测,确定所述未标注区域中锚点的中心度;
将中心度大于第一预设阈值的锚点作为具有伪标签的伪样本锚点,将中心度小于第二预设阈值的锚点作为负样本锚点;所述第一预设阈值大于或等于所述第二预设阈值;
根据所述正样本锚点、所述伪样本锚点和所述负样本锚点进行半监督学习,得到相应的学生模型,所述学生模型为全卷积单阶段目标检测模型。
在一些可选的实施方式中,所述训练模块502根据所述数据集的标注情况,将所述数据集中的数据划分出标注区域和未标注区域,包括:
设置用于表示尺寸的超参数,并确定所述分类数据集中分类数据的中心坐标;
将以所述中心坐标为中心,所述超参数范围内的区域作为所述分类数据的标注区域。
在一些可选的实施方式中,所述训练模块502根据所述数据集的标注情况,将所述数据集中的数据划分出标注区域和未标注区域,包括:
根据所述教师模型对所述标签宽泛数据集中的标签宽泛数据进行目标检测,确定所述标签宽泛数据中边框的分类得分;
在所述分类得分大于第三预设阈值的情况下,将所述边框所对应的区域作为所述标签宽泛数据的第一标注区域;所述标签宽泛数据集中第一标注区域的正样本锚点用于训练所述学生模型的分类分支、边框回归分支和中心度分支。
在一些可选的实施方式中,所述训练模块502根据所述数据集的标注情况,将所述数据集中的数据划分出标注区域和未标注区域,还包括:
在所述分类得分小于第四预设阈值的情况下,将所述边框所对应的区域作为所述标签宽泛数据的第二标注区域;所述标签宽泛数据集中第二标注区域的正样本锚点用于训练所述学生模型的边框回归分支和中心度分支;所述第四预设阈值小于或等于所述第三预设阈值。
在一些可选的实施方式中,所述训练模块502根据所述多种数据集对所述目标检测模型进行训练,还包括:
对所述分类数据集中的分类数据进行弱监督分割处理,确定所述分类数据中的边框;所述分类数据的边框内的正样本锚点用于训练所述学生模型的分类分支、边框回归分支和中心度分支;
对所述语义分割数据集中的语义分割数据进行弱监督分割处理,确定所述语义分割数据中的边框;所述语义分割数据的边框内的正样本锚点用于训练所述学生模型的分类分支、边框回归分支和中心度分支。
在一些可选的实施方式中,所述部分标注数据中的伪样本锚点和负样本锚点用于训练所述学生模型的分类分支。
上述各个模块和单元的更进一步的功能描述与上述对应实施例相同,在此不再赘述。
本实施例中的训练目标检测模型的装置是以功能单元的形式来呈现,这里的单元是指ASIC(Application Specific Integrated Circuit,专用集成电路)电路,执行一个或多个软件或固定程序的处理器和存储器,和/或其他可以提供上述功能的器件。
本发明实施例还提供一种计算机设备,具有上述图5所示的训练目标检测模型的装置。
请参阅图6,图6是本发明可选实施例提供的一种计算机设备的结构示意图,如图6所示,该计算机设备包括:一个或多个处理器10、存储器20,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相通信连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在计算机设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在一些可选的实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个计算机设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器***)。图6中以一个处理器10为例。
处理器10可以是中央处理器,网络处理器或其组合。其中,处理器10还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路,可编程逻辑器件或其组合。上述可编程逻辑器件可以是复杂可编程逻辑器件,现场可编程逻辑门阵列,通用阵列逻辑或其任意组合。
其中,所述存储器20存储有可由至少一个处理器10执行的指令,以使所述至少一个处理器10执行实现上述实施例示出的方法。
存储器20可以包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需要的应用程序;存储数据区可存储根据计算机设备的使用所创建的数据等。此外,存储器20可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些可选的实施方式中,存储器20可选包括相对于处理器10远程设置的存储器,这些远程存储器可以通过网络连接至该计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
存储器20可以包括易失性存储器,例如,随机存取存储器;存储器也可以包括非易失性存储器,例如,快闪存储器,硬盘或固态硬盘;存储器20还可以包括上述种类的存储器的组合。
该计算机设备还包括输入装置30和输出装置40。处理器10、存储器20、输入装置30和输出装置40可以通过总线或者其他方式连接,图6中以通过总线连接为例。
输入装置30可接收输入的数字或字符信息,以及产生与该计算机设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等。输出装置40可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。上述显示设备包括但不限于液晶显示器,发光二极管,显示器和等离子体显示器。在一些可选的实施方式中,显示设备可以是触摸屏。
本发明实施例还提供了一种计算机可读存储介质,上述根据本发明实施例的方法可在硬件、固件中实现,或者被实现为可记录在存储介质,或者被实现通过网络下载的原始存储在远程存储介质或非暂时机器可读存储介质中并将被存储在本地存储介质中的计算机代码,从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件的存储介质上的这样的软件处理。其中,存储介质可为磁碟、光盘、只读存储记忆体、随机存储记忆体、快闪存储器、硬盘或固态硬盘等;进一步地,存储介质还可以包括上述种类的存储器的组合。可以理解,计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件,当软件或计算机代码被计算机、处理器或硬件访问且执行时,实现上述实施例示出的方法。
虽然结合附图描述了本发明的实施例,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。
Claims (7)
1.一种目标检测的方法,其特征在于,所述方法包括:
获取用于训练的多种数据集,所述多种数据集包括:分类数据集、语义分割数据集、部分标注数据集和标签宽泛数据集;
根据所述多种数据集对目标检测模型进行训练;其中,所述目标检测模型为全卷积单阶段目标检测模型,所述分类数据集用于训练所述目标检测模型的分类分支和/或中心度分支,所述语义分割数据集用于训练所述目标检测模型的分类分支,所述部分标注数据集中的已标注数据用于训练所述目标检测模型的分类分支、边框回归分支和中心度分支,所述标签宽泛数据集中与所需的标签相一致的数据训练所述目标检测模型的分类分支、边框回归分支和中心度分支;
得到训练后的目标检测模型;
根据所述目标检测模型,对待识别图像进行目标检测,识别出所述待识别图像中的对象;
其中,所述方法还包括:预设初始的目标检测模型;
所述根据所述多种数据集对目标检测模型进行训练,包括:
将所述初始的目标检测模型作为教师模型;
根据所述数据集的标注情况,将所述数据集中的数据划分出标注区域和未标注区域;将所述标注区域内的锚点作为正样本锚点;
根据所述教师模型对所述未标注区域进行目标检测,确定所述未标注区域中锚点的中心度;
将中心度大于第一预设阈值的锚点作为具有伪标签的伪样本锚点,将中心度小于第二预设阈值的锚点作为负样本锚点;所述第一预设阈值大于或等于所述第二预设阈值;
根据所述正样本锚点、所述伪样本锚点和所述负样本锚点进行半监督学习,得到相应的学生模型,所述学生模型为全卷积单阶段目标检测模型;
所述根据所述数据集的标注情况,将所述数据集中的数据划分出标注区域和未标注区域,包括:
设置用于表示尺寸的超参数,并确定所述分类数据集中分类数据的中心坐标;
将以所述中心坐标为中心,所述超参数范围内的区域作为所述分类数据的标注区域。
2.根据权利要求1所述的方法,其特征在于,所述根据所述数据集的标注情况,将所述数据集中的数据划分出标注区域和未标注区域,还包括:
根据所述教师模型对所述标签宽泛数据集中的标签宽泛数据进行目标检测,确定所述标签宽泛数据中边框的分类得分;
在所述分类得分大于第三预设阈值的情况下,将所述边框所对应的区域作为所述标签宽泛数据的第一标注区域;所述标签宽泛数据集中第一标注区域的正样本锚点用于训练所述学生模型的分类分支、边框回归分支和中心度分支。
3.根据权利要求2所述的方法,其特征在于,所述根据所述数据集的标注情况,将所述数据集中的数据划分出标注区域和未标注区域,还包括:
在所述分类得分小于第四预设阈值的情况下,将所述边框所对应的区域作为所述标签宽泛数据的第二标注区域;所述标签宽泛数据集中第二标注区域的正样本锚点用于训练所述学生模型的边框回归分支和中心度分支;所述第四预设阈值小于或等于所述第三预设阈值。
4.根据权利要求1所述的方法,其特征在于,所述根据所述多种数据集对目标检测模型进行训练,还包括:
对所述分类数据集中的分类数据进行弱监督分割处理,确定所述分类数据中的边框;所述分类数据的边框内的正样本锚点用于训练所述学生模型的分类分支、边框回归分支和中心度分支;
对所述语义分割数据集中的语义分割数据进行弱监督分割处理,确定所述语义分割数据中的边框;所述语义分割数据的边框内的正样本锚点用于训练所述学生模型的分类分支、边框回归分支和中心度分支。
5.一种目标检测的装置,其特征在于,所述装置包括:
获取模块,用于获取用于训练的多种数据集,所述多种数据集包括:分类数据集、语义分割数据集、部分标注数据集和标签宽泛数据集;
训练模块,用于根据所述多种数据集对目标检测模型进行训练,得到训练后的目标检测模型;其中,所述目标检测模型为全卷积单阶段目标检测模型,所述分类数据集用于训练所述目标检测模型的分类分支和/或中心度分支,所述语义分割数据集用于训练所述目标检测模型的分类分支,所述部分标注数据集中的已标注数据用于训练所述目标检测模型的分类分支、边框回归分支和中心度分支,所述标签宽泛数据集中与所需的标签相一致的数据训练所述目标检测模型的分类分支、边框回归分支和中心度分支;
根据所述目标检测模型,对待识别图像进行目标检测,识别出所述待识别图像中的对象;
预设模块,用于预设初始的目标检测模型;
所述训练模块根据所述多种数据集对所述目标检测模型进行训练,包括:
将所述初始的目标检测模型作为教师模型;
根据所述数据集的标注情况,将所述数据集中的数据划分出标注区域和未标注区域;将所述标注区域内的锚点作为正样本锚点;
根据所述教师模型对所述未标注区域进行目标检测,确定所述未标注区域中锚点的中心度;
将中心度大于第一预设阈值的锚点作为具有伪标签的伪样本锚点,将中心度小于第二预设阈值的锚点作为负样本锚点;所述第一预设阈值大于或等于所述第二预设阈值;
根据所述正样本锚点、所述伪样本锚点和所述负样本锚点进行半监督学习,得到相应的学生模型,所述学生模型为全卷积单阶段目标检测模型;
所述训练模块根据所述数据集的标注情况,将所述数据集中的数据划分出标注区域和未标注区域,包括:
设置用于表示尺寸的超参数,并确定所述分类数据集中分类数据的中心坐标;
将以所述中心坐标为中心,所述超参数范围内的区域作为所述分类数据的标注区域。
6.一种计算机设备,其特征在于,包括:
存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行权利要求1至4中任一项所述的目标检测的方法。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机指令,所述计算机指令用于使计算机执行权利要求1至4中任一项所述的目标检测的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311176243.6A CN116935168B (zh) | 2023-09-13 | 2023-09-13 | 目标检测的方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311176243.6A CN116935168B (zh) | 2023-09-13 | 2023-09-13 | 目标检测的方法、装置、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116935168A CN116935168A (zh) | 2023-10-24 |
CN116935168B true CN116935168B (zh) | 2024-01-30 |
Family
ID=88384591
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311176243.6A Active CN116935168B (zh) | 2023-09-13 | 2023-09-13 | 目标检测的方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116935168B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113159048A (zh) * | 2021-04-23 | 2021-07-23 | 杭州电子科技大学 | 一种基于深度学习的弱监督语义分割方法 |
CN113610126A (zh) * | 2021-07-23 | 2021-11-05 | 武汉工程大学 | 基于多目标检测模型无标签的知识蒸馏方法及存储介质 |
CN114565824A (zh) * | 2022-03-02 | 2022-05-31 | 西安电子科技大学 | 基于全卷积网络的单阶段旋转舰船检测方法 |
CN116486296A (zh) * | 2023-03-20 | 2023-07-25 | 重庆特斯联启智科技有限公司 | 目标检测方法、装置及计算机可读存储介质 |
-
2023
- 2023-09-13 CN CN202311176243.6A patent/CN116935168B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113159048A (zh) * | 2021-04-23 | 2021-07-23 | 杭州电子科技大学 | 一种基于深度学习的弱监督语义分割方法 |
CN113610126A (zh) * | 2021-07-23 | 2021-11-05 | 武汉工程大学 | 基于多目标检测模型无标签的知识蒸馏方法及存储介质 |
CN114565824A (zh) * | 2022-03-02 | 2022-05-31 | 西安电子科技大学 | 基于全卷积网络的单阶段旋转舰船检测方法 |
CN116486296A (zh) * | 2023-03-20 | 2023-07-25 | 重庆特斯联启智科技有限公司 | 目标检测方法、装置及计算机可读存储介质 |
Non-Patent Citations (2)
Title |
---|
End-to-End Semi-Supervised Object Detection with Soft Teacher;Mengde Xu等;《arXiv:2106.09018v3》;第1-10页 * |
FCOS: A Simple and Strong Anchor-free Object Detector;Zhi Tian等;《arXiv:2006.09214v3》;第1-13页 * |
Also Published As
Publication number | Publication date |
---|---|
CN116935168A (zh) | 2023-10-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111046980B (zh) | 一种图像检测方法、装置、设备及计算机可读存储介质 | |
EP3806064A1 (en) | Method and apparatus for detecting parking space usage condition, electronic device, and storage medium | |
JP2018200685A (ja) | 完全教師あり学習用のデータセットの形成 | |
CN113095434B (zh) | 目标检测方法及装置、电子设备、存储介质 | |
CN112861975B (zh) | 分类模型的生成方法、分类方法、装置、电子设备与介质 | |
CN111274926B (zh) | 图像数据筛选方法、装置、计算机设备和存储介质 | |
WO2022141858A1 (zh) | 行人检测方法、装置、电子设备及存储介质 | |
CN113537070B (zh) | 一种检测方法、装置、电子设备及存储介质 | |
CN111680753A (zh) | 一种数据标注方法、装置、电子设备及存储介质 | |
CN114730486B (zh) | 用于生成用于对象检测的训练数据的方法和*** | |
CN110909656B (zh) | 一种雷达与摄像机融合的行人检测方法和*** | |
CN115830399A (zh) | 分类模型训练方法、装置、设备、存储介质和程序产品 | |
CN114820679A (zh) | 图像标注方法、装置、电子设备和存储介质 | |
CN113223011B (zh) | 基于引导网络和全连接条件随机场的小样本图像分割方法 | |
CN110766045A (zh) | 一种地下排水管道病害识别方法、智能终端及存储介质 | |
CN114419603A (zh) | 一种自动驾驶车辆控制方法、***和自动驾驶车辆 | |
CN117011413B (zh) | 道路图像重建方法、装置、计算机设备和存储介质 | |
CN117437647A (zh) | 基于深度学习和计算机视觉的甲骨文字检测方法 | |
CN116935168B (zh) | 目标检测的方法、装置、计算机设备及存储介质 | |
KR102026280B1 (ko) | 딥 러닝을 이용한 씬 텍스트 검출 방법 및 시스템 | |
CN112529116B (zh) | 场景元素融合处理方法、装置和设备及计算机存储介质 | |
US11615618B2 (en) | Automatic image annotations | |
Iparraguirre et al. | Road marking damage detection based on deep learning for infrastructure evaluation in emerging autonomous driving | |
US20230085938A1 (en) | Visual analytics systems to diagnose and improve deep learning models for movable objects in autonomous driving | |
CN111428724B (zh) | 一种试卷手写统分方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |